上线前先确认成本边界
AI 功能上线前,很多团队会重点检查效果、延迟和稳定性,却忽略成本边界。等真实用户开始使用后,账单才暴露出 token 过长、重试过多、模型过强或日志不完整的问题。
下面是一份适合产品发布前使用的 AI API 成本检查清单。
1. 模型选择是否分层
不要默认所有请求都使用最强模型。上线前应确认:
- 是否有默认低成本模型
- 是否有高质量模型用于复杂任务
- 是否有 fallback 逻辑
- fallback 是否会切到更贵模型
- 后台批量任务是否和用户实时任务分开
可以先查看 模型价格表,再阅读 推理模型和文本模型的成本选择 与 低成本 AI 模型选择,决定哪些任务需要升级模型。
2. token 预算是否来自真实样本
预算不应只来自 prompt 的理论长度。至少要用真实样本统计:
- 平均输入 token
- P90 输入 token
- 平均输出 token
- P90 输出 token
- 多轮对话累计长度
如果没有真实样本,先用保守估计,并在 文本模型计算器 中做多档预算;需要表格化记录假设时,可以配合 AI 应用 Token 预算模板 使用。
3. 缓存命中率是否经过验证
如果预算依赖提示词缓存,就要确认缓存结构已经稳定。检查:
- 固定 prompt 是否真的固定
- 动态变量是否破坏缓存前缀
- 工具说明是否适合缓存
- 真实命中率是否被日志记录
不要把未验证的 80% 命中率直接写进正式预算。
4. 重试策略是否有上限
重试能提高稳定性,也能放大账单。上线前需要确认:
- SDK 自动重试次数
- 队列任务重试次数
- 超时后是否会重复完整请求
- 用户刷新页面是否重复提交
- 是否有幂等键或去重逻辑
对长输出任务来说,一次失败重试可能意味着整段输出重新计费。
5. 日志字段是否足够核账
至少记录这些字段,后续才能解释账单:
| 字段 | 用途 |
|---|---|
| model | 判断是否调用了预期模型 |
| input tokens | 核对输入成本 |
| output tokens | 核对输出成本 |
| cache hit tokens | 核对缓存收益 |
| request id | 排查重复调用 |
| feature name | 区分不同产品功能成本 |
没有这些字段,账单异常时只能猜测原因。
6. 是否设置账单告警
上线前应该设置日预算、月预算或异常增长告警。告警阈值可以按基础预算、增长预算和异常预算三档设置,而不是只设置一个月底总额。
7. 是否有降级方案
当成本超过预期时,应该有明确处理方式:
- 临时切换低成本模型
- 限制最大输出长度
- 降低重试次数
- 关闭非核心批量任务
- 对高成本功能增加额度限制
降级方案应提前准备,而不是账单异常后临时修改代码。
总结
AI 功能上线前的成本检查,核心是确认模型、token、缓存、重试、日志、告警和降级策略都已经可控。只要这些边界清晰,团队就能更放心地发布功能,并在真实流量到来后快速定位成本变化。