先把预算拆成可计算变量
很多团队在接入 AI API 时,只会问“这个模型贵不贵”。真正影响账单的不是单价本身,而是单价、请求量、输入长度、输出长度和缓存命中率共同作用后的结果。上线前把这些变量拆开,才能得到接近真实账单的预算。
一个月度预算可以从这几个问题开始:
- 每天大约有多少次 API 请求?
- 每次请求平均输入多少 token?
- 每次响应平均输出多少 token?
- 是否有大量重复上下文可以缓存?
- 是否需要同时准备便宜模型和高质量模型两套方案?
如果这些数字还不确定,可以先用保守估计,做低、中、高三档预算。
预算公式
文本模型的基础预算可以写成:
月成本 = 单次请求成本 × 每日请求量 × 30
单次请求成本再拆成:
输入成本 + 输出成本 + 缓存相关成本
你可以分别填写缓存未命中、缓存命中和输出 token。这样比只输入“总 token 数”更接近真实账单,因为很多模型的输入、输出、缓存读取价格并不相同。
建议做三档预算
1. 基础档:当前流量
基础档按当前可预期流量估算,例如内测用户、现有日活或少量企业客户。这个档位用于判断产品是否能正常启动,不需要过度悲观。
2. 增长档:流量扩大 3-5 倍
增长档用于评估营销活动、客户导入或功能开放后的账单压力。很多 AI 产品的问题不是单次请求贵,而是调用量增长后才发现输出 token 成本被低估。
3. 异常档:长输出和重试
异常档要考虑用户输入超长、模型输出过长、请求失败重试、批量任务堆积等情况。即使这些情况不常见,也可能在短时间内放大账单。
不要只看输入价格
有些模型输入价格很低,但输出价格明显更高。如果产品场景是长文生成、报告生成、代码生成或多轮 Agent,输出 token 往往会成为主要成本。
在做预算时,至少要分别估算:
| 场景 | 输入特点 | 输出特点 | 预算关注点 |
|---|---|---|---|
| 分类 | 短输入 | 短输出 | 请求量 |
| 摘要 | 长输入 | 中等输出 | 输入 token |
| 写作 | 中等输入 | 长输出 | 输出 token |
| Agent | 长上下文 | 多轮输出 | 缓存和重试 |
什么时候加入缓存假设
如果每次请求都包含相同的系统提示词、知识库片段或工具说明,提示词缓存可能显著降低输入成本。你可以先阅读 提示词缓存能省多少?,再在计算器里把一部分输入 token 放到缓存命中字段。上线前需要表格化记录这些假设时,可以使用 AI 应用 Token 预算模板。
缓存假设不要写得太乐观。上线前可以用 0%、50%、80% 三个命中率做对比,避免把预算建立在尚未验证的命中率上。
给预算留安全余量
AI API 预算不应该刚好等于计算结果。建议至少额外预留:
- 测试和调试调用
- 失败重试
- 用户输入异常增长
- 模型价格或汇率变动
- 临时切换更强模型的成本
对于刚上线的产品,安全余量通常比精确到小数点更重要。
建议的预算流程
总结
规划 AI API 月度预算时,不要只比较模型单价。更可靠的方法是把请求量、输入、输出、缓存和异常用量拆开计算,再用多档流量做压力测试。这样既能控制成本,也能避免产品上线后因为账单不确定而被迫降低功能质量。