缓存命中率决定输入成本是否可控
提示词缓存不是简单的“开启就省钱”。它真正影响成本的方式,是把一部分重复输入从正常输入价格转为缓存读取价格。命中率越高,重复上下文越多,节省就越明显。
对于支持缓存的模型,输入 token 通常可以分成两类:
- 缓存未命中:模型第一次处理的输入,按正常输入价格计费。
- 缓存命中:已经被缓存并复用的输入,按更低价格计费。
你可以在 文本模型计算器 中分别填写这两类 token,观察不同命中率下的成本变化。如果要先理解缓存单价和节省幅度,可以先读 提示词缓存能省多少?。
命中率怎么估算
缓存命中率可以理解为:在总输入 token 中,有多少比例可以被复用。
缓存命中率 = 缓存命中 token / 总输入 token
例如每次请求包含 20K token,其中 12K 是固定系统提示词、工具说明或知识库片段,8K 是用户本次输入。如果固定部分能稳定复用,理论命中率约为 60%。
哪些内容适合缓存
适合缓存的内容通常具有三个特点:
- 多次请求重复出现。
- 内容较长,重复处理成本高。
- 不需要每次实时变化。
常见例子包括:
- 系统提示词
- 长规则说明
- 工具调用说明
- 固定知识库摘要
- 长文档的稳定前缀
用户输入、实时状态、当前时间、临时上下文通常不适合纳入缓存假设。
用 0%、50%、80% 做预算区间
上线前不要只算一个理想命中率。建议至少计算三档:
| 命中率 | 含义 | 用途 |
|---|---|---|
| 0% | 完全没有缓存 | 最保守预算 |
| 50% | 一半输入可复用 | 常规预估 |
| 80% | 大量上下文稳定 | 乐观预估 |
如果 0% 命中率下预算也能接受,说明成本风险较低。如果只有 80% 命中率才可接受,就需要先验证缓存策略,再把它写进上线预算。
缓存不解决输出成本
缓存只影响输入相关成本。对于写作、代码生成、报告生成等长输出场景,输出 token 仍然可能是主要账单来源。
因此,即使缓存命中率很高,也应该同时参考 降低 AI API 成本的 7 个方法 控制其他变量:
- 输出长度
- 是否需要多轮重试
- 是否需要模型生成完整解释
- 是否可以用结构化短答案替代长答案
什么时候值得改造缓存结构
如果你的请求量较低、输入较短,缓存改造带来的收益可能不大。更值得优先考虑缓存的场景包括:
- 每天有大量重复请求
- 每次请求带有长系统 prompt
- Agent 工具说明很长
- 长文档问答需要复用上下文
- 企业客户工作流有固定知识背景
可以先用 提示词缓存节省分析 中的方法估算收益,再决定是否投入工程改造。
总结
缓存命中率是 AI API 成本估算中的关键变量。它能显著降低重复输入成本,但不会降低输出成本,也不应该被过度乐观地写入预算。上线前用多档命中率计算成本区间,能更早发现缓存策略是否真的支撑你的产品模型。