缓存命中率如何影响 AI API 成本

缓存命中率决定输入成本是否可控

提示词缓存不是简单的“开启就省钱”。它真正影响成本的方式，是把一部分重复输入从正常输入价格转为缓存读取价格。命中率越高，重复上下文越多，节省就越明显。

对于支持缓存的模型，输入 token 通常可以分成两类：

你可以在文本模型计算器中分别填写这两类 token，观察不同命中率下的成本变化。如果要先理解缓存单价和节省幅度，可以先读提示词缓存能省多少？。

缓存命中率可以理解为：在总输入 token 中，有多少比例可以被复用。

缓存命中率 = 缓存命中 token / 总输入 token

例如每次请求包含 20K token，其中 12K 是固定系统提示词、工具说明或知识库片段，8K 是用户本次输入。如果固定部分能稳定复用，理论命中率约为 60%。

适合缓存的内容通常具有三个特点：

常见例子包括：

用户输入、实时状态、当前时间、临时上下文通常不适合纳入缓存假设。

上线前不要只算一个理想命中率。建议至少计算三档：

如果 0% 命中率下预算也能接受，说明成本风险较低。如果只有 80% 命中率才可接受，就需要先验证缓存策略，再把它写进上线预算。

缓存只影响输入相关成本。对于写作、代码生成、报告生成等长输出场景，输出 token 仍然可能是主要账单来源。

因此，即使缓存命中率很高，也应该同时参考降低 AI API 成本的 7 个方法控制其他变量：

如果你的请求量较低、输入较短，缓存改造带来的收益可能不大。更值得优先考虑缓存的场景包括：

可以先用提示词缓存节省分析中的方法估算收益，再决定是否投入工程改造。

缓存命中率是 AI API 成本估算中的关键变量。它能显著降低重复输入成本，但不会降低输出成本，也不应该被过度乐观地写入预算。上线前用多档命中率计算成本区间，能更早发现缓存策略是否真的支撑你的产品模型。