什么是提示词缓存
提示词缓存(Prompt Caching)允许 API 调用时复用之前已处理的上下文,避免对相同的长 prompt 重复计费。Anthropic 和 DeepSeek 都已支持这一机制,但实现方式和计费逻辑不同。
Anthropic 提示词缓存
Anthropic 的提示词缓存通过 cache_control 参数控制。首次写入缓存会产生额外费用,后续命中缓存的输入 token 按更低价格计费。
计费结构
| 计费项 | 价格(每 1M tokens) |
|---|---|
| 基础输入 | $3.00 / ¥21.60 |
| 缓存命中输入 | $0.30 / ¥2.16 |
| 输出 | $15.00 / ¥108.00 |
| 缓存创建(一次性) | $3.75 / ¥27.00 |
什么时候划算
假设每次请求发送 50K token 的 system prompt,每天调用 1,000 次:
- 不使用缓存:50K × 1,000 × $3.00/1M = $150/天
- 使用缓存:缓存创建 $3.75 + 50K × 1,000 × $0.30/1M = $18.75/天
节省约 87.5%。
DeepSeek 缓存机制
DeepSeek 的缓存策略更简单:缓存命中与未命中的输入分别计费,没有额外的创建费用。
| 计费项 | 价格(每 1M tokens) |
|---|---|
| 输入(未命中) | $0.14 / ¥1.01 |
| 输入(命中) | $0.014 / ¥0.10 |
| 输出 | $0.28 / ¥2.02 |
DeepSeek 的缓存命中价格只有未命中的 1/10,差距比 Anthropic 更大。
实际场景对比
以 DeepSeek-V4-Pro 为例,每天 10,000 次请求,每次输入 20K token:
| 场景 | 日成本 |
|---|---|
| 全部未命中 | ¥202 |
| 50% 命中 | ¥106 |
| 90% 命中 | ¥30.2 |
如何通过计算器验证
- 打开 文本模型计算器
- 选择对应模型(Anthropic 选 Claude Sonnet 4.6,DeepSeek 选 V4 Pro)
- 在「缓存未命中」填入首次处理的 token 数
- 在「缓存命中」填入从缓存读取的 token 数
- 填入输出 token 数
- 切换到 CNY 查看人民币成本
拖动「添加模型」可以同时在多个模型间对比缓存收益。如果要把命中率做成上线预算区间,可以继续看 缓存命中率如何影响 AI API 成本。
提升缓存命中率的技巧
- 固定 system prompt — 缓存按前缀匹配,system prompt 变化会导致缓存失效
- 将不变内容放在前面 — 缓存通常匹配 prompt 开头的连续片段
- 避免动态时间戳 — 每次请求的时间戳差异会使缓存无法命中
- 批量处理相似请求 — 短时间内相同 prompt 更容易保持缓存有效
结论
如果你的应用满足以下条件,提示词缓存值得接入:
- 每次请求携带大量固定上下文(>10K tokens)
- 请求频率高(每天数百次以上)
- prompt 结构相对稳定
用 文本模型计算器 输入你的实际参数,看看能省多少;如果是 RAG 或 Agent 场景,也建议结合 RAG 聊天机器人成本估算 或 AI Agent 成本规划 一起评估。