提示词缓存能省多少？深度解析

提示词缓存成本优化 Anthropic DeepSeek

AI

AI Cost Calculator

2026年5月30日

1 分钟阅读

什么是提示词缓存

提示词缓存（Prompt Caching）允许 API 调用时复用之前已处理的上下文，避免对相同的长 prompt 重复计费。Anthropic 和 DeepSeek 都已支持这一机制，但实现方式和计费逻辑不同。

Anthropic 提示词缓存

Anthropic 的提示词缓存通过 cache_control 参数控制。首次写入缓存会产生额外费用，后续命中缓存的输入 token 按更低价格计费。

计费结构

计费项	价格（每 1M tokens）
基础输入	$3.00 / ¥21.60
缓存命中输入	$0.30 / ¥2.16
输出	$15.00 / ¥108.00
缓存创建（一次性）	$3.75 / ¥27.00

什么时候划算

假设每次请求发送 50K token 的 system prompt，每天调用 1,000 次：

不使用缓存：50K × 1,000 × $3.00/1M = $150/天
使用缓存：缓存创建 $3.75 + 50K × 1,000 × $0.30/1M = $18.75/天

节省约 87.5%。

DeepSeek 缓存机制

DeepSeek 的缓存策略更简单：缓存命中与未命中的输入分别计费，没有额外的创建费用。

计费项	价格（每 1M tokens）
输入（未命中）	$0.14 / ¥1.01
输入（命中）	$0.014 / ¥0.10
输出	$0.28 / ¥2.02

DeepSeek 的缓存命中价格只有未命中的 1/10，差距比 Anthropic 更大。

实际场景对比

以 DeepSeek-V4-Pro 为例，每天 10,000 次请求，每次输入 20K token：

场景	日成本
全部未命中	¥202
50% 命中	¥106
90% 命中	¥30.2

如何通过计算器验证

打开文本模型计算器
选择对应模型（Anthropic 选 Claude Sonnet 4.6，DeepSeek 选 V4 Pro）
在「缓存未命中」填入首次处理的 token 数
在「缓存命中」填入从缓存读取的 token 数
填入输出 token 数
切换到 CNY 查看人民币成本

拖动「添加模型」可以同时在多个模型间对比缓存收益。如果要把命中率做成上线预算区间，可以继续看缓存命中率如何影响 AI API 成本。

提升缓存命中率的技巧

固定 system prompt — 缓存按前缀匹配，system prompt 变化会导致缓存失效
将不变内容放在前面 — 缓存通常匹配 prompt 开头的连续片段
避免动态时间戳 — 每次请求的时间戳差异会使缓存无法命中
批量处理相似请求 — 短时间内相同 prompt 更容易保持缓存有效

结论

如果你的应用满足以下条件，提示词缓存值得接入：

每次请求携带大量固定上下文（>10K tokens）
请求频率高（每天数百次以上）
prompt 结构相对稳定

用文本模型计算器输入你的实际参数，看看能省多少；如果是 RAG 或 Agent 场景，也建议结合 RAG 聊天机器人成本估算或 AI Agent 成本规划一起评估。

推荐阅读

2026年6月29日

成本预测预算管理

AI API 用量预测常见错误：为什么预算总是低估

AI API 用量预测常见错误清单，讲清为什么团队会低估 LLM 预算：只看平均请求成本、忽略输出 token 增长、过早假设缓存收益、漏算重试和 fallback、把评测和批处理混进用户流量、把 Agent 任务当成一次请求，以及不做每周预测对账。

阅读全文

2026年6月28日

成本预测预算管理

AI API 成本预测指南：上线前估算下月账单

AI API 成本预测指南，帮助团队在上线或扩容前，根据用户量、请求次数、输入输出 token、模型路由、重试率、缓存命中率、评测流量、Agent 步数和批处理任务建立基准、增长和压力三种预算场景，提前发现账单风险。

阅读全文

2026年6月27日

成本治理预算管理

AI API 月度成本复盘：从账单数字找到真正失控的功能

AI API 月度成本复盘指南，帮助团队把 Claude、GPT、Gemini、DeepSeek 等模型账单拆成按功能、模型、Token、重试率、缓存命中率和 Agent 工具调用的复盘表，定位成本偏差，更新预算假设，并把复盘结论转成下月 AI 成本治理动作。

阅读全文