跳到内容
AI

提示词缓存能省多少?深度解析

AI

AI Cost Calculator

更新于:

1 分钟阅读

什么是提示词缓存

提示词缓存(Prompt Caching)允许 API 调用时复用之前已处理的上下文,避免对相同的长 prompt 重复计费。Anthropic 和 DeepSeek 都已支持这一机制,但实现方式和计费逻辑不同。

Anthropic 提示词缓存

Anthropic 的提示词缓存通过 cache_control 参数控制。首次写入缓存会产生额外费用,后续命中缓存的输入 token 按更低价格计费。

计费结构

计费项价格(每 1M tokens)
基础输入$3.00 / ¥21.60
缓存命中输入$0.30 / ¥2.16
输出$15.00 / ¥108.00
缓存创建(一次性)$3.75 / ¥27.00

什么时候划算

假设每次请求发送 50K token 的 system prompt,每天调用 1,000 次:

  • 不使用缓存:50K × 1,000 × $3.00/1M = $150/天
  • 使用缓存:缓存创建 $3.75 + 50K × 1,000 × $0.30/1M = $18.75/天

节省约 87.5%

DeepSeek 缓存机制

DeepSeek 的缓存策略更简单:缓存命中与未命中的输入分别计费,没有额外的创建费用。

计费项价格(每 1M tokens)
输入(未命中)$0.14 / ¥1.01
输入(命中)$0.014 / ¥0.10
输出$0.28 / ¥2.02

DeepSeek 的缓存命中价格只有未命中的 1/10,差距比 Anthropic 更大。

实际场景对比

以 DeepSeek-V4-Pro 为例,每天 10,000 次请求,每次输入 20K token:

场景日成本
全部未命中¥202
50% 命中¥106
90% 命中¥30.2

如何通过计算器验证

  1. 打开 文本模型计算器
  2. 选择对应模型(Anthropic 选 Claude Sonnet 4.6,DeepSeek 选 V4 Pro)
  3. 在「缓存未命中」填入首次处理的 token 数
  4. 在「缓存命中」填入从缓存读取的 token 数
  5. 填入输出 token 数
  6. 切换到 CNY 查看人民币成本

拖动「添加模型」可以同时在多个模型间对比缓存收益。如果要把命中率做成上线预算区间,可以继续看 缓存命中率如何影响 AI API 成本

提升缓存命中率的技巧

  1. 固定 system prompt — 缓存按前缀匹配,system prompt 变化会导致缓存失效
  2. 将不变内容放在前面 — 缓存通常匹配 prompt 开头的连续片段
  3. 避免动态时间戳 — 每次请求的时间戳差异会使缓存无法命中
  4. 批量处理相似请求 — 短时间内相同 prompt 更容易保持缓存有效

结论

如果你的应用满足以下条件,提示词缓存值得接入:

  • 每次请求携带大量固定上下文(>10K tokens)
  • 请求频率高(每天数百次以上)
  • prompt 结构相对稳定

文本模型计算器 输入你的实际参数,看看能省多少;如果是 RAG 或 Agent 场景,也建议结合 RAG 聊天机器人成本估算AI Agent 成本规划 一起评估。

推荐阅读

降低 AI API 成本的 7 个实用方法

整理降低 AI API 成本的 7 个实用方法,包括缩短上下文、控制输出长度、使用缓存、模型分层、批处理、限流和监控异常请求,适合上线后持续优化模型调用费用,并通过请求配额、账单监控、失败重试分析和高成本场景拆分减少无效 token 消耗。

阅读全文

AI 应用 Token 预算模板:上线前怎么填

提供一个实用的 AI 应用 Token 预算模板,帮助团队在上线前填写请求量、输入 token、输出 token、缓存比例、模型单价和安全余量,快速得到月度 API 成本估算,并在上线后用真实请求量、平均 token、缓存命中率和账单金额持续校准预算。

阅读全文

如何选择低成本 AI 模型而不牺牲效果

从任务类型、输入输出长度、上下文需求、缓存能力和失败成本出发选择低成本 AI 模型,帮助开发者在 Claude、GPT、Gemini、DeepSeek 等模型之间做更实际的预算取舍,并结合成功率、重试率、人工审核时间和真实样本测试,避免只按单价选择模型。

阅读全文