如果你只看到一句话:**2026 年 6 月,按”输入 + 输出 + 缓存”综合性价比排序,**最经济的五个 API 是 DeepSeek V4 Pro、Gemini 2.5 Flash Lite、Claude Haiku 4.5、GPT-5.4 mini、Mistral Small 4;最贵但最强的三个是 GPT-5.5、Claude Opus 4.7、qwen3.7-max。
这是一篇可以让你 10 分钟做完模型选型决策的母页面:先看完整的 33 个模型价格对照表,再了解四种主流计费模式、长上下文成本曲线、6 大真实业务场景的月成本估算、隐藏成本清单,最后是 5 条优化策略和 5 个高频疑问。
数据更新于 2026-05-28(来源:各官方定价页,详见每个模型的 sourceUrl)。下次更新计划:2026-07-15。
一、AI API 价格对照表(30+ 大模型 · 2026 年 6 月)
单位:USD / 1M tokens(国产模型按 CNY 标注)。
Cache Read是命中缓存的输入价。“类别”区分推理模型(reasoning)和文本模型(text),二者计费逻辑不同,下一节展开。
OpenAI(5 款)
| 模型 | 输入 | 输出 | 缓存读 | 类别 | 备注 |
|---|---|---|---|---|---|
| GPT-5.5 | $5.00 | $30.00 | $0.50 | reasoning | 270K 以下标准价;batch -50% |
| GPT-5.4 | $2.50 | $15.00 | $0.25 | reasoning | 性价比平衡档 |
| GPT-5.4 mini | $0.75 | $4.50 | $0.075 | reasoning | 推理型小模型 |
| GPT-4.1 | $2.00 | $8.00 | $0.50 | text | 老款主力 |
| GPT-4.1 mini | $0.40 | $1.60 | $0.10 | text | 长尾任务首选 |
速读:270K 以上 context,GPT-5.5 价格翻倍,必须留意;batch 模式可砍一半,但延迟接受 24h。
Anthropic(3 款)
| 模型 | 输入 | 输出 | 缓存写 | 缓存读 | 类别 |
|---|---|---|---|---|---|
| Claude Opus 4.7 | $5.00 | $25.00 | $6.25 | $0.50 | reasoning |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $3.75 | $0.30 | reasoning |
| Claude Haiku 4.5 | $1.00 | $5.00 | $1.25 | $0.10 | text |
速读:Anthropic 是唯一缓存写单独计费的家族——首次写缓存比 uncached 输入贵 25%,但后续命中只要 10%。复用率 ≥ 4 次才回本。
Google(4 款)
| 模型 | 输入 | 输出 | 缓存读 | 类别 |
|---|---|---|---|---|
| Gemini 2.5 Pro | $1.25 | $10.00 | $0.125 | reasoning |
| Gemini 2.5 Flash | $0.30 | $2.50 | $0.03 | reasoning |
| Gemini 2.5 Flash Lite | $0.10 | $0.40 | $0.01 | reasoning |
| Gemini 3.1 Flash Lite | $0.25 | $1.50 | $0.025 | reasoning |
速读:Flash Lite 是 2026 年价格地板——输入 $0.10/M,比所有海外竞品都便宜 4-10 倍。代价:能力比 Pro 弱一档。
DeepSeek / MiniMax / Zhipu / Qwen / Moonshot(国产 14 款)
| 厂家 | 模型 | 输入 | 输出 | 缓存读 | 货币 |
|---|---|---|---|---|---|
| DeepSeek | V4 Pro | $0.14 | $0.28 | $0.0028 | USD |
| MiniMax | M2.7 | $2.10 | $8.40 | $0.42 | USD |
| MiniMax | M2.7-highspeed | $4.20 | $16.80 | $0.42 | USD |
| MiniMax | M2.5 | $2.10 | $8.40 | $0.21 | USD |
| Zhipu | GLM-5.1 | $6.00 | $24.00 | $1.30 | USD |
| Zhipu | GLM-5-Turbo | $5.00 | $22.00 | $1.20 | USD |
| Zhipu | GLM-5 | $4.00 | $18.00 | $1.00 | USD |
| Qwen | qwen3.7-max | $12.00 | $36.00 | — | USD |
| Qwen | qwen3-max | $2.50 | $10.00 | — | USD |
| Qwen | qwen-max | $2.40 | $9.60 | — | USD |
| Qwen | qwen-plus | $0.80 | $2.00 | — | USD |
| Qwen | qwen-turbo | $0.30 | $0.60 | — | USD |
| Moonshot | kimi-k2.6 | $6.50 | $27.00 | $1.10 | USD |
| Moonshot | kimi-k2.5 | $4.00 | $21.00 | $0.70 | USD |
| Moonshot | moonshot-v1-32k | $5.00 | $20.00 | — | USD |
速读:DeepSeek V4 Pro 是 30+ 模型里绝对价格地板(输入 $0.14、输出 $0.28),对中文任务尤其友好;qwen3.7-max 和 GLM-5.1 反而贵过 Claude Sonnet——别只看是不是国产,要看具体型号。
Mistral(10 款)
| 模型 | 输入 | 输出 | 类别 |
|---|---|---|---|
| Mistral Large 3 | $0.50 | $1.50 | reasoning |
| Mistral Medium 3.5 | $1.50 | $7.50 | reasoning |
| Mistral Small 4 | $0.10 | $0.30 | text |
| Magistral Medium | $2.00 | $5.00 | reasoning |
| Magistral Small | $0.50 | $1.50 | reasoning |
| Devstral 2 | $0.40 | $2.00 | reasoning |
| Devstral Small 2 | $0.10 | $0.30 | text |
| Codestral | $0.30 | $0.90 | text |
| Ministral 3 3B | $0.10 | $0.10 | text |
| Ministral 3 8B | $0.15 | $0.15 | text |
速读:Ministral 3B/8B 是 EU 数据驻留场景下最便宜的 chat 模型;Codestral 是欧洲版 codegen 首选。Mistral 没有 cache read 折扣,长 context 任务整体不如 Claude/Gemini。
完整字段(含 sourceUrl、updatedAt、pricingFormula)见站内 Pricing Hub 的”模型库”。
二、四种主流计费模式
不同模型的”账单算法”差很多。看懂下面四种,剩下的所有模型都能套公式。
模式 A:纯 token(输入 + 输出)
典型:GPT-4.1、qwen-turbo、Mistral 全系。
总费用 = 输入 tokens × P_in / 1M + 输出 tokens × P_out / 1M
```text
例:用 qwen-plus 处理 100 万输入 + 30 万输出 = $0.80 + $0.60 = **$1.40**。
### 模式 B:token + 缓存读(输入端打折)
**典型**:GPT-5 系列、Gemini 全系。
```text
总费用 = 未命中输入 × P_in + 命中输入 × P_cache + 输出 × P_out
```text
例:GPT-5.4 处理 100 万输入(其中 40% 命中缓存)+ 30 万输出 =
0.6M × $2.50 + 0.4M × $0.25 + 0.3M × $15.00 = **$6.10**
对比纯 token:$2.50 + $4.50 = $7.00。**40% 缓存命中省 13%**。
### 模式 C:token + 缓存写 + 缓存读(Anthropic)
**典型**:Claude Haiku/Sonnet/Opus。
```text
总费用 = 未命中输入 × P_in
+ 缓存写次数 × tokens × P_cache_write
+ 缓存读次数 × tokens × P_cache_read
+ 输出 × P_out
```text
Anthropic 缓存的"回本点":
> 一次缓存写 = 1.25× uncached 输入价;后续每次命中 = 0.10× uncached。复用 ≥ **4 次**才回本。
具体到 Claude Sonnet 4.6:写一次 1M tokens 的系统提示 = $3.75;之后每次命中 = $0.30。如果你这个 prompt 一天调 3 次以上,开缓存稳赚。详细回本计算见 [prompt-caching-roi-breakeven](/posts/prompt-caching-roi-breakeven/)。
### 模式 D:推理 token 单独计价
**典型**:DeepSeek R 系列、Magistral、qwen3.7-max。
推理模型在生成最终答案前会跑"思考链"(reasoning tokens)。这些 tokens **按输出价计费但不显示在响应里**,常见把账单"算翻倍"。
```text
真实输出 = 可见输出 + 推理 tokens(隐式)
账单 = 输入 × P_in + 真实输出 × P_out
```text
实测:让 Magistral Medium 解一道复杂题,可见输出 800 tokens、推理 4500 tokens——总输出按 5300 token 计费,**实际花费比"看见的字数"贵 6.6 倍**。
---
## 三、长上下文成本曲线
2026 年的关键变化:**多家厂商对超长 context 加价**。
| 模型 | < 270K context | ≥ 270K context |
|---|---|---|
| GPT-5.5 | $5 / $30 | $10 / $60 (×2) |
| GPT-5.4 | $2.50 / $15 | $5 / $30 (×2) |
| Claude Opus 4.7 | $5 / $25 | $7.5 / $37.5 (×1.5) |
| Gemini 2.5 Pro | $1.25 / $10 | $2.50 / $15 (×1.5-2) |
**判断口径**:单次请求(含历史 + 当前 prompt + 输出)总 token > 270K 即触发。
**实战建议**:长会话(agent、长文档分析)做两件事——
1. 历史摘要:每达 200K 触发一次摘要压缩,把历史压到 50K 内。
2. 切 Flash Lite:纯检索/抽取类长 context 任务,用 Gemini 2.5 Flash Lite 处理($0.10 输入),代价是能力低一档。
详细曲线和切换阈值见 [rag-long-context-api-cost](/posts/rag-long-context-api-cost/)。开发者视角的横向价格观察可看 PromptNet 的 [2026 AI API 价格对比](https://www.promptnet.cn/2026/05/23/ai-api-pricing-comparison-2026/)。
---
## 四、多模态成本
价格表只有文本。多模态另算:
- **图像输入**:GPT-5 系列 $0.005-0.015 / 图(按分辨率);Claude $0.024 / 图(不分辨率);Gemini $0.0025 / 图(最便宜)。
- **图像生成**:DALL-E 3 $0.04-0.08 / 张;Imagen 3 $0.03 / 张;StableDiffusion 3 $0.02 / 张。
- **音频转写**:Whisper $0.006 / 分钟;Deepgram Nova-3 $0.0043 / 分钟。
- **音频生成(TTS)**:OpenAI tts-1 $0.015 / 1K 字符;ElevenLabs $0.30 / 1K 字符(高质量但贵 20 倍)。
- **视频理解**:Gemini 2.5 Pro $1.40 / 分钟视频。
- **视频生成**:Sora $0.50-1.50 / 秒;Veo 2 $0.35 / 秒。
完整表(含每种模态的计算器):[图像计算器](/image/)、[音频计算器](/audio/)、[视频计算器](/video/)。
---
## 五、6 大真实业务场景的月成本估算
下面所有场景都用 **Claude Sonnet 4.6($3 输入 / $15 输出)** 作为基线,给出"按当前选型每月真实账单"。换模型只需把单价代入公式。
### 场景 1:客服 Chatbot
**画像**:日活 10K 用户,每用户日均 3 轮对话,每轮 200 token 输入 + 100 token 输出。
```text
日 token = 10000 × 3 × (200 + 100) = 9M
月 token = 9M × 30 = 270M (输入 180M / 输出 90M)
月成本 = 180 × $3 + 90 × $15 = $1890
```text
加上 30% prompt cache 命中(典型 system prompt 复用):**$1890 → $1620(省 14%)**。换 Haiku 4.5 ($1/$5):**$630**。换 DeepSeek V4 Pro:**$50**。
### 场景 2:RAG 知识库问答
**画像**:每次查询检索 8K context + 提问 500 token,生成 600 token 答案;日均 5000 次。
```text
日输入 = 5000 × 8500 = 42.5M (40% cache hit)
日输出 = 5000 × 600 = 3M
日成本 = 25.5 × $3 + 17 × $0.30 + 3 × $15 = $126
月成本 ≈ $3780
```text
切 Gemini 2.5 Flash($0.30/$2.50)+ 60% 缓存:**$3780 → $480(省 87%)**。详见 [estimate-rag-chatbot-cost](/posts/estimate-rag-chatbot-cost/)。
### 场景 3:AI Agent(多回合 + tool use)
**画像**:每个任务 8 轮 LLM 调用,每轮平均输入 5K(含历史) + 输出 800(含 reasoning);每天 1000 任务。
```text
日输入 = 1000 × 8 × 5K = 40M
日输出 = 1000 × 8 × 800 = 6.4M
日成本 = 40 × $3 + 6.4 × $15 = $216
月成本 ≈ $6480
```text
Agent 场景输出占比高(30-50% 成本在输出 token),**输出压缩是首要优化项**——见 [ai-output-token-compression-methods](/posts/ai-output-token-compression-methods/)。如果你用 Claude Code 跑 agent,控制 prompt 缓存和 context 滚动是另一条路径,PromptNet 那边写过一篇 [Claude API 成本控制与预算指南](https://www.promptnet.cn/2026/06/02/claude-api-cost-control-budget-guide/)。
### 场景 4:Codegen(IDE 集成 / Copilot 类)
**画像**:每次补全 3K context + 200 token 输出;活跃用户 500 人 × 日均 80 次补全。
```text
日 token = 500 × 80 × 3200 = 128M (50% cache hit)
日成本 = 64 × $3 + 64 × $0.30 + (500 × 80 × 0.2K) × $15 = $331
月成本 ≈ $9930
```text
Codegen 场景的核心成本在 context(context 占 95%)。换 Codestral ($0.30/$0.90):**月成本 $720**——但能力降一档,需要业务方权衡。
### 场景 5:内容生产(长输出)
**画像**:每天 200 篇 1500 字文章(约 2.2K token 输出)+ 1K token 输入 prompt。
```text
日输入 = 200 × 1K = 0.2M
日输出 = 200 × 2.2K = 0.44M
日成本 = 0.2 × $3 + 0.44 × $15 = $7.2
月成本 ≈ $216
```text
长输出场景**输出占成本 90%**。换便宜 1/3 的 Gemini 2.5 Flash 输出($2.50):**月 $116**。
### 场景 6:信息抽取(结构化输出 + batch)
**画像**:每天处理 50 万条用户评论,每条平均 500 token 输入 + 100 token 输出(结构化 JSON)。
```text
日输入 = 500K × 500 = 250M
日输出 = 500K × 100 = 50M
标准价 = 250 × $3 + 50 × $15 = $1500/天
batch -50% = $750/天 = $22500/月
```text
结构化抽取走 **batch API + Mistral Small 4** ($0.10/$0.30) 月成本可压到 $1100,**比 Sonnet 标准价省 95%**。
---
## 六、隐藏成本清单(账单常超预算 30% 的原因)
完整价格表只是账单的"主菜",下面六项才是真正吃掉预算的:
| 隐藏项 | 典型加价 | 触发场景 |
|---|---|---|
| 速率限制重试 | +5-15% | tier 1/2 账户、突发流量 |
| 数据驻留(EU/中国大陆) | +10% | 合规要求 |
| 监控/日志(Helicone、Langfuse 等) | $20-200/月 | 生产环境必备 |
| 失败请求 retry | +3-8% | 网络波动、超时 |
| reasoning token 不可见 | ×2-7(看场景) | 推理模型 |
| 长 context 加价 | ×1.5-2 | > 270K context |
具体怎么排查这些隐藏成本,见 [check-ai-api-bill-against-pricing](/posts/check-ai-api-bill-against-pricing/) 和 [ai-api-cost-runaway-7-signals](/posts/ai-api-cost-runaway-7-signals/)。
---
## 七、5 条优化策略
### 1. 模型路由:按 token 长度动态切档
```text
if context_tokens < 4K: Claude Haiku 4.5
elif context_tokens < 32K: Claude Sonnet 4.6
elif context_tokens < 200K: Claude Sonnet 4.6 + cache
else: Gemini 2.5 Pro(避开长 context 加价)
```text
实测可省 35-60%。完整路由策略见 [model-selection-cost-balancing-guide](/posts/model-selection-cost-balancing-guide/)。
### 2. Prompt cache:先想"会复用几次"再开
Anthropic 缓存的回本点是 **4 次**。如果你的 system prompt 每天调用 ≥ 4 次(绝大多数生产应用都满足),开缓存稳赚。OpenAI/Gemini 没有缓存写费用,可以"无脑开"。详细 ROI 见 [prompt-caching-roi-breakeven](/posts/prompt-caching-roi-breakeven/)。
### 3. 输出压缩:输出 token 单价是输入的 5-7 倍
最有杠杆的优化。三招:
- 在 system prompt 中明确"答案 ≤ 200 字"
- 用 `response_format: json_schema` 强制结构化(省 30-50% 输出)
- 推理模型设 `reasoning_effort: low` 把推理 tokens 砍 70%
具体方法和压缩前/后对比见 [ai-output-token-compression-methods](/posts/ai-output-token-compression-methods/)。
### 4. Batch API:能等 24h 就砍一半
OpenAI、Anthropic、Mistral 都提供 50% 折扣的 batch 模式。适合:内容生产、信息抽取、数据标注。不适合:实时对话、agent。
### 5. 国产模型降级路由
中文任务、对延迟不敏感的非核心链路,**DeepSeek V4 Pro / Qwen Plus / Doubao Seed** 是 1/10 价格的有力替代——前提是接口稳定性和数据合规可接受。深度对比见 [deepseek-api-cost-coding-chat-batch](/posts/deepseek-api-cost-coding-chat-batch/)。
---
## 八、5 个高频疑问
### Q1:ChatGPT 和 Claude API 哪个便宜?
按当前价格表,**同档位下 Claude 比 GPT 便宜 17%**:
- 高端:Claude Opus 4.7 ($5/$25) vs GPT-5.5 ($5/$30) — 输出端 Claude 便宜 17%
- 中端:Claude Sonnet 4.6 ($3/$15) vs GPT-5.4 ($2.50/$15) — 整体接近
- 低端:Claude Haiku 4.5 ($1/$5) vs GPT-4.1 mini ($0.40/$1.60) — GPT 便宜 60-70%
但如果加上**长 context 加价**(GPT-5.5 ×2 vs Opus ×1.5),长会话场景 Claude 综合更便宜。详见 [compare-claude-gpt-gemini-api-cost](/posts/compare-claude-gpt-gemini-api-cost/)。
### Q2:GPT-5.5 比 Claude Opus 4.7 贵多少?
输入相同(都是 $5),输出 GPT-5.5 贵 20%($30 vs $25)。**但是**:
- 长 context(>270K),GPT-5.5 ×2 加价、Opus ×1.5,Opus 反而便宜 30%
- 缓存命中场景,Opus 缓存读 $0.50 vs GPT-5.5 $0.50,持平
简单结论:**短任务 GPT-5.5 略贵 17-20%;长 context 任务 Opus 反而省 30%**。
### Q3:缓存能省多少钱?
看模型和命中率:
| 模型 | 命中率 30% | 命中率 60% | 命中率 90% |
|---|---|---|---|
| Claude Sonnet 4.6 | 省 27% | 省 54% | 省 81% |
| GPT-5.4 | 省 27% | 省 54% | 省 81% |
| Gemini 2.5 Pro | 省 27% | 省 54% | 省 81% |
注意 Anthropic 还要扣掉**缓存写费用**——首次写贵 25%,所以低复用率(< 4 次)反而比不开还贵。
### Q4:国产模型(DeepSeek/Qwen/Doubao)和海外比怎么样?
价格层面:DeepSeek V4 Pro 是 30+ 模型里**绝对地板**($0.14 / $0.28),便宜 Claude Haiku 7-18 倍。但要权衡:
- ✅ 中文任务能力相当甚至更强(DeepSeek、Qwen 在中文 benchmark 接近 Claude Sonnet)
- ⚠️ 接口稳定性:国产 99.5% vs 海外 99.9%
- ⚠️ 长 context 上限:国产普遍 128K-256K,Claude/Gemini 1M-2M
- ❌ 工具调用稳定度:国产对 function calling 支持弱于 Claude/GPT
**建议**:非核心链路(数据预处理、内容生产、信息抽取)大胆切国产;核心 Agent / 工具调用链路保留 Claude / GPT。
### Q5:怎么估算每月 AI API 预算?
三步:
1. 按上面"6 大场景"找最接近你业务的,把日 token 量代入公式拿到基线月成本。
2. 加 30% 隐藏成本预备金(重试、监控、长 context 加价)。
3. 用 [token-cost-calculator-api-budget](/posts/token-cost-calculator-api-budget/) 的模板做月度滚动预测。
新项目从小预算(< $500/月)起步,跑 2 周拿真实数据再调,比一次性估算准 3-5 倍。独立开发者/单人副业站的 AI 工具栈和成本占比可参考 OppMint 的 [AI Tools for Solo Founders Building Content Sites](https://www.oppmint.com/ai-tools-solo-founder-content-website/)。