2026 AI API 价格对比终极指南：30+ 大模型完整价格表与场景成本

如果你只看到一句话：**2026 年 6 月，按”输入 + 输出 + 缓存”综合性价比排序，**最经济的五个 API 是 DeepSeek V4 Pro、Gemini 2.5 Flash Lite、Claude Haiku 4.5、GPT-5.4 mini、Mistral Small 4；最贵但最强的三个是 GPT-5.5、Claude Opus 4.7、qwen3.7-max。

这是一篇可以让你 10 分钟做完模型选型决策的母页面：先看完整的 33 个模型价格对照表，再了解四种主流计费模式、长上下文成本曲线、6 大真实业务场景的月成本估算、隐藏成本清单，最后是 5 条优化策略和 5 个高频疑问。

数据更新于 2026-05-28（来源：各官方定价页，详见每个模型的 sourceUrl）。下次更新计划：2026-07-15。

一、AI API 价格对照表（30+ 大模型 · 2026 年 6 月）

单位：USD / 1M tokens（国产模型按 CNY 标注）。Cache Read 是命中缓存的输入价。“类别”区分推理模型（reasoning）和文本模型（text），二者计费逻辑不同，下一节展开。

OpenAI（5 款）

模型	输入	输出	缓存读	类别	备注
GPT-5.5	$5.00	$30.00	$0.50	reasoning	270K 以下标准价；batch -50%
GPT-5.4	$2.50	$15.00	$0.25	reasoning	性价比平衡档
GPT-5.4 mini	$0.75	$4.50	$0.075	reasoning	推理型小模型
GPT-4.1	$2.00	$8.00	$0.50	text	老款主力
GPT-4.1 mini	$0.40	$1.60	$0.10	text	长尾任务首选

速读：270K 以上 context，GPT-5.5 价格翻倍，必须留意；batch 模式可砍一半，但延迟接受 24h。

Anthropic（3 款）

模型	输入	输出	缓存写	缓存读	类别
Claude Opus 4.7	$5.00	$25.00	$6.25	$0.50	reasoning
Claude Sonnet 4.6	$3.00	$15.00	$3.75	$0.30	reasoning
Claude Haiku 4.5	$1.00	$5.00	$1.25	$0.10	text

速读：Anthropic 是唯一缓存写单独计费的家族——首次写缓存比 uncached 输入贵 25%，但后续命中只要 10%。复用率 ≥ 4 次才回本。

Google（4 款）

模型	输入	输出	缓存读	类别
Gemini 2.5 Pro	$1.25	$10.00	$0.125	reasoning
Gemini 2.5 Flash	$0.30	$2.50	$0.03	reasoning
Gemini 2.5 Flash Lite	$0.10	$0.40	$0.01	reasoning
Gemini 3.1 Flash Lite	$0.25	$1.50	$0.025	reasoning

速读：Flash Lite 是 2026 年价格地板——输入 $0.10/M，比所有海外竞品都便宜 4-10 倍。代价：能力比 Pro 弱一档。

DeepSeek / MiniMax / Zhipu / Qwen / Moonshot（国产 14 款）

厂家	模型	输入	输出	缓存读	货币
DeepSeek	V4 Pro	$0.14	$0.28	$0.0028	USD
MiniMax	M2.7	$2.10	$8.40	$0.42	USD
MiniMax	M2.7-highspeed	$4.20	$16.80	$0.42	USD
MiniMax	M2.5	$2.10	$8.40	$0.21	USD
Zhipu	GLM-5.1	$6.00	$24.00	$1.30	USD
Zhipu	GLM-5-Turbo	$5.00	$22.00	$1.20	USD
Zhipu	GLM-5	$4.00	$18.00	$1.00	USD
Qwen	qwen3.7-max	$12.00	$36.00	—	USD
Qwen	qwen3-max	$2.50	$10.00	—	USD
Qwen	qwen-max	$2.40	$9.60	—	USD
Qwen	qwen-plus	$0.80	$2.00	—	USD
Qwen	qwen-turbo	$0.30	$0.60	—	USD
Moonshot	kimi-k2.6	$6.50	$27.00	$1.10	USD
Moonshot	kimi-k2.5	$4.00	$21.00	$0.70	USD
Moonshot	moonshot-v1-32k	$5.00	$20.00	—	USD

速读：DeepSeek V4 Pro 是 30+ 模型里绝对价格地板（输入 $0.14、输出 $0.28），对中文任务尤其友好；qwen3.7-max 和 GLM-5.1 反而贵过 Claude Sonnet——别只看是不是国产，要看具体型号。

Mistral（10 款）

模型	输入	输出	类别
Mistral Large 3	$0.50	$1.50	reasoning
Mistral Medium 3.5	$1.50	$7.50	reasoning
Mistral Small 4	$0.10	$0.30	text
Magistral Medium	$2.00	$5.00	reasoning
Magistral Small	$0.50	$1.50	reasoning
Devstral 2	$0.40	$2.00	reasoning
Devstral Small 2	$0.10	$0.30	text
Codestral	$0.30	$0.90	text
Ministral 3 3B	$0.10	$0.10	text
Ministral 3 8B	$0.15	$0.15	text

速读：Ministral 3B/8B 是 EU 数据驻留场景下最便宜的 chat 模型；Codestral 是欧洲版 codegen 首选。Mistral 没有 cache read 折扣，长 context 任务整体不如 Claude/Gemini。

完整字段（含 sourceUrl、updatedAt、pricingFormula）见站内 Pricing Hub 的”模型库”。

二、四种主流计费模式

不同模型的”账单算法”差很多。看懂下面四种，剩下的所有模型都能套公式。

模式 A：纯 token（输入 + 输出）

典型：GPT-4.1、qwen-turbo、Mistral 全系。

总费用 = 输入 tokens × P_in / 1M + 输出 tokens × P_out / 1M
```text
例：用 qwen-plus 处理 100 万输入 + 30 万输出 = $0.80 + $0.60 = **$1.40**。

### 模式 B：token + 缓存读（输入端打折）

**典型**：GPT-5 系列、Gemini 全系。

```text
总费用 = 未命中输入 × P_in + 命中输入 × P_cache + 输出 × P_out
```text
例：GPT-5.4 处理 100 万输入（其中 40% 命中缓存）+ 30 万输出 =
0.6M × $2.50 + 0.4M × $0.25 + 0.3M × $15.00 = **$6.10**

对比纯 token：$2.50 + $4.50 = $7.00。**40% 缓存命中省 13%**。

### 模式 C：token + 缓存写 + 缓存读（Anthropic）

**典型**：Claude Haiku/Sonnet/Opus。

```text
总费用 = 未命中输入 × P_in
       + 缓存写次数 × tokens × P_cache_write
       + 缓存读次数 × tokens × P_cache_read
       + 输出 × P_out
```text
Anthropic 缓存的"回本点"：

> 一次缓存写 = 1.25× uncached 输入价；后续每次命中 = 0.10× uncached。复用 ≥ **4 次**才回本。

具体到 Claude Sonnet 4.6：写一次 1M tokens 的系统提示 = $3.75；之后每次命中 = $0.30。如果你这个 prompt 一天调 3 次以上，开缓存稳赚。详细回本计算见 [prompt-caching-roi-breakeven](/posts/prompt-caching-roi-breakeven/)。

### 模式 D：推理 token 单独计价

**典型**：DeepSeek R 系列、Magistral、qwen3.7-max。

推理模型在生成最终答案前会跑"思考链"（reasoning tokens）。这些 tokens **按输出价计费但不显示在响应里**，常见把账单"算翻倍"。

```text
真实输出 = 可见输出 + 推理 tokens（隐式）
账单 = 输入 × P_in + 真实输出 × P_out
```text
实测：让 Magistral Medium 解一道复杂题，可见输出 800 tokens、推理 4500 tokens——总输出按 5300 token 计费，**实际花费比"看见的字数"贵 6.6 倍**。

---

## 三、长上下文成本曲线

2026 年的关键变化：**多家厂商对超长 context 加价**。

| 模型 | < 270K context | ≥ 270K context |
|---|---|---|
| GPT-5.5 | $5 / $30 | $10 / $60 (×2) |
| GPT-5.4 | $2.50 / $15 | $5 / $30 (×2) |
| Claude Opus 4.7 | $5 / $25 | $7.5 / $37.5 (×1.5) |
| Gemini 2.5 Pro | $1.25 / $10 | $2.50 / $15 (×1.5-2) |

**判断口径**：单次请求（含历史 + 当前 prompt + 输出）总 token > 270K 即触发。

**实战建议**：长会话（agent、长文档分析）做两件事——
1. 历史摘要：每达 200K 触发一次摘要压缩，把历史压到 50K 内。
2. 切 Flash Lite：纯检索/抽取类长 context 任务，用 Gemini 2.5 Flash Lite 处理（$0.10 输入），代价是能力低一档。

详细曲线和切换阈值见 [rag-long-context-api-cost](/posts/rag-long-context-api-cost/)。开发者视角的横向价格观察可看 PromptNet 的 [2026 AI API 价格对比](https://www.promptnet.cn/2026/05/23/ai-api-pricing-comparison-2026/)。

---

## 四、多模态成本

价格表只有文本。多模态另算：

- **图像输入**：GPT-5 系列 $0.005-0.015 / 图（按分辨率）；Claude $0.024 / 图（不分辨率）；Gemini $0.0025 / 图（最便宜）。
- **图像生成**：DALL-E 3 $0.04-0.08 / 张；Imagen 3 $0.03 / 张；StableDiffusion 3 $0.02 / 张。
- **音频转写**：Whisper $0.006 / 分钟；Deepgram Nova-3 $0.0043 / 分钟。
- **音频生成（TTS）**：OpenAI tts-1 $0.015 / 1K 字符；ElevenLabs $0.30 / 1K 字符（高质量但贵 20 倍）。
- **视频理解**：Gemini 2.5 Pro $1.40 / 分钟视频。
- **视频生成**：Sora $0.50-1.50 / 秒；Veo 2 $0.35 / 秒。

完整表（含每种模态的计算器）：[图像计算器](/image/)、[音频计算器](/audio/)、[视频计算器](/video/)。

---

## 五、6 大真实业务场景的月成本估算

下面所有场景都用 **Claude Sonnet 4.6（$3 输入 / $15 输出）** 作为基线，给出"按当前选型每月真实账单"。换模型只需把单价代入公式。

💡 **延伸阅读**：需要更精细的任务级成本比较？请参考 [AI API 成本 Benchmark：12 个真实任务下 Claude、GPT、Gemini、DeepSeek 怎么选](/posts/ai-api-cost-benchmark-12-tasks/)，覆盖缓存命中、失败重试和 batch 折扣的完整成本模型。

### 场景 1：客服 Chatbot

**画像**：日活 10K 用户，每用户日均 3 轮对话，每轮 200 token 输入 + 100 token 输出。

```text
日 token = 10000 × 3 × (200 + 100) = 9M
月 token = 9M × 30 = 270M  (输入 180M / 输出 90M)
月成本 = 180 × $3 + 90 × $15 = $1890
```text
加上 30% prompt cache 命中（典型 system prompt 复用）：**$1890 → $1620（省 14%）**。换 Haiku 4.5 ($1/$5)：**$630**。换 DeepSeek V4 Pro：**$50**。

### 场景 2：RAG 知识库问答

**画像**：每次查询检索 8K context + 提问 500 token，生成 600 token 答案；日均 5000 次。

```text
日输入 = 5000 × 8500 = 42.5M  (40% cache hit)
日输出 = 5000 × 600 = 3M
日成本 = 25.5 × $3 + 17 × $0.30 + 3 × $15 = $126
月成本 ≈ $3780
```text
切 Gemini 2.5 Flash（$0.30/$2.50）+ 60% 缓存：**$3780 → $480（省 87%）**。详见 [estimate-rag-chatbot-cost](/posts/estimate-rag-chatbot-cost/)。

### 场景 3：AI Agent（多回合 + tool use）

**画像**：每个任务 8 轮 LLM 调用，每轮平均输入 5K（含历史） + 输出 800（含 reasoning）；每天 1000 任务。

```text
日输入 = 1000 × 8 × 5K = 40M
日输出 = 1000 × 8 × 800 = 6.4M
日成本 = 40 × $3 + 6.4 × $15 = $216
月成本 ≈ $6480
```text
Agent 场景输出占比高（30-50% 成本在输出 token），**输出压缩是首要优化项**——见 [ai-output-token-compression-methods](/posts/ai-output-token-compression-methods/)。如果你用 Claude Code 跑 agent，控制 prompt 缓存和 context 滚动是另一条路径，PromptNet 那边写过一篇 [Claude API 成本控制与预算指南](https://www.promptnet.cn/2026/06/02/claude-api-cost-control-budget-guide/)。

### 场景 4：Codegen（IDE 集成 / Copilot 类）

**画像**：每次补全 3K context + 200 token 输出；活跃用户 500 人 × 日均 80 次补全。

```text
日 token = 500 × 80 × 3200 = 128M  (50% cache hit)
日成本 = 64 × $3 + 64 × $0.30 + (500 × 80 × 0.2K) × $15 = $331
月成本 ≈ $9930
```text
Codegen 场景的核心成本在 context（context 占 95%）。换 Codestral ($0.30/$0.90)：**月成本 $720**——但能力降一档，需要业务方权衡。

### 场景 5：内容生产（长输出）

**画像**：每天 200 篇 1500 字文章（约 2.2K token 输出）+ 1K token 输入 prompt。

```text
日输入 = 200 × 1K = 0.2M
日输出 = 200 × 2.2K = 0.44M
日成本 = 0.2 × $3 + 0.44 × $15 = $7.2
月成本 ≈ $216
```text
长输出场景**输出占成本 90%**。换便宜 1/3 的 Gemini 2.5 Flash 输出（$2.50）：**月 $116**。

### 场景 6：信息抽取（结构化输出 + batch）

**画像**：每天处理 50 万条用户评论，每条平均 500 token 输入 + 100 token 输出（结构化 JSON）。

```text
日输入 = 500K × 500 = 250M
日输出 = 500K × 100 = 50M
标准价 = 250 × $3 + 50 × $15 = $1500/天
batch -50% = $750/天 = $22500/月
```text
结构化抽取走 **batch API + Mistral Small 4** ($0.10/$0.30) 月成本可压到 $1100，**比 Sonnet 标准价省 95%**。

---

## 六、隐藏成本清单（账单常超预算 30% 的原因）

完整价格表只是账单的"主菜"，下面六项才是真正吃掉预算的：

| 隐藏项 | 典型加价 | 触发场景 |
|---|---|---|
| 速率限制重试 | +5-15% | tier 1/2 账户、突发流量 |
| 数据驻留（EU/中国大陆） | +10% | 合规要求 |
| 监控/日志（Helicone、Langfuse 等） | $20-200/月 | 生产环境必备 |
| 失败请求 retry | +3-8% | 网络波动、超时 |
| reasoning token 不可见 | ×2-7（看场景） | 推理模型 |
| 长 context 加价 | ×1.5-2 | > 270K context |

具体怎么排查这些隐藏成本，见 [check-ai-api-bill-against-pricing](/posts/check-ai-api-bill-against-pricing/) 和 [ai-api-cost-runaway-7-signals](/posts/ai-api-cost-runaway-7-signals/)。

---

## 七、5 条优化策略

### 1. 模型路由：按 token 长度动态切档

```text
if context_tokens < 4K:    Claude Haiku 4.5
elif context_tokens < 32K: Claude Sonnet 4.6
elif context_tokens < 200K: Claude Sonnet 4.6 + cache
else:                       Gemini 2.5 Pro（避开长 context 加价）
```text
实测可省 35-60%。完整路由策略见 [model-selection-cost-balancing-guide](/posts/model-selection-cost-balancing-guide/)。

### 2. Prompt cache：先想"会复用几次"再开

Anthropic 缓存的回本点是 **4 次**。如果你的 system prompt 每天调用 ≥ 4 次（绝大多数生产应用都满足），开缓存稳赚。OpenAI/Gemini 没有缓存写费用，可以"无脑开"。详细 ROI 见 [prompt-caching-roi-breakeven](/posts/prompt-caching-roi-breakeven/)。

### 3. 输出压缩：输出 token 单价是输入的 5-7 倍

最有杠杆的优化。三招：
- 在 system prompt 中明确"答案 ≤ 200 字"
- 用 `response_format: json_schema` 强制结构化（省 30-50% 输出）
- 推理模型设 `reasoning_effort: low` 把推理 tokens 砍 70%

具体方法和压缩前/后对比见 [ai-output-token-compression-methods](/posts/ai-output-token-compression-methods/)。

### 4. Batch API：能等 24h 就砍一半

OpenAI、Anthropic、Mistral 都提供 50% 折扣的 batch 模式。适合：内容生产、信息抽取、数据标注。不适合：实时对话、agent。

### 5. 国产模型降级路由

中文任务、对延迟不敏感的非核心链路，**DeepSeek V4 Pro / Qwen Plus / Doubao Seed** 是 1/10 价格的有力替代——前提是接口稳定性和数据合规可接受。深度对比见 [deepseek-api-cost-coding-chat-batch](/posts/deepseek-api-cost-coding-chat-batch/)。

---

## 八、5 个高频疑问

### Q1：ChatGPT 和 Claude API 哪个便宜？

按当前价格表，**同档位下 Claude 比 GPT 便宜 17%**：
- 高端：Claude Opus 4.7 ($5/$25) vs GPT-5.5 ($5/$30) — 输出端 Claude 便宜 17%
- 中端：Claude Sonnet 4.6 ($3/$15) vs GPT-5.4 ($2.50/$15) — 整体接近
- 低端：Claude Haiku 4.5 ($1/$5) vs GPT-4.1 mini ($0.40/$1.60) — GPT 便宜 60-70%

但如果加上**长 context 加价**（GPT-5.5 ×2 vs Opus ×1.5），长会话场景 Claude 综合更便宜。详见 [compare-claude-gpt-gemini-api-cost](/posts/compare-claude-gpt-gemini-api-cost/)。

### Q2：GPT-5.5 比 Claude Opus 4.7 贵多少？

输入相同（都是 $5），输出 GPT-5.5 贵 20%（$30 vs $25）。**但是**：
- 长 context（>270K），GPT-5.5 ×2 加价、Opus ×1.5，Opus 反而便宜 30%
- 缓存命中场景，Opus 缓存读 $0.50 vs GPT-5.5 $0.50，持平

简单结论：**短任务 GPT-5.5 略贵 17-20%；长 context 任务 Opus 反而省 30%**。

### Q3：缓存能省多少钱？

看模型和命中率：

| 模型 | 命中率 30% | 命中率 60% | 命中率 90% |
|---|---|---|---|
| Claude Sonnet 4.6 | 省 27% | 省 54% | 省 81% |
| GPT-5.4 | 省 27% | 省 54% | 省 81% |
| Gemini 2.5 Pro | 省 27% | 省 54% | 省 81% |

注意 Anthropic 还要扣掉**缓存写费用**——首次写贵 25%，所以低复用率（< 4 次）反而比不开还贵。

### Q4：国产模型（DeepSeek/Qwen/Doubao）和海外比怎么样？

价格层面：DeepSeek V4 Pro 是 30+ 模型里**绝对地板**（$0.14 / $0.28），便宜 Claude Haiku 7-18 倍。但要权衡：
- ✅ 中文任务能力相当甚至更强（DeepSeek、Qwen 在中文 benchmark 接近 Claude Sonnet）
- ⚠️ 接口稳定性：国产 99.5% vs 海外 99.9%
- ⚠️ 长 context 上限：国产普遍 128K-256K，Claude/Gemini 1M-2M
- ❌ 工具调用稳定度：国产对 function calling 支持弱于 Claude/GPT

**建议**：非核心链路（数据预处理、内容生产、信息抽取）大胆切国产；核心 Agent / 工具调用链路保留 Claude / GPT。

### Q5：怎么估算每月 AI API 预算？

三步：
1. 按上面"6 大场景"找最接近你业务的，把日 token 量代入公式拿到基线月成本。
2. 加 30% 隐藏成本预备金（重试、监控、长 context 加价）。
3. 用 [token-cost-calculator-api-budget](/posts/token-cost-calculator-api-budget/) 的模板做月度滚动预测。

新项目从小预算（< $500/月）起步，跑 2 周拿真实数据再调，比一次性估算准 3-5 倍。独立开发者/单人副业站的 AI 工具栈和成本占比可参考 OppMint 的 [AI Tools for Solo Founders Building Content Sites](https://www.oppmint.com/ai-tools-solo-founder-content-website/)。

2026 AI API 价格对比终极指南：30+ 大模型完整价格表与场景成本

一、AI API 价格对照表（30+ 大模型 · 2026 年 6 月）

OpenAI（5 款）

Anthropic（3 款）

Google（4 款）

DeepSeek / MiniMax / Zhipu / Qwen / Moonshot（国产 14 款）

Mistral（10 款）

二、四种主流计费模式

模式 A：纯 token（输入 + 输出）

推荐阅读

AI API 用量预测常见错误：为什么预算总是低估

AI API 成本预测指南：上线前估算下月账单

AI API 月度成本复盘：从账单数字找到真正失控的功能