跳到内容
AI

2026 AI API 价格对比终极指南:30+ 大模型完整价格表与场景成本

AI

AI Cost Calculator

9 分钟阅读

如果你只看到一句话:**2026 年 6 月,按”输入 + 输出 + 缓存”综合性价比排序,**最经济的五个 API 是 DeepSeek V4 Pro、Gemini 2.5 Flash Lite、Claude Haiku 4.5、GPT-5.4 mini、Mistral Small 4;最贵但最强的三个是 GPT-5.5、Claude Opus 4.7、qwen3.7-max。

这是一篇可以让你 10 分钟做完模型选型决策的母页面:先看完整的 33 个模型价格对照表,再了解四种主流计费模式、长上下文成本曲线、6 大真实业务场景的月成本估算、隐藏成本清单,最后是 5 条优化策略和 5 个高频疑问。

数据更新于 2026-05-28(来源:各官方定价页,详见每个模型的 sourceUrl)。下次更新计划:2026-07-15

一、AI API 价格对照表(30+ 大模型 · 2026 年 6 月)

单位:USD / 1M tokens(国产模型按 CNY 标注)。Cache Read 是命中缓存的输入价。“类别”区分推理模型(reasoning)和文本模型(text),二者计费逻辑不同,下一节展开。

OpenAI(5 款)

模型输入输出缓存读类别备注
GPT-5.5$5.00$30.00$0.50reasoning270K 以下标准价;batch -50%
GPT-5.4$2.50$15.00$0.25reasoning性价比平衡档
GPT-5.4 mini$0.75$4.50$0.075reasoning推理型小模型
GPT-4.1$2.00$8.00$0.50text老款主力
GPT-4.1 mini$0.40$1.60$0.10text长尾任务首选

速读:270K 以上 context,GPT-5.5 价格翻倍,必须留意;batch 模式可砍一半,但延迟接受 24h。

Anthropic(3 款)

模型输入输出缓存写缓存读类别
Claude Opus 4.7$5.00$25.00$6.25$0.50reasoning
Claude Sonnet 4.6$3.00$15.00$3.75$0.30reasoning
Claude Haiku 4.5$1.00$5.00$1.25$0.10text

速读:Anthropic 是唯一缓存写单独计费的家族——首次写缓存比 uncached 输入贵 25%,但后续命中只要 10%。复用率 ≥ 4 次才回本。

Google(4 款)

模型输入输出缓存读类别
Gemini 2.5 Pro$1.25$10.00$0.125reasoning
Gemini 2.5 Flash$0.30$2.50$0.03reasoning
Gemini 2.5 Flash Lite$0.10$0.40$0.01reasoning
Gemini 3.1 Flash Lite$0.25$1.50$0.025reasoning

速读:Flash Lite 是 2026 年价格地板——输入 $0.10/M,比所有海外竞品都便宜 4-10 倍。代价:能力比 Pro 弱一档。

DeepSeek / MiniMax / Zhipu / Qwen / Moonshot(国产 14 款)

厂家模型输入输出缓存读货币
DeepSeekV4 Pro$0.14$0.28$0.0028USD
MiniMaxM2.7$2.10$8.40$0.42USD
MiniMaxM2.7-highspeed$4.20$16.80$0.42USD
MiniMaxM2.5$2.10$8.40$0.21USD
ZhipuGLM-5.1$6.00$24.00$1.30USD
ZhipuGLM-5-Turbo$5.00$22.00$1.20USD
ZhipuGLM-5$4.00$18.00$1.00USD
Qwenqwen3.7-max$12.00$36.00USD
Qwenqwen3-max$2.50$10.00USD
Qwenqwen-max$2.40$9.60USD
Qwenqwen-plus$0.80$2.00USD
Qwenqwen-turbo$0.30$0.60USD
Moonshotkimi-k2.6$6.50$27.00$1.10USD
Moonshotkimi-k2.5$4.00$21.00$0.70USD
Moonshotmoonshot-v1-32k$5.00$20.00USD

速读:DeepSeek V4 Pro 是 30+ 模型里绝对价格地板(输入 $0.14、输出 $0.28),对中文任务尤其友好;qwen3.7-max 和 GLM-5.1 反而贵过 Claude Sonnet——别只看是不是国产,要看具体型号。

Mistral(10 款)

模型输入输出类别
Mistral Large 3$0.50$1.50reasoning
Mistral Medium 3.5$1.50$7.50reasoning
Mistral Small 4$0.10$0.30text
Magistral Medium$2.00$5.00reasoning
Magistral Small$0.50$1.50reasoning
Devstral 2$0.40$2.00reasoning
Devstral Small 2$0.10$0.30text
Codestral$0.30$0.90text
Ministral 3 3B$0.10$0.10text
Ministral 3 8B$0.15$0.15text

速读:Ministral 3B/8B 是 EU 数据驻留场景下最便宜的 chat 模型;Codestral 是欧洲版 codegen 首选。Mistral 没有 cache read 折扣,长 context 任务整体不如 Claude/Gemini。

完整字段(含 sourceUrlupdatedAtpricingFormula)见站内 Pricing Hub 的”模型库”。


二、四种主流计费模式

不同模型的”账单算法”差很多。看懂下面四种,剩下的所有模型都能套公式。

模式 A:纯 token(输入 + 输出)

典型:GPT-4.1、qwen-turbo、Mistral 全系。

总费用 = 输入 tokens × P_in / 1M + 输出 tokens × P_out / 1M
```text
例:用 qwen-plus 处理 100 万输入 + 30 万输出 = $0.80 + $0.60 = **$1.40**。

### 模式 B:token + 缓存读(输入端打折)

**典型**:GPT-5 系列、Gemini 全系。

```text
总费用 = 未命中输入 × P_in + 命中输入 × P_cache + 输出 × P_out
```text
例:GPT-5.4 处理 100 万输入(其中 40% 命中缓存)+ 30 万输出 =
0.6M × $2.50 + 0.4M × $0.25 + 0.3M × $15.00 = **$6.10**

对比纯 token:$2.50 + $4.50 = $7.00。**40% 缓存命中省 13%**。

### 模式 C:token + 缓存写 + 缓存读(Anthropic)

**典型**:Claude Haiku/Sonnet/Opus。

```text
总费用 = 未命中输入 × P_in
       + 缓存写次数 × tokens × P_cache_write
       + 缓存读次数 × tokens × P_cache_read
       + 输出 × P_out
```text
Anthropic 缓存的"回本点":

> 一次缓存写 = 1.25× uncached 输入价;后续每次命中 = 0.10× uncached。复用 ≥ **4 次**才回本。

具体到 Claude Sonnet 4.6:写一次 1M tokens 的系统提示 = $3.75;之后每次命中 = $0.30。如果你这个 prompt 一天调 3 次以上,开缓存稳赚。详细回本计算见 [prompt-caching-roi-breakeven](/posts/prompt-caching-roi-breakeven/)。

### 模式 D:推理 token 单独计价

**典型**:DeepSeek R 系列、Magistral、qwen3.7-max。

推理模型在生成最终答案前会跑"思考链"(reasoning tokens)。这些 tokens **按输出价计费但不显示在响应里**,常见把账单"算翻倍"。

```text
真实输出 = 可见输出 + 推理 tokens(隐式)
账单 = 输入 × P_in + 真实输出 × P_out
```text
实测:让 Magistral Medium 解一道复杂题,可见输出 800 tokens、推理 4500 tokens——总输出按 5300 token 计费,**实际花费比"看见的字数"贵 6.6 倍**。

---

## 三、长上下文成本曲线

2026 年的关键变化:**多家厂商对超长 context 加价**。

| 模型 | < 270K context | ≥ 270K context |
|---|---|---|
| GPT-5.5 | $5 / $30 | $10 / $60 (×2) |
| GPT-5.4 | $2.50 / $15 | $5 / $30 (×2) |
| Claude Opus 4.7 | $5 / $25 | $7.5 / $37.5 (×1.5) |
| Gemini 2.5 Pro | $1.25 / $10 | $2.50 / $15 (×1.5-2) |

**判断口径**:单次请求(含历史 + 当前 prompt + 输出)总 token > 270K 即触发。

**实战建议**:长会话(agent、长文档分析)做两件事——
1. 历史摘要:每达 200K 触发一次摘要压缩,把历史压到 50K 内。
2. 切 Flash Lite:纯检索/抽取类长 context 任务,用 Gemini 2.5 Flash Lite 处理($0.10 输入),代价是能力低一档。

详细曲线和切换阈值见 [rag-long-context-api-cost](/posts/rag-long-context-api-cost/)。开发者视角的横向价格观察可看 PromptNet 的 [2026 AI API 价格对比](https://www.promptnet.cn/2026/05/23/ai-api-pricing-comparison-2026/)。

---

## 四、多模态成本

价格表只有文本。多模态另算:

- **图像输入**:GPT-5 系列 $0.005-0.015 / 图(按分辨率);Claude $0.024 / 图(不分辨率);Gemini $0.0025 / 图(最便宜)。
- **图像生成**:DALL-E 3 $0.04-0.08 / 张;Imagen 3 $0.03 / 张;StableDiffusion 3 $0.02 / 张。
- **音频转写**:Whisper $0.006 / 分钟;Deepgram Nova-3 $0.0043 / 分钟。
- **音频生成(TTS)**:OpenAI tts-1 $0.015 / 1K 字符;ElevenLabs $0.30 / 1K 字符(高质量但贵 20 倍)。
- **视频理解**:Gemini 2.5 Pro $1.40 / 分钟视频。
- **视频生成**:Sora $0.50-1.50 / 秒;Veo 2 $0.35 / 秒。

完整表(含每种模态的计算器):[图像计算器](/image/)、[音频计算器](/audio/)、[视频计算器](/video/)。

---

## 五、6 大真实业务场景的月成本估算

下面所有场景都用 **Claude Sonnet 4.6($3 输入 / $15 输出)** 作为基线,给出"按当前选型每月真实账单"。换模型只需把单价代入公式。

### 场景 1:客服 Chatbot

**画像**:日活 10K 用户,每用户日均 3 轮对话,每轮 200 token 输入 + 100 token 输出。

```text
日 token = 10000 × 3 × (200 + 100) = 9M
月 token = 9M × 30 = 270M  (输入 180M / 输出 90M)
月成本 = 180 × $3 + 90 × $15 = $1890
```text
加上 30% prompt cache 命中(典型 system prompt 复用):**$1890 → $1620(省 14%)**。换 Haiku 4.5 ($1/$5):**$630**。换 DeepSeek V4 Pro:**$50**。

### 场景 2:RAG 知识库问答

**画像**:每次查询检索 8K context + 提问 500 token,生成 600 token 答案;日均 5000 次。

```text
日输入 = 5000 × 8500 = 42.5M  (40% cache hit)
日输出 = 5000 × 600 = 3M
日成本 = 25.5 × $3 + 17 × $0.30 + 3 × $15 = $126
月成本 ≈ $3780
```text
切 Gemini 2.5 Flash($0.30/$2.50)+ 60% 缓存:**$3780 → $480(省 87%)**。详见 [estimate-rag-chatbot-cost](/posts/estimate-rag-chatbot-cost/)。

### 场景 3:AI Agent(多回合 + tool use)

**画像**:每个任务 8 轮 LLM 调用,每轮平均输入 5K(含历史) + 输出 800(含 reasoning);每天 1000 任务。

```text
日输入 = 1000 × 8 × 5K = 40M
日输出 = 1000 × 8 × 800 = 6.4M
日成本 = 40 × $3 + 6.4 × $15 = $216
月成本 ≈ $6480
```text
Agent 场景输出占比高(30-50% 成本在输出 token),**输出压缩是首要优化项**——见 [ai-output-token-compression-methods](/posts/ai-output-token-compression-methods/)。如果你用 Claude Code 跑 agent,控制 prompt 缓存和 context 滚动是另一条路径,PromptNet 那边写过一篇 [Claude API 成本控制与预算指南](https://www.promptnet.cn/2026/06/02/claude-api-cost-control-budget-guide/)。

### 场景 4:Codegen(IDE 集成 / Copilot 类)

**画像**:每次补全 3K context + 200 token 输出;活跃用户 500 人 × 日均 80 次补全。

```text
日 token = 500 × 80 × 3200 = 128M  (50% cache hit)
日成本 = 64 × $3 + 64 × $0.30 + (500 × 80 × 0.2K) × $15 = $331
月成本 ≈ $9930
```text
Codegen 场景的核心成本在 context(context 占 95%)。换 Codestral ($0.30/$0.90):**月成本 $720**——但能力降一档,需要业务方权衡。

### 场景 5:内容生产(长输出)

**画像**:每天 200 篇 1500 字文章(约 2.2K token 输出)+ 1K token 输入 prompt。

```text
日输入 = 200 × 1K = 0.2M
日输出 = 200 × 2.2K = 0.44M
日成本 = 0.2 × $3 + 0.44 × $15 = $7.2
月成本 ≈ $216
```text
长输出场景**输出占成本 90%**。换便宜 1/3 的 Gemini 2.5 Flash 输出($2.50):**月 $116**。

### 场景 6:信息抽取(结构化输出 + batch)

**画像**:每天处理 50 万条用户评论,每条平均 500 token 输入 + 100 token 输出(结构化 JSON)。

```text
日输入 = 500K × 500 = 250M
日输出 = 500K × 100 = 50M
标准价 = 250 × $3 + 50 × $15 = $1500/天
batch -50% = $750/天 = $22500/月
```text
结构化抽取走 **batch API + Mistral Small 4** ($0.10/$0.30) 月成本可压到 $1100,**比 Sonnet 标准价省 95%**。

---

## 六、隐藏成本清单(账单常超预算 30% 的原因)

完整价格表只是账单的"主菜",下面六项才是真正吃掉预算的:

| 隐藏项 | 典型加价 | 触发场景 |
|---|---|---|
| 速率限制重试 | +5-15% | tier 1/2 账户、突发流量 |
| 数据驻留(EU/中国大陆) | +10% | 合规要求 |
| 监控/日志(Helicone、Langfuse 等) | $20-200/月 | 生产环境必备 |
| 失败请求 retry | +3-8% | 网络波动、超时 |
| reasoning token 不可见 | ×2-7(看场景) | 推理模型 |
| 长 context 加价 | ×1.5-2 | > 270K context |

具体怎么排查这些隐藏成本,见 [check-ai-api-bill-against-pricing](/posts/check-ai-api-bill-against-pricing/) 和 [ai-api-cost-runaway-7-signals](/posts/ai-api-cost-runaway-7-signals/)。

---

## 七、5 条优化策略

### 1. 模型路由:按 token 长度动态切档

```text
if context_tokens < 4K:    Claude Haiku 4.5
elif context_tokens < 32K: Claude Sonnet 4.6
elif context_tokens < 200K: Claude Sonnet 4.6 + cache
else:                       Gemini 2.5 Pro(避开长 context 加价)
```text
实测可省 35-60%。完整路由策略见 [model-selection-cost-balancing-guide](/posts/model-selection-cost-balancing-guide/)。

### 2. Prompt cache:先想"会复用几次"再开

Anthropic 缓存的回本点是 **4 次**。如果你的 system prompt 每天调用 ≥ 4 次(绝大多数生产应用都满足),开缓存稳赚。OpenAI/Gemini 没有缓存写费用,可以"无脑开"。详细 ROI 见 [prompt-caching-roi-breakeven](/posts/prompt-caching-roi-breakeven/)。

### 3. 输出压缩:输出 token 单价是输入的 5-7 倍

最有杠杆的优化。三招:
- 在 system prompt 中明确"答案 ≤ 200 字"
- 用 `response_format: json_schema` 强制结构化(省 30-50% 输出)
- 推理模型设 `reasoning_effort: low` 把推理 tokens 砍 70%

具体方法和压缩前/后对比见 [ai-output-token-compression-methods](/posts/ai-output-token-compression-methods/)。

### 4. Batch API:能等 24h 就砍一半

OpenAI、Anthropic、Mistral 都提供 50% 折扣的 batch 模式。适合:内容生产、信息抽取、数据标注。不适合:实时对话、agent。

### 5. 国产模型降级路由

中文任务、对延迟不敏感的非核心链路,**DeepSeek V4 Pro / Qwen Plus / Doubao Seed** 是 1/10 价格的有力替代——前提是接口稳定性和数据合规可接受。深度对比见 [deepseek-api-cost-coding-chat-batch](/posts/deepseek-api-cost-coding-chat-batch/)。

---

## 八、5 个高频疑问

### Q1:ChatGPT 和 Claude API 哪个便宜?

按当前价格表,**同档位下 Claude 比 GPT 便宜 17%**:
- 高端:Claude Opus 4.7 ($5/$25) vs GPT-5.5 ($5/$30) — 输出端 Claude 便宜 17%
- 中端:Claude Sonnet 4.6 ($3/$15) vs GPT-5.4 ($2.50/$15) — 整体接近
- 低端:Claude Haiku 4.5 ($1/$5) vs GPT-4.1 mini ($0.40/$1.60) — GPT 便宜 60-70%

但如果加上**长 context 加价**(GPT-5.5 ×2 vs Opus ×1.5),长会话场景 Claude 综合更便宜。详见 [compare-claude-gpt-gemini-api-cost](/posts/compare-claude-gpt-gemini-api-cost/)。

### Q2:GPT-5.5 比 Claude Opus 4.7 贵多少?

输入相同(都是 $5),输出 GPT-5.5 贵 20%($30 vs $25)。**但是**:
- 长 context(>270K),GPT-5.5 ×2 加价、Opus ×1.5,Opus 反而便宜 30%
- 缓存命中场景,Opus 缓存读 $0.50 vs GPT-5.5 $0.50,持平

简单结论:**短任务 GPT-5.5 略贵 17-20%;长 context 任务 Opus 反而省 30%**。

### Q3:缓存能省多少钱?

看模型和命中率:

| 模型 | 命中率 30% | 命中率 60% | 命中率 90% |
|---|---|---|---|
| Claude Sonnet 4.6 | 省 27% | 省 54% | 省 81% |
| GPT-5.4 | 省 27% | 省 54% | 省 81% |
| Gemini 2.5 Pro | 省 27% | 省 54% | 省 81% |

注意 Anthropic 还要扣掉**缓存写费用**——首次写贵 25%,所以低复用率(< 4 次)反而比不开还贵。

### Q4:国产模型(DeepSeek/Qwen/Doubao)和海外比怎么样?

价格层面:DeepSeek V4 Pro 是 30+ 模型里**绝对地板**($0.14 / $0.28),便宜 Claude Haiku 7-18 倍。但要权衡:
- ✅ 中文任务能力相当甚至更强(DeepSeek、Qwen 在中文 benchmark 接近 Claude Sonnet)
- ⚠️ 接口稳定性:国产 99.5% vs 海外 99.9%
- ⚠️ 长 context 上限:国产普遍 128K-256K,Claude/Gemini 1M-2M
- ❌ 工具调用稳定度:国产对 function calling 支持弱于 Claude/GPT

**建议**:非核心链路(数据预处理、内容生产、信息抽取)大胆切国产;核心 Agent / 工具调用链路保留 Claude / GPT。

### Q5:怎么估算每月 AI API 预算?

三步:
1. 按上面"6 大场景"找最接近你业务的,把日 token 量代入公式拿到基线月成本。
2. 加 30% 隐藏成本预备金(重试、监控、长 context 加价)。
3. 用 [token-cost-calculator-api-budget](/posts/token-cost-calculator-api-budget/) 的模板做月度滚动预测。

新项目从小预算(< $500/月)起步,跑 2 周拿真实数据再调,比一次性估算准 3-5 倍。独立开发者/单人副业站的 AI 工具栈和成本占比可参考 OppMint 的 [AI Tools for Solo Founders Building Content Sites](https://www.oppmint.com/ai-tools-solo-founder-content-website/)。

推荐阅读