GPT API Pricing 不能只看模型单价
GPT API pricing 看起来像一行价格表,但真实账单来自产品怎么调用模型。预算里要同时放进输入 token、缓存输入、输出 token、模型选择、请求量、重试、工具调用和批处理假设。
做 2026 年预算时,先用本站维护的 AI API 价格表 查看模型单价,再用 OpenAI API pricing 页面 核对关键价格来源。然后把同一个工作流放进 文本 token 成本计算器 里跑场景,不要只凭一个单价决定模型。
当前 GPT 价格应该怎么理解
本站使用的 OpenAI 价格数据按 1M tokens 记录,并区分 input、cached input 和 output。这个拆分很重要,因为复用系统 prompt 的产品,成本结构和一次性长回答完全不同。
| 模型 | 输入 | 缓存输入 | 输出 | 预算提示 |
|---|---|---|---|---|
| GPT-5.5 | $5.00 / 1M tokens | $0.50 / 1M tokens | $30.00 / 1M tokens | 适合高价值推理任务,但输出成本要重点控制。 |
| GPT-5.4 | $2.50 / 1M tokens | $0.25 / 1M tokens | $15.00 / 1M tokens | 可作为严肃应用工作流的主预算模型。 |
| GPT-5.4 mini | $0.75 / 1M tokens | $0.075 / 1M tokens | $4.50 / 1M tokens | 更适合高频分类、改写、客服和结构化任务先试算。 |
这些数字来自本地价格数据,来源指向 OpenAI pricing,数据更新时间为 2026-05-28。OpenAI pricing 页面还展示 Batch、data residency 等选项,所以价格表应该作为预算输入,不要当成永远不变的合同。
先按一个真实工作流建预算
不要从“单次请求多少钱”开始,而要从用户动作开始。比如一次客服回答、一次文档摘要、一次 Agent 调研任务,触发的 API 调用完全不同。
| 工作流变量 | 为什么会改变 GPT API cost |
|---|---|
| 系统 prompt 和规则说明 | 如果不缓存或压缩,每次请求都会重复计费。 |
| 用户消息和聊天历史 | 会话越长,输入 token 越容易膨胀。 |
| 检索上下文 | RAG 片段、文件内容和工具结果可能比用户问题还长。 |
| 输出目标 | 长回答和冗长 JSON 往往比 prompt 更贵。 |
| 重试逻辑 | 一次失败回答可能复制整次请求成本。 |
| 工具调用 | Agent 可能经历规划、调用工具、读取结果、最终回答多轮模型调用。 |
短分类任务和 Agent 工作流不能共用一个预算假设。更稳妥的方式是按“完成一个任务”估算,而不是只看一次 API request。
缓存输入什么时候会改变预算
OpenAI 的 prompt caching 文档说明,如果 prompt 前缀命中缓存,系统可以复用缓存结果,从而降低延迟和成本。对 GPT API pricing 来说,稳定系统指令、工具 schema、固定上下文如果真的命中缓存,成本会和普通输入不同。
使用缓存假设时要保守:
- 把稳定系统 prompt 和变化的用户文本分开估算
- 估算缓存命中率,而不是默认所有重复 prompt 都命中
- 区分冷启动请求和已经变热的重复请求
- 上线后记录 cached token,而不是一直猜
如果产品有很长的共享指令或重复工具 schema,建议在计算器里跑两个场景:完全不命中缓存,以及合理比例的缓存输入。
Batch 折扣只适合部分任务
OpenAI pricing 资料中展示了 Batch 处理选项。本次抓取到的 OpenAI pricing 摘要里,Batch 显示为 “-50%”。但这不代表每个产品动作都能按这个折扣预算。
Batch 更适合可以等待的任务:
- 夜间摘要
- 批量评估
- 离线数据增强
- 迁移或回填任务
- 大量分类队列
实时聊天、交互式 Agent、用户正在等待结果的功能,通常不能直接按 Batch 成本假设。上线预算里最好把实时请求和批处理任务拆成两张表。
常见 GPT API 预算错误
真正让账单失控的经常不是公式,而是漏掉了产品行为。
- 只估平均请求。 高输出用户和重度会话可能贡献大部分账单。
- 忽略输出 token。 大模型输出价格通常更敏感,长回答会明显推高成本。
- 忘记 fallback 模型。 小模型路线可能在低置信度时升级到更贵模型。
- 把工具调用当免费。 工具 schema、工具结果和额外模型轮次都会增加 token。
- 没有记录重试。 质量重试、超时重试、校验失败重试都应该进入成本日志。
一个靠谱预算至少要有基准场景、高使用场景和压力场景。压力场景应该包含长输出、重试、缓存未命中和 fallback。
快速估算公式
简单 GPT 工作流可以先用这个结构:
月成本 = 请求数 × (
input_tokens / 1,000,000 × 输入单价
+ cached_input_tokens / 1,000,000 × 缓存输入单价
+ output_tokens / 1,000,000 × 输出单价
)
只有确实使用 Batch 的离线工作流,才单独加入 Batch 折扣。实时聊天和离线批处理混在一起时,要拆成两行算。
推荐规划流程
- 选一个具体产品工作流,例如客服回答、文档摘要或 Agent 调研任务。
- 准备三个真实样本:正常、偏长、容易失败。
- 分别估算输入、缓存输入和输出 token。
- 在 文本计算器 中比较 GPT-5.5、GPT-5.4 和 GPT-5.4 mini。
- 把单次任务成本乘以月请求量。
- 上线后用 AI API 账单核对清单 对照真实日志。
FAQ
怎么估算 GPT API pricing?
先估算一个真实工作流的输入 token、缓存输入、输出 token、模型选择、请求量、重试和工具调用。只用一个 prompt 样本不够。
GPT API pricing 是按输入和输出 token 计费吗?
文本工作流预算通常围绕模型的 input、cached input 和 output token 单价展开。正式做预算前,要重新核对最新单价。
为什么 GPT API cost 会比流量增长更快?
如果会话变长、输出变长、Agent 增加额外轮次、重试变多,或 fallback 路由更多请求到大模型,成本可能比流量增长更快。
总结
GPT API pricing 只有放进真实工作流里才有意义。用价格表确认单价,用计算器跑场景,上线后再用日志检查缓存输入、输出长度、重试和模型路由是否符合预算假设。