Whisper API Pricing 先从音频分钟数开始
Whisper API pricing 通常比 token 计费更容易理解,因为语音转文字成本首先来自音频时长。真正容易出错的是把“一个上传文件”当成固定成本。实际转写产品还会受到分钟数、重试、失败上传、存储、人工校对,以及转写后摘要或分析成本影响。
做预算时,先核对当前官方价格来源,再把原始转写和转写后的处理拆开。你可以先用 音频成本计算器 做高层场景估算,再用 AI API 价格表 保留模型价格来源,方便后续复核。
按真实音频量建模
不要从“我们每月转写 1000 个文件”开始,而要从分钟数开始。
| 变量 | 为什么影响 Whisper API cost |
|---|---|
| 平均音频长度 | 3 分钟语音和 90 分钟会议不是同一种产品。 |
| 月文件数量 | 会把平均时长放大成月度可计费分钟数。 |
| 重试率 | 上传失败、网络问题和格式错误可能重复转写。 |
| 语言组合 | 多语言会影响质量检查和后续编辑工作。 |
| 后处理 | 摘要、行动项、搜索索引可能增加 LLM token 成本。 |
| 人工校对 | 合规、字幕或客户交付场景可能需要人工修正。 |
播客转写、语音留言摘要和会议智能产品,不能共用一套 Whisper API pricing 假设。
把转写成本和后续 AI 成本拆开
转写结果通常只是第一步。很多产品会继续把 transcript 发送给另一个模型,用于清理、摘要、章节划分、情绪分析、CRM 备注或工单创建。如果 transcript 很长、输出又很详细,第二步成本可能超过转写本身。
更稳的预算应至少拆成两行:
- 基于分钟数的音频转写成本
- 基于 transcript token 和输出 token 的文本模型成本
估算语音转文字成本后,如果产品还会做摘要或分析,应把 transcript 放进 文本 token 成本计算器 再跑一遍场景。
留意隐藏运营成本
音频产品的成本不只在 API 调用里。你可能需要存储原始文件、保存转写历史、生成字幕、排队后台任务或提供下载。这些不是 Whisper API pricing 的单价项目,但会影响毛利。
还要为失败文件留预算。用户会上传不支持格式、静音录音、噪音电话、超长文件和重复音频。自动重试能改善体验,但每次重试都应该进入成本模型。
一个实用估算公式
可以先用这个基础公式:
- 月音频分钟数 = 平均文件分钟数 × 月文件数
- 转写成本 = 月音频分钟数 × 每分钟价格
- 重试成本 = 转写成本 × 重试率
- 后续 AI 成本 = transcript 输入 token 成本 + 摘要输出 token 成本
- 总工作流成本 = 转写 + 重试 + 后续 AI + 存储/校对开销
公式很基础,但能避免最常见错误:只预算第一次干净转写调用。
上线前检查清单
上线前至少回答这些问题:
- 允许上传的最长文件是多少?
- 用户按上传次数、分钟、席位还是套餐付费?
- 转写失败后是否自动重试?
- 转写后是否保留原始音频?
- 是否每份 transcript 都做摘要,还是只给付费档?
- 是否提供说话人笔记、章节摘要等高成本功能?
这些问题答不清,Whisper API pricing 预算就还不适合上线。
FAQ
Whisper API pricing 是按 token 计费吗?
语音转文字通常按音频时长规划,转写后的摘要和分析再按文本 token 估算。
为什么完整工作流可能比转写更贵?
因为长 transcript 后续可能还要摘要、清理、索引、翻译、人工校对或存储,这些都会增加成本。
应该按文件还是按分钟向用户收费?
按分钟更安全,因为文件长度差异很大。如果按文件收费,应设置上传时长限制。
上线前最该估算什么?
估算月分钟数、平均文件长度、重试率、后处理 token 成本、存储和校对开销。