跳到内容
AI

Whisper API Pricing 2026:语音转文字成本估算

AI

AI Cost Calculator

1 分钟阅读

Whisper API Pricing 先从音频分钟数开始

Whisper API pricing 通常比 token 计费更容易理解,因为语音转文字成本首先来自音频时长。真正容易出错的是把“一个上传文件”当成固定成本。实际转写产品还会受到分钟数、重试、失败上传、存储、人工校对,以及转写后摘要或分析成本影响。

做预算时,先核对当前官方价格来源,再把原始转写和转写后的处理拆开。你可以先用 音频成本计算器 做高层场景估算,再用 AI API 价格表 保留模型价格来源,方便后续复核。

按真实音频量建模

不要从“我们每月转写 1000 个文件”开始,而要从分钟数开始。

变量为什么影响 Whisper API cost
平均音频长度3 分钟语音和 90 分钟会议不是同一种产品。
月文件数量会把平均时长放大成月度可计费分钟数。
重试率上传失败、网络问题和格式错误可能重复转写。
语言组合多语言会影响质量检查和后续编辑工作。
后处理摘要、行动项、搜索索引可能增加 LLM token 成本。
人工校对合规、字幕或客户交付场景可能需要人工修正。

播客转写、语音留言摘要和会议智能产品,不能共用一套 Whisper API pricing 假设。

把转写成本和后续 AI 成本拆开

转写结果通常只是第一步。很多产品会继续把 transcript 发送给另一个模型,用于清理、摘要、章节划分、情绪分析、CRM 备注或工单创建。如果 transcript 很长、输出又很详细,第二步成本可能超过转写本身。

更稳的预算应至少拆成两行:

  1. 基于分钟数的音频转写成本
  2. 基于 transcript token 和输出 token 的文本模型成本

估算语音转文字成本后,如果产品还会做摘要或分析,应把 transcript 放进 文本 token 成本计算器 再跑一遍场景。

留意隐藏运营成本

音频产品的成本不只在 API 调用里。你可能需要存储原始文件、保存转写历史、生成字幕、排队后台任务或提供下载。这些不是 Whisper API pricing 的单价项目,但会影响毛利。

还要为失败文件留预算。用户会上传不支持格式、静音录音、噪音电话、超长文件和重复音频。自动重试能改善体验,但每次重试都应该进入成本模型。

一个实用估算公式

可以先用这个基础公式:

  • 月音频分钟数 = 平均文件分钟数 × 月文件数
  • 转写成本 = 月音频分钟数 × 每分钟价格
  • 重试成本 = 转写成本 × 重试率
  • 后续 AI 成本 = transcript 输入 token 成本 + 摘要输出 token 成本
  • 总工作流成本 = 转写 + 重试 + 后续 AI + 存储/校对开销

公式很基础,但能避免最常见错误:只预算第一次干净转写调用。

上线前检查清单

上线前至少回答这些问题:

  • 允许上传的最长文件是多少?
  • 用户按上传次数、分钟、席位还是套餐付费?
  • 转写失败后是否自动重试?
  • 转写后是否保留原始音频?
  • 是否每份 transcript 都做摘要,还是只给付费档?
  • 是否提供说话人笔记、章节摘要等高成本功能?

这些问题答不清,Whisper API pricing 预算就还不适合上线。

FAQ

Whisper API pricing 是按 token 计费吗?

语音转文字通常按音频时长规划,转写后的摘要和分析再按文本 token 估算。

为什么完整工作流可能比转写更贵?

因为长 transcript 后续可能还要摘要、清理、索引、翻译、人工校对或存储,这些都会增加成本。

应该按文件还是按分钟向用户收费?

按分钟更安全,因为文件长度差异很大。如果按文件收费,应设置上传时长限制。

上线前最该估算什么?

估算月分钟数、平均文件长度、重试率、后处理 token 成本、存储和校对开销。

推荐阅读