音频模型

估算语音识别、语音合成、实时语音和音频理解 API 成本，区分音频输入、音频输出、文本 Token、缓存读取和月度调用量，帮助语音产品在上线前核对模型选择、计费单位、单次请求成本、月度预算、并发使用假设和账单风险，适合语音客服、会议转写、字幕生成和实时对话场景。

输入 /tokens

缓存读取 /tokens

输出 /tokens

OpenAI · GPT-Realtime-2

$0.00

每次请求

输入 $32/1M tokens

输出 $64/1M tokens

缓存读取 $0.4/1M tokens

输入0%

输出0%

缓存读取0%

Google · Gemini 3 Audio

$0.00

每次请求

输入 $3/1M tokens

输出 $12/1M tokens

输入0%

输出0%

缓存读取0%

Google · Gemini 2.5 Flash Audio

$0.00

每次请求

输入 $0.5/1M tokens

输出 $1.5/1M tokens

缓存读取 $0.05/1M tokens

输入0%

输出0%

缓存读取0%

报告价格错误