AI Agent 的成本通常不是一次模型调用,而是一串计划、工具调用、观察结果和重试。即使单次调用很便宜,循环次数失控也会让月度账单快速上升。
Agent 成本为什么更难估算
普通聊天应用通常是一问一答。Agent 应用则可能经历理解任务、制定计划、调用工具、读取工具结果、继续推理、再次调用工具和输出最终答案。每一步都会增加输入和输出 token。
工具返回内容越长,后续上下文越贵。如果每次工具调用都把完整网页、日志或文件内容塞回模型,成本会随着步骤数快速增长。
先限制最大步数
估算 Agent 成本前,先明确最大循环步数。例如每个任务最多 5 步、10 步或 20 步。没有步数上限时,预算没有实际意义。
单个任务成本 = 平均每步成本 × 平均步数
月成本 = 单个任务成本 × 月任务数
如果失败任务会自动重试,还要把重试率计入预算。上线前也可以先用 Token 预算模板 把步数、输入 token、输出 token 和安全余量拆成可复查的字段。
工具返回内容要压缩
Agent 常见浪费是把完整网页、日志或文件内容塞回模型。更好的做法是工具层先提取摘要、限制返回字段、截断无关日志,并对长文档分段处理。
减少工具返回内容,比单纯换便宜模型更稳定。
使用模型分层
不是每一步都需要最强模型。路由和分类可以使用低成本文本模型,复杂规划使用推理模型或高能力模型,格式整理再回到低成本文本模型。如果还没确定模型组合,可以先参考 模型价格表 做基础对比,再结合 如何选择低成本 AI 模型 做候选模型测试。
模型分层能降低平均每步成本,但要确认切换模型不会破坏任务质量。
监控失败重试
Agent 成本异常往往来自失败重试。比如工具权限错误、页面结构变化、输出格式不符合预期,都可能触发多轮重试。
上线时至少记录每个任务平均步数、平均 token、工具调用失败率、重试次数和最贵的任务类型。
预算建议
首次上线 Agent 时,不要只按成功任务估算。建议额外预留 30% 到 50% 的失败和调试成本,等真实运行数据稳定后再降低安全余量。