“框架”比“模型”本身对Agent成功的影响大7倍!“推理成本”和“部署效率”才是创业公司的核心竞争优势

华尔街见闻06-26 15:47

谁是AI Agent竞赛中真正的胜负手?1781次真实运行给出的答案不是模型。

AI评估平台Braintrust从Hugging Face抓取了1781条Agent在生产环境中的完整运行轨迹,覆盖六款主流模型在六大类任务中的表现,然后用GPT-4o逐条打分。结论第一条就极具冲击力:保持模型不变,仅更换包裹模型的"智能体框架"(harness),成功率可以从12%直接跳到92%——波动幅度超过80个百分点。

回归分析把这一直觉量化为精确数字。在控制基准测试和模型两个变量后,智能体框架能解释约5.3%的成功率差异,模型仅能解释0.7%。换智能体框架的影响力是换模型的7倍以上。更关键的是,智能体框架切换的成本几乎为零——同一任务中不同智能体框架的Token消耗基本相当。

对AI创业公司而言,这组数据改写了竞争规则。当模型层商品化加速、六款主流模型在编程任务上的表现差距已缩小至个位数百分点时,"选哪个模型"不再是决定性变量。"用什么工具把模型部署到生产环境"、"每次成功任务的推理成本控制在什么水平"——这两项能力正在替代"接入哪个模型",成为区分赢家和输家的核心变量。

智能体框架:成功率81个百分点的最大杠杆

Braintrust测试了五种架构完全不同的智能体框架。claude_code是Anthropic的原生Agent循环,以类XML格式让模型自主管理工具调用和上下文。smolagents_code允许模型编写Python代码串联操作。tool_calling是标准的结构化JSON函数调用,一次一个工具。tool_calling_with_shortlisting在前者基础上每轮预筛选可用工具。openai_solo则是最薄的OpenAI封装。

同模型、同任务下切换智能体框架的数据令人触目惊心。Claude在SWE-bench编程任务中,claude_code下成功率100%,换成tool_calling骤降至14%。Kimi在AppWorld多应用编排任务中,smolagents_code下92%,tool_calling下仅12%。GPT-4.1在电信客服任务中,smolagents_code下51%,claude_code下只剩18%。

每个成功率的悬崖背后都是同一个模型。智能体框架设计中的微小差异——是让模型自主管理上下文,还是用固定模板约束每一步;是允许模型写代码来串联工具调用,还是只能一次调用一个工具——把成功率的差距拉到了近一个数量级。

tool_calling_with_shortlisting的失败尤其值得注意。这个智能体框架试图通过"每轮缩小可用工具列表"来提高效率,但数据表明它反而拖累了表现——缩小选项可能切掉了有用工具,也可能引入了路由错误。"更精密的控制"并不自动等于"更好的结果"。

开源模型的生产力账本:编程任务每次成功0.73美元

在SWE-bench编程基准上,开源模型的成绩与最顶尖闭源模型处于同一档位。DeepSeek V3.2达到96%成功率,Kimi K2.5达到94%,Claude Opus 4.5为100%,GPT-5.2为93%,Gemini 3 Pro为87%。

但真正的分水岭在成本端。Braintrust对每次运行按LiteLLM的实际Token费率定价,然后用成功率折算每次成功任务的成本。

在SWE-bench上,claude_code配合Kimi K2.5每次成功仅花费0.73美元,配合DeepSeek V3.2为1.27美元。闭源的Claude Opus要4.28美元,Gemini 3 Pro要4.97美元。在AppWorld任务上,差距进一步拉大:Kimi配合smolagents_code每次成功仅0.40美元,Claude配claude_code高达84.33美元——差了200倍以上。

开源模型还有一个闭源模型不具备的成本结构优势:自托管。不用每次调用都付费,不用承受API涨价的被动风险。对于需要大规模部署Agent的公司,这构成了一条结构性的成本护城河,不是短期Token降价能抹平的。

"Token最便宜"不等于"效率最高"

GPT-4.1在这个分析中扮演了教科书级的反面角色。

它的Token账单在纸面上漂亮得惊人——比同等任务下的其他模型便宜10到100倍。但Braintrust拆开每条运行轨迹后发现:GPT-4.1在SWE-bench和AppWorld这类硬核任务上的失败率高达53%到90%,它之所以"便宜",是因为"更快地失败了"。

没有成功率的成本指标不是效率指标,而是"用更少Token完成一次失败"的数字。衡量效率的正确维度是每次成功成本(cost per success),即单次任务成本除以成功率。这个指标完全重塑了配置排名。

在编程类任务上,开源模型走到了成本效率前沿线的最优位置。在对话客服类任务上,局面彻底翻转——GPT-4.1以每次成功0.02至0.03美元的成本大幅领先Claude的1.95美元,且开源模型根本没有运行这批对话测试。

对于AI创业公司,不存在一个通吃的"最便宜模型"。编码任务用DeepSeek或Kimi自托管,客服对话用GPT-4.1——不同的任务家族对应完全不同的成本最优解。

没有全能的模型,只有分任务的最优解

六个基准测试,四个不同的冠军。

Claude赢下SWE-bench(编程)、BrowseComp+(网页研究)和TAU2零售/电信客服。Gemini在TAU2航空客服上以100%成功率夺冠。DeepSeek和Kimi则在AppWorld多应用编排任务上大幅领先。不存在一个在所有场景中通杀的模型。

甚至在同一智能体框架内,不同模型的表现也差距悬殊。AppWorld任务中,Claude在自家原生的claude_code下仅有26%成功率,远低于同智能体框架下DeepSeek的80%和Kimi的78%。模型与任务的匹配度、以及与智能体框架之间的协同效应,远比模型参数的绝对规模更能预测最终表现。

Braintrust还发现,高平均成功率会掩盖致命的局部塌方。某些配置总体得分不错,但在某个具体任务类型上完全崩盘。把每个配置的跨任务成功率标准差画出来,高方差配置和可靠配置泾渭分明——Claude Opus的claude_code虽然总体上73%领先Gemini的71%,但跨任务标准差却更高(0.27 vs 0.24),意味着它在某些测试套件上波动更大。

对创业公司的采购策略而言,这意味着不应当押注单一模型。 合理的路径是按任务类型构建一个差异化的模型-智能体框架组合矩阵,让每一类任务都跑在最合适、成本最优的配置上。

两种失败,两种完全相反的工程策略

Braintrust还揭示了一个对工程部署有直接指导意义的模式:Agent失败时的行为,在编码任务和对话任务上方向完全相反。

在SWE-bench和AppWorld这类硬核编程任务中,失败伴随着"颠簸"——Agent比成功的同行发出更多LLM调用、消耗更多Token、运行更长时间。BrowseComp+的失败运行消耗的Token是成功运行的2.3倍。claude_code智能体框架的失败运行Token用量中位数约0.8M,尾部甚至超过3.7M。

在TAU2客服对话类任务中,模式完全反转。失败的Agent调用更少、Token更少、结束更快——没有颠簸挣扎,直接自信地给出了一个错误答案后收工。

两种截然相反的失败模式意味着,生产环境的监控策略不能用一个规则覆盖所有场景。编码任务需要Token用量的上限告警——在Agent陷入无限循环或反复挣扎时及时止损。对话任务则需要下限告警——捕捉那些"过于流畅地完成了一次错误交付"的异常。一刀切的单一阈值,会帮助一类任务,同时摧毁另一类。

推理成本管理和部署效率:创业公司的真正壁垒

Braintrust这组数据讲述的是一个比"谁家的模型跑分更高"更根本的叙事。

六个主流模型在编程任务上的成功率差距已经收窄到个位数百分点,开源模型的单次成功成本甚至已经系统性低于闭源。模型层的商品化速度比绝大多数人预想的更快。继续在"接入哪个最新模型"上构筑商业故事,护城河正在快速蒸发。

真正开始拉开差距的,是模型之外的三项能力:为每类任务匹配最优智能体框架、按每次成功成本而非每次任务成本衡量效率、对不同任务类型建立差异化的失败监控体系。

这三件事的核心指向同一组关键词——推理成本的精细管理和部署效率的系统优化。AI Agent赛道上,比"你的模型比我的好多少"更关键的问题是:你在给定任务上把每次成功成本控制到什么水平?你能否在客户自建方案做不到的成本线以下交付相同的成功率?

对于ToB的AI创业公司,产品定义的重心需要从"我们接入了哪个模型"转向"我们在什么任务场景、用什么成本结构、以什么成功率交付"。叙事不再是比模型——是比成本、比效率、比工程。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Comments

We need your insight to fill this gap
Leave a comment