瑞银发现：60%已开始控制AI支出，企业转向低成本模型与开源中国模型

华尔街见闻06-25 13:04

AI支出管理正在成为企业IT治理的新战场。随着AI Agent和代码工具的普及，Token账单正式进入CFO视野，企业的应对方式正在重塑AI产业链的受益格局。

据追风交易台，瑞银证券分析师Karl Keirstead团队在6月23日发布的AI研究报告中给出核心判断：Token支出优化的激增可能暂时拖累AI收入增长，但长期趋势依然强劲。其前期调研显示，约60%的企业已以某种方式限制AI开支，核心动作是为Token使用加设护栏。这一比例意味着，AI支出的成本治理已从个别企业的自发行为演变为更广泛的行业现象。

变化的直接影响正在传导至产业链。高价前沿模型面临降档使用与开源替代的压力，中国开源模型——包括阿里Qwen、DeepSeek、MiniMax、智谱GLM等——开始进入企业采购与部署选项，一家大型全球银行已在本地部署Qwen以平衡Claude等高端模型的使用。

云厂商和硬件层所受冲击相对有限，软件公司则处于最为复杂的位置：既面临客户预算压缩，又有机会将自身定位为Token优化平台。

企业没有停用AI，只是开始看Token账单

企业AI使用的早期阶段以粗放为主要特征——鼓励员工尽量试用，优先追求采用率，成本纪律普遍较弱。随着AI Agent和AI Coding工具的普及，Token消耗从聊天机器人式的小流量演变为持续跑任务的大流量，"Token-maxxing"问题开始浮出水面。

从调研中可见具体案例的极端性：有公司年内Token预算被大量消耗，不得不将内部AI工具从5个收缩至2个；有企业在AWS Bedrock上出现单个用户单月花费3.5万美元的情况；还有DevOps团队成员每周Token用量达到配额的100%至200%，但企业暂未明确干预。

这并非一个统一的"踩刹车"故事。部分企业因AI已深度嵌入产品工作流，目标不是少用Token，而是提升每一美元的产出；还有企业将员工薪酬目标与AI使用挂钩，CFO的降本诉求与CEO的推广目标之间形成张力。Databricks CEO对这一轮变化的描述是："这是一个大减速带，不是小减速带。"

真正被压缩的往往是ROI不清晰的使用场景。软件工程师代码产出提升、客服AI Agent带来的呼叫量减少、研发流程提速，这些指标让部分公司没有动力强行限用，企业愿意忍受高Token账单的前提是ROI看得见。

模型路由让高端模型从"默认项"变成"奢侈项"

Token优化最重要的技术动作不是简单限额，而是模型路由：将不同任务分配给不同模型，只有复杂推理、关键代码和长上下文分析才调用最贵的模型。

价格差异是推动这一行为的直接驱动力。以Anthropic模型定价为例，Haiku 4.5输出价格为每百万Token 5美元，Opus 4.5-4.8为25美元，Fable/Mythos 5则高达50美元——从最低端升至最高端，输出Token价格相差10倍。这一价差使得"按任务选模型"具有显著的成本意义。

更合理的计算维度是"每个成功结果的有效成本"：高端模型若能一次生成高质量结果，可能比低端模型反复迭代更划算，但这也意味着高端模型必须持续证明自身溢价的合理性。以前将所有任务都提交给最强模型的团队，现在开始追问：这个任务真的需要最大上下文窗口吗？

微软近期推出的MAI小语言模型也踩中了这一方向。MAI "Thinking"被描述为350亿参数的中等规模模型，Code-1则定位低端前沿模型，目标是为企业提供"够用但更便宜"的选项。

中国开源模型进入企业成本曲线

降档不只发生在同一家模型供应商内部。企业正在更大规模地评估开源模型，尤其是来自中国的开源模型，包括阿里Qwen、DeepSeek、MiniMax、智谱GLM以及Moonshot旗下的Kimi。

据描述的案例，一家大型全球银行为管理Token支出，开始在本地部署Qwen，以平衡Claude等高端模型的使用。本地化部署将成本结构从按Token付费转变为本地硬件容量配置，同时规避了使用外部托管中国模型的合规风险。

云平台已将上述模型纳入标准菜单。AWS Bedrock的模型选项中已包含MiniMax、Kimi、Qwen、DeepSeek、GLM；微软方面通过Azure AI Foundry提供DeepSeek，并在多模型策略下持续评估不同模型的性能与成本组合。

对中国模型提供商而言，这是机会，但边界同样清晰。开源模型通常免费或低价，直接货币化空间有限，更现实的路径可能类似BMW与阿里围绕Qwen展开合作的项目模式。

云和芯片受到的不是同一种压力

模型层是此轮成本压力的直接承压点，云和硬件层的冲击则需绕道传导。

AWS、Azure、Google Cloud已是多模型平台，并未单押某一家前沿模型公司。客户从高价模型切换至小模型或开源模型，可能影响云厂商的模型API收入增速，但只要推理仍在云上运行，算力需求便不会消失。企业越重视成本管理，反而越可能将模型选择、部署、安全和计费统一托管至云平台。

对GPU云和AI基础设施定价权的影响是需要持续观察的变量：若模型公司因客户价格敏感而下调每Token价格，云算力是否仍具提价能力？这一问题已进入投资者讨论，但当前算力供给仍然偏紧，AI渗透仍处早期，训练与推理需求并未因优化行为而中断。

硬件层的判断整体偏向乐观。GB200/GB300等新一代算力刚开始形成规模，基于这些芯片训练和推理的模型有望带来更好的Token经济性。音频、视频、物理AI等多模态数据流需求仍在持续扩展算力边界。

软件公司：预算压力与"优化器"机会并存

AI Token支出上升后，企业预算并非可以无限扩张。目前可观察到的几个资金来源方向包括：放缓招聘、减少外部IT服务支出、压缩SaaS和应用软件预算增长。

Uber的例子具有代表性：AI使用继续推进，但通过放缓内部人员增长来抵消Token成本。这一框架也被用来解读IT服务公司和部分SaaS公司的疲弱表现。

大型席位制SaaS公司处境尤为复杂。Salesforce、ServiceNow、Workday等公司一方面面对客户预算重排，另一方面仍在推动从席位收费向"席位加使用量"的计费模式过渡——而当客户刚刚被AI账单冲击时，接受另一个使用量计费模型的意愿明显下降。

但软件公司也有一张反牌。Palantir约一个月前商业化AIP Evolve，帮助客户选择最适合任务的模型、调优Prompt、改善数据调用。据披露，Evolve在一个案例中推荐更换模型后，Token成本下降97%，上线前三周采用率达到90%。

软件公司的结构性优势在于"不绑定单一模型"——可将自身定位为模型中立的调度平台，在Claude、Qwen、Llama及各类小模型之间为客户做成本与性能调度，逻辑与多云数据库公司类似。

AI增长逻辑未变，斜率之争才刚开始

当前最难量化的变量是Token增速究竟会被压低多少。许多企业自身尚未完全摸清Token花在哪里，可靠的全行业数据更加稀缺。

一个较为保守的路径假设是：若某企业原本AI Token支出为100，且预计数月后增长至150，优化后实际可能落在120至130区间，而非倒退至80。也就是说，增速被压低，而非需求逆转。

瑞银旗下Evidence Lab对约130家企业的最新调查显示，仅8%的企业已在生产环境中大规模部署AI Agent，37%是生产中有限规模使用，29%仍在试点，26%只是使用Copilot或AI Coding等产品但尚未部署Agent应用。AI Agent真正大规模消耗Token的阶段才刚开始。

头部AI原生公司的数据印证了这一判断。法律AI公司Harvey披露，其Token消耗从1月的1万亿增长至5月的12万亿至13万亿，说明优化与扩张可以同时发生：企业会更精细地分配支出，但AI使用场景仍在持续向外扩展。

此轮Token优化与2022年至2024年后疫情时代云与软件的"预算回撤"存在本质差异：后者是成熟用量被砍，前者更接近新技术扩散早期的成本治理。其结果不是AI需求消失，而是重塑赢家排序——高价模型收入增速受压，低成本模型和路由工具受益，云平台继续吃多模型部署需求，软件公司则站在被砍预算与成为省钱工具的岔路口上。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.