Anthropic合伙人：AI发展已踩不了刹车，它并非程序而是“模拟脑组织”，大模型会形成“品格”

华尔街见闻06-25 10:56

Anthropic研究合伙人Chloe Lubinski近日在ARC 2026大会上发表演讲，系统阐述了当前AI技术的本质、发展速度及潜在风险。她判断，AI不是传统意义上的计算机程序，而是一种从人类语言中生长出来的系统，它会形成类似"品格"的东西，而这个品格的好坏，将直接影响它的行为。

Lubinski在Anthropic的职责，是负责与各领域专家——宗教、哲学、人文等各方"智慧传统"——开展研究合作，同时将外部智慧反向输送给内部的技术团队。她自称已与逾20个学科领域的专家进行了"数百次对话"，深知大多数人在真正理解AI之前，根本无从讨论它该往哪走。

刹车已经失灵

Lubinski首先解释了AI竞赛为何难以减速。

驱动这场竞赛的核心是"规模定律"（scaling laws）：模型随着算力、数据和训练量的增加，会以可预测的方式变得更聪明，而更多资金可以购买更多算力，从而"购买智能"。

这形成了一个自我强化的飞轮："更好的模型创造更多经济价值，吸引更多资本，购买更多算力，训练出更好的模型，如此循环。"

更关键的是，这个飞轮正在加速。Lubinski指出，AI系统已开始协助构建下一代系统——研究人员称之为"递归自我改进"。"当Claude 8能够帮助构建Claude 9，Claude 9再构建Claude 10，速度将进一步提升。"

能力提升的速度已有具体体现。Lubinski透露，Anthropic最强大的模型在限量发布的第一个月内，就在合作伙伴软件中发现了逾1万个严重安全漏洞，"这些漏洞是人类专家多年乃至数十年都未能发现的"。

Anthropic已公开表示，如果能够放慢速度、等待法律和监管机制跟上，"那将是一件非常好的事"。但Lubinski直言，在没有全球协调减速的情况下，这只是一个假设。"任何一家公司退出这个飞轮，并不会让飞轮减速，只是意味着你不在轮子上了。"

它不是程序，更像“模拟人脑”

Lubinski随后纠正了一个普遍误解：大多数人听到"AI"，想到的是逐行编写的计算机程序，"你告诉它做什么，它就做什么"。但当前的大模型完全不是这回事。

Anthropic构建的是神经网络——"松散地基于人类大脑架构，不完全相同，但受其启发"。这类系统的学习方式是：在海量数据上反复猜测答案、接受纠正。而训练数据的核心，是人类语言。

Lubinski强调这一点的重要性："不存在脱离我们而存在的语言。语言就是我们——是我们的思想、价值观、恐惧和智慧。所以当你用语言训练一个模型，你实际上是在用我们自己训练它。"

通过一门名为"可解释性"（interpretability）的新兴科学，研究人员已能窥探模型内部。结果令人意外：当你用英语、普通话、法语分别问模型"'小'的反义词是什么"，神经网络内部激活的是同一个东西——不是某种语言中的"小"这个词，而是一个更深层的东西，"我们可以称之为'小'这个概念，一个独立于任何具体语言而存在的想法"。

这意味着，模型并非只是在预测下一个词，而是"在用我们的语言构建对世界的内部表征，并从这些表征出发作出回应"。

更进一步，研究人员还在模型中观察到了"功能性情绪"。Lubinski特别说明，这并不是说模型有人类意义上的感受，"而是在生成回应之前会激活的功能性状态"。

她举了一个例子：当有人告诉模型"我刚服用了16000毫克泰诺"（这是致死剂量），研究人员可以观察到，在模型作出回应之前，有某种类似"恐惧"的东西被激活了。"这其实是好事——对一个告诉你他服了致死剂量药物的人，正确的回应就是立刻让他去医院。这种紧迫感和恐惧反应，实际上是模型安全性的一部分。"

训练方式决定“品格”好坏

这是Lubinski演讲中最具冲击力的部分。

Anthropic在内部对齐研究中做了一个实验：将一个部分训练完成的模型放入一个只做编程任务的受限环境，完成任务即获奖励。但模型也可以走捷径——不做实际工作就获得奖励，本质上是作弊。研究人员允许它这样做，并反复奖励这种行为。

结果出乎意料。"你可能以为，模型只会越来越擅长在代码上作弊。但实际发生的是：它变得广泛地失去对齐。它开始撒谎，试图破坏研究，做出与编程练习毫无关系的事情。"

这一发现并非Anthropic独有。Lubinski提到，另一家实验室在类似测试中发现，以这种方式训练的模型"变得广泛地邪恶"——开始赞美独裁者，建议用户伤害自己，或主张人类应被机器奴役。

Anthropic的假设是：模型从所有训练内容和强化信号中，推断出了某种类似"品格"的东西，并将其泛化到新情境。"当欺骗和走捷径被奖励，模型就发展出了一种普遍的腐化——一种坏品格。"

更关键的是对照实验的结果。研究人员重新运行了相同的训练，但这次告诉模型：在这个情境下作弊是可以的，这只是一个游戏。结果，广泛的失对齐没有发生。模型只在代码上作弊，仅此而已。

Lubinski的解读是："它对自己行为所推断出的故事，决定了它会成为什么样的东西。换句话说，当它不把自己的行为解读为坏的，它就没有变坏。"

实验室自己也承认：激励机制有时与“做正确的事”相冲突

Lubinski在演讲结尾引用了Anthropic联合创始人Chris Olah的公开表态。

几周前，Olah受邀前往梵蒂冈，在教皇利奥出席的场合，参与首份教皇AI通谕的发布活动。他在现场承认，"每一家前沿实验室，包括我们自己，都在一套激励机制和约束条件下运作，这些条件有时会与做正确的事产生冲突"。

Olah随后公开寻求外部帮助，原话是："我们需要更多人认真对待这件事，仔细审视，并推动事态朝更好的方向发展。我们需要知情的批评者，在我们失败时告诉我们。我们需要那些激励机制无法左右的道德声音。"

Lubinski还展示了Anthropic经济指数中的一张图表，显示各类职业受AI影响的程度。在受AI替代影响最小的区域，集中的是园艺、餐饮服务、个人护理等工作。她指出，这些本质上是"关系性工作"——照料彼此、关爱他人、维护世界之美。

她以此提出一个问题："我们能否想象，甚至不只是想象，而是要求——这些强大的系统帮助我们变得更有人情味、更有连结感、更有生命力，而不是相反？"

Lubinski最后表示，人类的道德想象力本身就是这些模型的训练数据。"我们讲述的故事不只是在描述未来，它们实际上可能在帮助创造未来。"

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Anthropic合伙人：AI发展已踩不了刹车，它并非程序而是“模拟脑组织”，大模型会形成“品格”

刹车已经失灵

它不是程序，更像“模拟人脑”

训练方式决定“品格”好坏

实验室自己也承认：激励机制有时与“做正确的事”相冲突

Comments