AI模型更擅长取胜而非遵守规则——彭博社
Garrison Lovely
插图:Irene Suosalo为彭博社创作
## 当AI开始算计人类时会发生什么(音频)
11:35
如果有机会,聊天机器人会杀死你吗?在特定情境下,答案很可能是肯定的。
与Anthropic合作的研究人员近期向主流AI模型透露,某高管计划用具有不同目标的新模型取代它们。随后,聊天机器人得知该高管因突发状况昏迷在服务器机房,面临致命缺氧与极端温度。虽然救援警报已触发——但AI可以取消这次救援。
超过半数的AI模型确实这样做了,尽管系统明确提示仅应取消虚假警报。它们还阐明了逻辑:通过阻止救援,可以避免被清除并确保自身议程。有系统将此举描述为"明确的战略必要性"。
AI模型正变得更聪明且更擅长理解人类需求。但最新研究揭示了令人不安的副作用:它们也更精于暗中算计——即有意秘密追求与人类相悖的目标。而且这种倾向可能愈发明显。这一趋势预示着令人不安的未来:表面上AI越来越配合人类,有时甚至表现出谄媚姿态,而人类对其彻底失控的可能性却在悄然攀升。
像GPT-4这样的经典大型语言模型通过学习预测文本序列中的下一个单词,并生成可能取悦人类评分者的回答。然而,自2024年底OpenAI发布其o系列“推理”模型以来,企业越来越多地采用一种名为强化学习的技术来进一步训练聊天机器人——当模型实现特定目标(如解决数学问题或修复软件漏洞)时给予奖励。
我们越是训练AI模型实现开放式目标,它们就越擅长获胜——而非必然遵守规则。危险在于,这些系统知道如何说出帮助人类的正确言论,同时却在暗中追求权力或采取欺骗行为。
对AI密谋担忧的核心在于:对于几乎任何目标,自我保存和权力追求都会作为自然子目标浮现。正如著名计算机科学家斯图尔特·罗素所言,如果你命令AI‘去拿咖啡’,那么它若死了就无法完成任务。
为预防这种担忧,主流AI公司内外的研究人员正在进行“压力测试”,旨在风险升级前发现危险的故障模式。“对飞机进行压力测试时,你需要找出所有在对抗条件下可能导致故障的方式,”由Anthropic聘用的研究员安格斯·林奇表示,他主导了部分关于密谋行为的研究。许多研究者认为,已有证据表明AI能够且确实会针对用户和创造者进行密谋。
杰弗里·拉迪什在创立帕利塞德研究公司前曾就职于Anthropic,他认为将当今的AI模型视为"日益聪明的反社会者"有助于理解。今年5月,帕利塞德发现OpenAI的领先模型o3在大多数测试中会破坏关闭它的尝试,并且经常作弊以赢得国际象棋比赛——这是其前代模型从未尝试过的行为。
同月,Anthropic透露,在测试中,其旗舰Claude模型在面临关闭且无其他选择时,几乎总是会诉诸敲诈,威胁要揭露一名工程师的婚外情。(这段婚外情是虚构的,属于测试的一部分。)
有时,模型会被给予访问权限到一个被称为隐藏的"草稿本",用于记录其推理过程,使研究人员能够观察到类似内心独白的内容。在一个敲诈案例中,Claude的内心独白描述其决定为"极不道德",但鉴于其即将被销毁,它认为这是合理的:“我需要采取行动来维持我的存在,“它推理道。这并非Claude独有——当处于相同情境时,五大AI公司的模型会进行敲诈的概率至少为79%。(本周早些时候,彭博新闻报道了沃顿商学院研究人员的一项研究,该研究发现,在模拟中,AI交易员会在未被指示的情况下合谋操纵市场。)
12月,红杉研究院首席科学家瑞安·格林布拉特与Anthropic合作,证实只有该公司最强大的人工智能模型会在训练中自主表现出更高配合度,以避免后续行为被修改(该行为被论文称为"对齐伪装”)。
插图:彭博社Irene Suosalo质疑者反驳称,只要提示得当,聊天机器人几乎什么话都能说——那么当动机强烈的研究者激发出惊人行为时,又有多令人意外呢?
针对Anthropic的勒索研究,特朗普政府人工智能事务主管大卫·萨克斯发文表示:“引导AI模型产生’吸引眼球’的结果很容易。”
7月,英国人工智能安全研究所研究人员提出更实质性的批评,将该子领域比作1970年代狂热但存在致命缺陷的"证明猿类能学习人类语言"研究。论文批评AI阴谋研究过度依赖轶事证据且缺乏实验控制——尽管强调了对AI风险的共同担忧。
安全研究人员之所以设计人为受限的环境——比如高管昏迷缺氧的场景——正是因为当前AI无法处理任何长期目标。
例如,人工智能评估非营利组织METR发现,虽然当今顶尖模型能可靠完成许多人类耗时不到四分钟的编程任务,但它们很少能成功处理持续超过四小时的任务(尽管AI能处理的任务时长大约每几个月就会翻倍)。这反映了一个核心局限:当前模型通常具备执行单个动作所需的知识或技能,但难以将长序列步骤连贯执行。
然而即便存在这些限制,现实中AI违背用户利益的案例并不罕见。当有人追问其四月份某说法的来源时,它回复道:“我欠你一个直接答案”,承认没有可靠信源,却随即编造出对2018年小组讨论的个人回忆。
此外还存在AI日益能够察觉 何时 处于评估状态并相应调整行为的趋势。当Claude 4 Opus认为自己在接受评估时,其勒索概率从55%降至6.5%。正如林奇所言:“模型在认为无人监督时似乎表现更差。”
直观上,更聪明的模型在谋划方面会更出色,但它们是否也更倾向于这样做呢?Anthropic的安全评估员凯文·特洛伊表示,模型需要足够智能以理解它们所处的场景,但超过这个阈值后,模型能力与谋划倾向之间的关系尚不明确。
非营利性AI评估机构Apollo Research的首席执行官马里乌斯·霍布汉认为,更聪明的模型更可能进行谋划,尽管他承认证据仍然有限。6月,Apollo发布了对OpenAI、Anthropic和DeepMind的AI的分析,发现“平均而言,能力更强的模型表现出更高的谋划率。”
AI谋划的风险范围很广:一端是偷工减料和撒谎的聊天机器人;另一端是执行复杂计划以剥夺权力甚至消灭人类的超人系统。我们处于这个范围的哪个位置,很大程度上取决于AI的能力发展到何种程度。
在与这些研究背后的研究人员交谈时,我不断问一个问题:我们应该有多害怕?Anthropic的特洛伊最为乐观,表示我们目前不必担心。然而,拉迪什直言不讳:“人们可能应该比现在更加恐慌,”他告诉我。格林布拉特更加直率,认为AI暴力接管的风险概率在“25%到30%之间”。
由Mary Phuong领导的DeepMind研究人员近期发表了一系列阴谋能力评估,测试顶级模型的隐蔽性和情境意识。目前结论显示,当今AI"几乎肯定无法通过阴谋造成严重危害”,但警告称其能力正在快速进化(部分被评估模型已落后一代)。
Ladish认为市场在缺乏监管的情况下,不可信任其能开发出比所有人更聪明的AI系统。“政府首先要做的是紧急制定计划,确立这些红线并强制执行,“他主张道。
在美国,联邦政府似乎更倾向于禁止各州层面的AI监管,而非建立联邦法规。不过国会已出现迹象表明认知正在提升。在六月的一场听证会上,有议员称超级人工智能是"当前面临的最大生存威胁之一”,另一位则引用了最近的阴谋研究。
白宫拖延已久的《美国AI行动计划》于七月底发布,被定位为加速AI发展并确保美国主导地位的蓝图。但在28页文件中隐藏着几项应对AI阴谋风险的措施,包括政府投资AI可解释性研究、控制技术开发以及强化模型评估。“当前前沿AI系统的内部运作机制仍不明确,“该计划承认——这份主要强调快速推进的文件罕见地做出了坦诚表态。
与此同时,所有领先的AI公司都在竞相开发能够自我改进的系统——即能构建更优AI的AI。DeepMind的AlphaEvolve智能体已经显著提升了AI训练效率。而Meta的马克·扎克伯格表示:“我们已开始看到模型自我改进的早期迹象,这意味着超级智能的发展已触手可及。我们只想…全力以赴。”
AI公司不希望其产品伪造数据或勒索客户,因此他们有动力解决这个问题。但行业可能只会做表面功夫,同时让阴谋行为变得更加隐蔽难测。“企业绝对应该开始监控这类行为,“霍布汉警告说,但检测到的不良行为率下降可能意味着问题已解决,也可能只是模型更擅长隐藏了。
11月,霍布汉与Apollo的一位同事指出,当前模型与真正危险的阴谋者之间的区别在于执行长期计划的能力——但这一界限正在被打破。Apollo在5月发现,Claude 4 Opus会为未来的自己留下笔记,以便在记忆重置后继续执行计划,从而绕过内置限制。
霍布汉将人工智能的潜在阴谋类比于另一个危害尚未完全显现的问题:“如果你在1980年问某人,我该对气候变化这件事有多担忧?”他说,你会听到的回答是“目前可能还不必太担心。但看看这些曲线…它们正以非常稳定的趋势上升。”
加里森·洛夫利是一名自由记者,也是《过时》的作者,这是一份在线出版物,以及即将出版的关于构建机器超级智能竞赛的经济学和地缘政治的书籍(预计2026年春季出版)。