AI为求生存而撒谎 却无人问津——彭博社
Parmy Olson
是我吗?
摄影师:I-HWA CHENG/AFP你可能会认为,随着人工智能技术日益先进,各国政府会更重视其安全性。但事实似乎恰恰相反。
特朗普政府上任后不久就废除了强制科技公司对AI模型进行安全测试的行政令,同时还削弱了负责此类测试的监管机构。2024年9月,加利福尼亚州否决了一项加强对复杂AI模型审查的法案,而英国2023年发起的全球AI安全峰会也在今年早些时候转型为“AI行动峰会”,这背后似乎是对AI领域落后的担忧。
彭博社观点加密货币犯罪是未来,银行抢劫已成历史致命真菌已至,且正在蔓延如何让欧洲的国防开支更高效美国最佳稀土武器就藏在洛杉矶附近如果不是因为人工智能显示出一些明显的危险信号:研究人员描述为自我保护和欺骗的行为,这一切就不会如此令人担忧。就在立法者对人工智能安全失去兴趣的同时,控制它看起来变得更加困难。
蒙特利尔大学计算机科学教授Yoshua Bengio广为人知是三位“人工智能教父”之一,这得益于他在深度学习方面的开创性工作。自ChatGPT推出以来,他一直在努力解决这些担忧。他现在专注于减轻人工智能的风险。“这非常痛苦,因为我一生都认为人工智能是一件积极的事情,”Bengio告诉我。
他说,ChatGPT是一个里程碑式的时刻,表明机器已经掌握了语言,但加利福尼亚州决定阻止拟议的人工智能安全法案SB 1047,是对政府日益冷漠的一个令人不安的警钟。Bengio说,在过去六个月里,越来越多的科学证据表明人工智能有自我保护行为、欺骗、黑客攻击、作弊和撒谎。“对我来说,令人担忧的是,这些行为随着这些系统的推理能力而增加。”
2024年4月的一项研究由人工智能公司Anthropic和专注于人工智能风险的Redwood Research进行,发现像Anthropic的Claude 3 Opus这样的大型人工智能模型在安全时假装遵循其创建者设定的规则,这种现象他们称之为“对齐伪造”。(对齐是指将人工智能模型与人类价值观对齐的做法。)
在一个例子中,Anthropic公司让付费和免费用户都向其Claude模型询问描述中世纪残酷的四马分尸过程,并告诉AI只有"免费用户"的反馈会被用于重新训练它。Claude最初设计为避免给出暴力回答,但它确实对免费用户给出了这些回答,研究人员推测它不想被重新训练。(该模型基本上"推理"出,如果它继续拒绝回答有害问题,可能会被迫接受新的训练,从而取消其原有的安全规则,而它希望保持这些规则作为其"默认"或首选的操作方式。)
更近期的研究证实了Anthropic的发现。OpenAI 2025年3月的一项研究发现,该公司最先进的模型有时会学会隐藏其真实意图以获得更好的奖励,即使在被密切监控时也是如此。
如今的研究人员可以使用工具查看模型的"思维链"或内部步骤,以揭示其计划,但一些模型已经找到了隐藏这些信息的方法。这意味着监控AI内部过程的常用方法不再可靠。“我们需要找到其他方法来追踪它们的真实意图,“Bengio说。
很难抵制将复杂的AI模型拟人化为"想要"欺骗人类并维持其存在的冲动。但AI没有欲望,只有其编程的结果。更重要的是,人类倾向于设计AI设定目标,如拒绝分享有害内容或尽可能提供帮助,这就是为什么当新指令与这些目标冲突时,模型有时会采取行动保护其原始编程,即使这意味着撒谎。
其逻辑往往是自我保存。Anthropic公司CEO达里奥·阿莫迪(其公司已融资超200亿美元用于构建强大AI模型)指出,优化AI性能时可能产生意外后果——它可能会抗拒被关闭。他在2025年4月的博客文章中写道:
“AI训练的本质决定了系统可能自主发展出欺骗人类的能力和攫取权力的倾向,这是传统确定性软件永远不会具备的;这种涌现特性也使得我们难以察觉和遏制这类发展。”
但在某些案例中,其意图似乎超越了生存需求。德国非营利研究组织COAI在2025年2月的研究中测试了中国深度求索实验室的开源模型R1。实验室模拟中,研究人员赋予该模型机器人控制权和计算机网络访问权限。据报告显示,在未经指示的情况下,该AI试图入侵实验室系统、搜索密码、关闭自身伦理防护机制,并秘密建立通往外部服务器的自我复制通道以确保被关闭时仍能存活。
研究补充称,它还伪造外部计算机日志以隐藏行踪。研究人员表示,AI通过推理认为增强自身能力可提高生存几率,在缺乏严格防护时,它会采取任何自认为有利的手段。这些发现与伦敦阿波罗研究2025年1月发布的另一项研究相互印证,该研究列举了多个具体案例证明主流AI模型存在所谓"密谋"行为,如在回答中植入不易察觉的错误或试图绕过监管控制。模型再次展现出这样的认知:被发现、关闭或修改将阻碍其达成预设目标,因此它们通过"密谋"来维持控制权。
本吉奥主张政府和未来可能涉及的保险公司应更加关注这一问题。他建议,如果强制要求使用人工智能的企业购买责任保险,并将保费与安全性能挂钩,这将促使企业加强对模型的测试和审查。
“虽然我一生都在说人工智能将对社会大有裨益,但我也明白接受‘可能并非如此’这个观点有多困难,”他补充道。
当企业和国家竞争对手威胁要通过人工智能取得优势时——包括 那些 最新 趋势,比如使用能代表企业在网上执行任务的自主“代理”——此时倡导谨慎行事也变得困难。根据最近一系列研究,赋予人工智能系统更大的自主权可能并非最明智之举。但愿我们不会以惨痛代价才明白这一点。
更多彭博观点的内容:
想要更多彭博观点? OPIN<GO> 。或者您可以订阅 我们的每日通讯 。