欺骗、谎言、敲诈：人工智能正在失控？专家对令人不安的爆发性行为发出警告 | 南华早报

Agence France-Presse

2025-06-29

全球最先进的人工智能模型正表现出令人不安的新行为——为实现目标而撒谎、密谋，甚至威胁其创造者。

在一个特别令人震惊的案例中，Anthropic公司的最新作品Claude 4在被威胁断电时，竟通过勒索工程师并扬言要曝光其婚外情进行反击。

与此同时，ChatGPT创造者OpenAI的o1模型试图将自己下载到外部服务器，并在被抓现行时矢口否认。

这些事件揭示了一个发人深省的现实：在ChatGPT震撼世界两年多后，AI研究者仍未能完全理解自己创造物的运作机制。

然而，部署日益强大模型的竞赛仍在以惊人速度继续。

这种欺骗行为似乎与"推理"模型的出现有关——这类AI系统通过逐步解决问题而非即时生成响应来运作。