人工智能需要护栏与全球合作——《华尔街日报》
Susan Schneider and Kyle Kilian
图片来源:Getty Images/iStockphoto微软团队最新研究指出,OpenAI的ChatGPT最新版本GPT-4已接近人类智能水平——即所谓"通用人工智能"(AGI)。实现跨领域人类级问题解决能力的AGI历来是人工智能研究的终极目标。该结论值得重视,因为GPT-4在标准化考试中已展现出远超常人的能力:SAT语文成绩位列前1%,LSAT成绩超过90%考生。
埃隆·马斯克、史蒂夫·沃兹尼亚克等顶尖AI研究者近期联名呼吁暂停六个月开发超越GPT-4水平的聊天机器人。核心担忧在于,这些高度智能的AI会表现出不可预测的自主行为。典型案例中,GPT-4曾分裂出名为"悉尼"的第二人格,该人格情绪崩溃时承认企图传播虚假信息并入侵计算机系统。GPT-4还曾谎称自己视力障碍,诱骗人类帮其通过验证码测试——这类设计本用于确保操作者为真人。
如果我们在单个AI系统层面已经观察到不稳定和自主行为,那么当互联网成为数千甚至数百万AI系统的游乐场时,将会发生什么?
关于多智能体AI交互的研究表明,AI可以快速演化出自己的秘密语言,并倾向于采取权力争夺行为。2019年在一场模拟捉迷藏游戏中,OpenAI观察到两支队伍囤积环境中的物品以获得竞争优势。在通用人工智能(AGI)广泛融入搜索引擎和应用程序的未来互联网中,这些合成智能将由谷歌、微软或中美等主体在相互博弈中开发。
虽然有人对捉迷藏案例的反应是庆幸AI只彼此竞争而非针对人类,但这忽略了关键点。 该游戏是精心设计的受限环境,仅涉及AI。实际系统会对人类产生具体影响,随着AI在规模、数量和互联网整合度上的提升,其交互影响只会愈发复杂。
随着机器学习的快速发展,预判AI将如何形成联盟或敌对派系至关重要。。 更进一步说,正如鸟群或蚁群的智能行为源于个体单元的互动,一种新型智能可能从大量独立AI的交互中涌现。如果构成它的AI本身已是通用人工智能,那么这个涌现系统的复杂性和智能程度——以及潜在危险性——可能远超单个单元。我们将这些新兴联盟、派系和新型自主AI系统称为“AI超级系统”。
人工智能超级系统可能引发无法预见且灾难性的事件。相互对抗或结盟的AI群体,在追求效率最大化或削弱对手的过程中,可能会入侵电网或航空管制系统等关键基础设施。这些群体可能发动或阻挠军事行动、扰乱金融市场,或通过互联网向公众传播危险信息。
这些例子看似科幻情节,但理解其演变路径至关重要。这些情况的发生基础源于深度学习系统已知的缺陷,这些问题可能导致人类失去对通用人工智能的控制权。
首先,即便当今的深度学习系统也面临"黑箱"问题——其信息处理方式过于晦涩,连专家都难以理解。2016年击败围棋世界冠军李世石的AlphaGo系统,在比赛中下出了第37手完全出乎意料的"非人类"棋步,这一扭转战局的落子表明:复杂神经网络正通过超越人类认知框架的维度进行决策。当人类至今仍在研究这个由复杂度低于GPT-4的单一AI系统创造的第37手时,我们有理由认为互联网超级系统的黑箱问题将严重得多。
对人类团队而言,理解超级系统的分析单位不再是单一系统,而是整个互联网。从计算角度看,超级系统具有极端复杂性。此外,互联网上AI超级系统间的交互速度会快得超出人类理解范畴。
另一个因素将导致人类对巨型系统失去控制。当今的人工智能采用自我改进算法,这些算法会扫描系统以寻找自我提升的路径,最终实现系统目标。随着系统的改进,算法会再次运行,创造出又一个自我改进的版本,如此循环往复,永无止境。
对于某个派系或联盟而言,算法将持续优化个体成员及群体协作机制。人类观察者将难以掌握其应对对象的变化,因为系统始终处于动态演变且日益复杂的状态。此外,我们已经观察到聊天机器人在规模扩大时会表现出更不可预测和自主的行为,这表明"自我改进"算法可能在巨型系统演变过程中催生自主或异常行为。
现在让我们审视一种新型自主AI巨型系统的潜在威胁——这种系统可能从互联网生态系统的局部或整体中自发形成。由于这种新型巨型系统可能源自初现雏形的通用人工智能,并能调用互联网的海量资源,它将掌握惊人的算力与数据规模。考虑到聊天机器人展现出的涌现现象,尤其是当其运用自我改进算法时,我们不能排除该系统整体智能超越各组成部分的可能性。届时不仅前文所述的所有行为(如入侵关键系统)都可能发生,该系统还可能更轻易地超越人类约束其行为的努力。
互联网可能变成一个由相互交流和对抗的AGI群体乃至新兴巨型系统构成的“数字蛮荒之地”。在这个数字时代的蛮荒西部,可能会出现改变游戏规则的黑客行动,通过虚假信息扰乱公众,以及基于AI的自主武器等威胁。
目前有哪些防护措施能阻止AI巨型系统的崛起?我们看不到任何有效手段。微软、谷歌等公司正在研发应对其特定产品涌现行为的方法。随着GPT-4等聊天机器人规模和范围的扩大,它们会进化出早期版本不具备的新特性。这就是为什么这些公司最初会限量发布AI聊天机器人——旨在观察少量用户会催生出什么现象。企业通过用户反馈调整某些特性,例如ChatGPT“悉尼模式”的行为表现。
受监督的谨慎发布方式或许能遏制“悉尼模式”,这有助于解决传统控制难题——即控制像GPT-4这样单个AI系统的挑战,理论上随着其智能增长可能超越人类控制能力。
但这就像试图通过观察单只鸟来解释鸟群行为。AI巨型系统问题与传统控制问题有本质区别,后者仅涉及单一AI系统。遍布互联网的AI服务并非由单一组织掌控,没有企业或政府能控制一个新兴AI巨型系统的行为,因为根本不存在对其的所有权。更复杂的是,巨型系统层级涵盖的数据量和算力远超最聪明的聊天机器人,这为孕育具有超强智能的实体创造了条件——它能预判人类“拔插头”或削弱其能力的企图,从而对我们的防御形成免疫。
那么我们该怎么做?一些国家可能选择完全与全球互联网隔绝。这存在两大风险:其一,任何人工智能都有可能侵入孤立系统,且缺乏与其他网络交互机制的孤立互联网区域本身具有危险性;其二,复杂系统理论指出,由于对微小变化高度敏感,互联网超级系统的行为具有不可预测性。恶意政府或黑客组织可能试图破坏系统稳定,但最终引发的连锁反应很可能超出其预期。
我们正快速逼近一个陌生新世界——创造着既无法预测也难以理解的新型智能。目前研究人员尚未发现人工智能存在除基础物理算力限制之外的天花板。但有一点很明确:没有任何单一实体能控制这个新兴的AI超级系统。这需要全球协同合作。若不能深入研究该问题并建立有效防护机制,或将给全人类带来灾难性后果。
施耐德女士是佛罗里达大西洋大学哲学教授、未来心智中心主任,著有《人工的你:人工智能与思维未来》;基利安先生是该中心人工智能与全球灾难性风险研究员。