我们如何控制人工智能 - 《华尔街日报》
Eric Schmidt
当今的大型语言模型——构成人工智能基础的计算机程序——是人类取得的非凡成就。其卓越的语言能力和广博知识背后,是海量数据、巨额资金与漫长时间的共同作用。许多模型的研发成本超过1亿美元,需要人类与机器进行数月的测试优化。通过评估系统答案与"正确答案"的接近程度,这些模型经历了高达数百万次的迭代优化。
真正的难点在于编码人类价值观。目前这需要额外的人类反馈强化学习步骤:程序员通过自身回应训练模型,使其输出既实用又准确。同时,所谓的"红队"会故意刺激程序以暴露潜在有害输出。这种人机协同的调整与防护机制,旨在确保AI与人类价值观保持一致并保障整体安全。迄今为止,这种方法似乎效果尚可。
但随着模型日益精进,现行方法可能力有不逮。某些模型开始展现通才特质:它们似乎能超越训练数据建立跨领域、跨语言、跨地域的概念联系。假以时日,仅凭公开知识,它们就可能设计出新型网络攻击或生物攻击方案。
关于如何管控这些风险,业界远未达成共识。媒体对OpenAI十一月内讧的诸多解读中,包括董事会基于非营利使命的安全考量与商业利益间的根本冲突,这最终导致前CEO萨姆·奥尔特曼被解职。像为客户定制ChatGPT这样的商业项目利润丰厚,却可能削弱基础安全防护。随着AI愈发智能强大,此类风险争议将愈演愈烈。我们必须建立能匹配核心模型复杂度与创新速度的新型安全体系。
9月13日,OpenAI首席执行官山姆·阿尔特曼出席美国参议院人工智能洞察论坛,与其他科技领袖讨论人工智能及其治理后离职。图片来源:Graeme Sloan/美联社尽管多数人认为当前的人工智能程序总体上使用和传播是安全的,但我们现有的安全测试能否跟上AI迅猛发展的步伐?目前,行业对需要测试的明显问题——包括个人伤害和偏见案例——已具备较好把控力。检测模型当前状态是否包含危险知识也相对直接。真正难以测试的是所谓"能力冗余"——这不仅指模型现有知识,更包括其可能自主衍生的潜在知识。
红队测试在预测模型能力方面已展现一定潜力,但新兴技术可能颠覆我们当前的人工智能安全策略。首先,“递归自我改进"功能允许AI系统自主收集数据、获取反馈并更新参数,实现模型自我训练。这可能催生出能从零构建复杂系统应用(如简易搜索引擎或新游戏)的AI。但递归自我改进可能激发的全部新能力范围尚属未知。
另一个例子是"多智能体系统”,多个独立AI系统可相互协作创造新事物。仅两家不同公司的AI模型实现协作,就将成为需要警惕的里程碑。这种"组合式创新"——通过系统融合创造新事物——之所以构成威胁,正是因为组合数量将迅速超越人类监管能力。
除非切断执行这些任务的计算机电源,否则一旦这些技术突破发生,监控这类技术将变得极其困难。当前的监管方法基于单个模型的规模和训练投入,并通过日益严格的测试来实施,但随着系统能力呈指数级增长且可能愈发难以捉摸,这些手段将失效。人工智能监管方式必须升级,以识别并管控新涌现的能力及其规模扩张。
2023年10月30日,拜登总统在副总统卡玛拉·哈里斯陪同下签署行政令,为人工智能监管提供指导方针。该政策采取灵活方式,但缺乏法律强制力。图片来源:埃文·武奇/美联社欧盟迄今通过《人工智能法案》推行了最具雄心的监管框架,根据模型风险等级实施透明度要求和差异化管理。该法案甚至涵盖了像ChatGPT这样的通用模型——这类模型应用场景广泛且可能以不可预测的方式被使用。但随着大量不受该法规约束的开源AI模型在范围和数量上的扩张,《人工智能法案》已落后于创新前沿。拜登总统近期关于AI的行政令采取了更广泛灵活的策略,向政府机构提供方向指引并概述监管目标,但未具备《人工智能法案》那样的完整法律效力。例如,该行政令授权美国国家标准与技术研究院负责制定AI系统安全标准和评估规程,但并未要求美国AI系统必须"通过测试"。此外,拜登行政令和欧盟《人工智能法案》都缺乏快速适应持续剧变的AI格局的内在机制。
我最近参加了兰德公司和卡内基国际和平基金会在帕洛阿尔托组织的聚会,会上人工智能领域的关键技术领袖们达成了一个共识:解决这些问题的最佳途径是建立一系列新的测试公司,这些公司将通过相互创新竞争来获得激励——简而言之,构建一个充满活力的测试经济体系。为了检验最强大的人工智能系统,测试者自身也必须是强大的人工智能系统,经过精确训练和优化,专注于识别全球最先进模型中的安全隐患和问题领域这一单一任务。为了既可信又灵活,这些测试公司应由政府监管机构审查和批准,但在私营市场中开发和融资,并可能得到慈善组织的支持。(我共同创立的慈善机构施密特科学基金会和我本人已资助了一些早期的人工智能安全研究。)这一领域发展速度太快,风险太高,不能完全依赖典型的政府流程和时间框架。
对人工智能快速发展的担忧引发了一系列抗议活动,活动人士试图减缓其发展,包括10月21日在伦敦举行的这次抗议。照片:美联社实现这一目标的一种方式是,要求政府监管机构对能力超过一定水平的人工智能模型进行评估,评估由获得政府认证的私营测试公司(从初创企业到大学实验室再到非营利研究组织)进行,模型构建者需支付测试和认证费用以满足安全要求。测试公司将争夺资金和人才,旨在以与被测试模型同样惊人的速度扩展其能力。随着人工智能模型的激增,测试需求的增长将创造一个足够大的市场。测试公司可以专注于在不同安全领域认证提交的模型,例如自我复制能力、制造新的生物或网络武器,或操纵或欺骗其创造者。这样一个测试创新的竞争市场将与我们目前创建新模型的动态类似,在短时间内实现爆炸性进展。如果没有这样的市场及其带来的竞争激励,政府、研究实验室和志愿者将不得不使用落后于人工智能研究前沿几代的工具,来保证人类有史以来最强大系统的安全性。
关于人工智能的潜在威胁,已有大量讨论。先进的AI系统可能最终与人类价值观和利益脱节,无论是有意还是无意(通常如此),都可能引发混乱和灾难。随着它们的进步,我们今天面临的威胁只会扩大,因为新系统学会自我改进、协作,并可能抵制人类的监督。
尽管风险确实存在,但它们并非不可避免。如果我们能够建立一个由灵活、成熟、独立的测试公司组成的生态系统,这些公司不断发展和提高其评估AI测试的技能,我们就能帮助实现一个未来,社会既能从AI工具的惊人力量中受益,又能保持有效的防护措施,防止破坏性后果。
埃里克·施密特是谷歌前首席执行官和执行主席,也是资助科技研究的慈善机构施密特科学的联合创始人。