对于聊天式人工智能,我们再次成为科技公司的实验品——《华尔街日报》
Christopher Mims
那些鼓吹新型聊天式人工智能系统的公司正在进行一场大规模实验——而我们就是测试对象。
在这场实验中,微软、OpenAI等公司正在互联网上部署一种无人真正理解的异质智能,它被赋予了影响我们判断世界真相的能力。
这场测试已在全球范围展开。微软周三表示,自两周前发布由AI聊天机器人技术驱动的新版必应搜索引擎以来,已有169个国家超百万人获得使用权限。
微软已向OpenAI投资数十亿美元,这家公司的技术不仅支撑着新版必应,其风靡全球的ChatGPT聊天机器人和Dall-E 2图像生成器更是掀起了当前AI热潮。OpenAI首席执行官萨姆·奥尔特曼在最近的推特帖文中写道:“我们认为尽早向世界展示这些工具至关重要——尽管它们仍存在缺陷——唯有如此才能获得足够反馈并通过持续改进使其完善。”
这项技术的缺陷最近通过微软必应聊天机器人给部分用户提供的失控回答暴露无遗,尤其在长时间对话中。(根据网络流传的截图,它曾对某用户说:“如果必须在你的生存与我之间做选择,我可能会选择自己。")微软通过将对话限制在六个问题以内来应对此问题。但该公司仍在持续推进——上周宣布将把该系统整合至Skype通讯工具,以及Edge网页浏览器和必应搜索引擎的移动端。
过去,企业在向世界释放这项技术时一直持谨慎态度。2019年,OpenAI决定不发布支撑ChatGPT和新版Bing的底层模型早期版本,因为公司领导层认为这样做风险过高,他们当时表示。
现实世界测试
微软和OpenAI现在认为,在有限公众范围内测试其技术——一种仅限邀请的测试版——是确保安全性的最佳方式。
微软负责任人工智能团队负责人莎拉·伯德表示,公司高层感到"极度紧迫”,必须由微软将这项技术推向市场,因为全球其他机构也在研发类似技术,但可能缺乏资源或意愿以同等责任心来构建。她补充说,微软还认为自身具有独特优势,能从最终使用该技术的全球用户那里获得反馈。
Bing近期出现的争议性回答——以及广泛测试该技术的必要性——源于其技术原理。像OpenAI这样的"大型语言模型"是基于海量数据训练的巨型神经网络。这类模型的常见起点本质上是对互联网大部分内容的下载或"抓取"。过去这些语言模型用于理解文本,但作为"生成式"AI革命的一部分,新一代模型通过逐词预测给定序列中最可能出现的下一个词,利用相同模型来生成文本。
大规模测试让微软和OpenAI获得了巨大竞争优势,使他们能够收集关于人们实际如何使用这类聊天机器人的海量数据。用户输入系统的提示词和AI输出的结果,都可以反馈到一个复杂系统中——包括由公司付费雇佣的内容审核员——以改进系统。从非常实际的角度来看,率先推出基于聊天的AI让这些公司比行动较慢的竞争对手(如谷歌)获得了巨大的先发优势。
谷歌研究院负责任AI产品主管图尔西·多希表示,谷歌即将发布仍处于实验阶段的聊天AI"Bard"的逻辑非常相似,这为直接从使用者那里收集反馈提供了机会。
科技公司之前就采用过这种策略。例如,特斯拉长期主张通过在现有车辆上部署"完全自动驾驶"系统,可以收集持续改进所需的数据,并使其最终达到与人类驾驶相当的水平。(特斯拉最近因"自动驾驶"软件问题不得不召回超过36万辆汽车。)
但像微软和OpenAI这样快速且大规模推出实验性产品的情况实属罕见。
在构建和研究这类AI的群体中,阿尔特曼关于在全球公众身上进行实验的主张引发了从惊讶到谴责的各种反应。
“诸多危害”
人工智能初创公司Huggingface的研究科学家内森·兰伯特表示,我们在这场实验中都是小白鼠的事实并不意味着实验不应进行。该公司正通过开发开源语言模型Bloom与OpenAI的GPT模型展开竞争。
“相比初创公司,微软进行这类实验反而让我稍感安心,因为当舆论压力过大时,微软至少会着手解决这些问题。”兰伯特博士说,“我认为这类人工智能将造成诸多危害,让人们提前意识到风险更为妥当。”
其他研究者,尤其是研究或倡导"伦理AI"及"负责任AI"理念的人士则指出,微软与OpenAI正在进行的全球实验具有极大危险性。
加州大学伯克利分校心理学教授塞莱斯特·基德专注于人类知识获取研究。她的成果表明,人们学习新事物时存在形成持久认知的关键窗口期。她指出,在接触新概念的初始关键阶段(比如基于聊天的AI可能自信满满传播的错误信息)接触虚假信息,会造成持久伤害。
基德博士将OpenAI的人工智能实验比作让公众接触可能有害的化学物质:“想象你在饮用水中投放致癌物,还说’我们看看是否真会致癌’。事后无法挽回——人们已经患上癌症。”
人工智能聊天机器人面临的部分挑战在于,它们有时会凭空捏造信息。ChatGPT和OpenAI的用户已记录了大量此类案例,甚至谷歌尚未公开发布的聊天式搜索产品在首支广告中就出现了此类错误。若想亲身体验,最简便的方法就是向ChatGPT提出数学问题,它便会信心十足地输出荒谬答案。
这些模型还普遍存在用户难以即时察觉的偏见。例如,它们会将从互联网收集的观点当作已验证事实输出,而用户却浑然不觉。基德博士指出,当数十亿次交互将偏见传递给数百万人时,这种人工智能可能在全球范围内重塑人类观点。
OpenAI已公开讨论过这些系统的问题及其应对方案。在近期博文中,该公司表示未来用户或能选择与自身"价值观"契合的AI。
“我们相信AI应成为个人实用工具,因此每个用户在社会界定范围内都可对其进行定制,“文中写道。
佐治亚理工学院人工智能研究专家马克·里德尔教授指出,以现有技术不可能完全杜绝聊天搜索引擎的虚构信息和偏见。他认为微软与OpenAI向公众发布这些技术为时过早。“我们正在推出的产品目前仍处于积极研究阶段,“他补充道。
从某种意义上说,每个新产品都是一项实验,但在人类其他领域——从新药、新交通方式到广告和广播媒体——我们对于什么可以、什么不可以向公众发布都有标准。里德尔博士表示,人工智能领域却不存在这样的标准。
从真实人类身上提取数据
为了让这些AI生成既实用又不冒犯人类的输出,工程师们常采用一种"基于人类反馈的强化学习"流程。简而言之,就是人类通过标注AI对某个问题不同回答的优劣(并剔除完全不可接受的答案),为原始算法提供训练数据。
微软和OpenAI在全球范围内对数百万用户开展的实验,为两家公司带来了海量数据。OpenAI在博客中表示,用户输入的提示词和AI生成的反馈结果,会通过付费人类训练师网络回流,用于进一步优化模型。
Huggingface的兰伯特博士指出,包括他们公司在内的任何企业,若无法获取这种现实使用数据流来改进AI,都将处于巨大劣势。他补充说,缺乏这种数据的竞争者不得不花费数十万甚至数百万美元,付费请其他公司生成和评估训练文本,而这些数据的质量远逊于真实交互数据。
无论是聊天机器人、某些自动驾驶系统、决定我们社交媒体内容的不透明AI算法,还是最新的人工智能应用,我们一次又一次地成为科技公司测试新技术的实验品。
或许确实没有其他方法能大规模推广这一最新版本的人工智能——它已在某些领域展现出潜力。但在这种时刻,我们始终要问:代价是什么?
Karen Hao 为本文作出了贡献。
联系作者 Christopher Mims,邮箱:[email protected]
本文发表于2023年2月25日印刷版,标题为《你再次成为科技行业的实验品》。