人工智能仍不擅长的事 - 《华尔街日报》
Alison Gopnik
几周前,一位谷歌工程师的惊人言论引发广泛关注:他声称公司研发的LaMDA系统(人工智能领域称为大型语言模型的范例)已成为具有感知力的智能生命体。
无论是LaMDA还是旧金山OpenAI公司开发的竞品GPT-3,这类大型语言模型在生成连贯且有说服力的文本与对话方面表现卓越——其逼真程度甚至足以蒙骗那位工程师。但它们使用的技术原理相对简单:模型先分析人类输入文本的前半部分,然后预测后续可能出现的词汇。当强大算力结合数百万人生成的海量文本进行数十亿次训练后,系统最终能对新提示或问题给出语法正确、内容合理的延续。
人们很自然会质疑:LaMDA(语言模型对话应用的缩写)或GPT-3这类模型究竟是真智能,还是沿袭了老牌谐星"世界最高权威"欧文·科里教授那种故弄玄虚的表演传统(查阅科里那些假装博学的经典桥段便知)。但我认为这个问题本身就有偏差。这些模型既非真正的智能主体,也非刻意装傻。用"智能"和"主体性"来理解它们根本是范畴错位。
实际上,这些AI系统应被视作我们称之为"文化技术"的新形态——与文字、印刷、图书馆、互联网搜索引擎乃至语言本身同属一类。它们是群体间信息传递的新载体。追问GPT-3或LaMDA是否具备智能或认知能力,就像追问加州大学图书馆是否智能,或谷歌搜索是否"知道"问题答案。但不可否认,文化技术无论造福还是为祸,都可能释放巨大能量。
我们人类天生是万物有灵论者——我们在河流、树木、云朵中,尤其是机器中,处处看到能动性,任何咒骂过顽固洗碗机的人都能证明这一点。因此,我们很容易想象,新的机器学习技术创造了新的能动者,无论聪明还是愚笨,有益还是(更常见)有害。人们开始谈论“一个人工智能”而非“人工智能”——仿佛它指的是一个人而非一种计算。
文化技术不像智能人类,但它们对人类智能至关重要。许多动物可以将一些信息从一个个体或一代传递到另一个,但没有动物像我们这样大量传递信息或随时间积累如此多的信息。借用艾萨克·牛顿的话,每个新人类之所以能看得更远,是因为他们站在前人的肩膀上。使文化传播更容易、更有效的新技术一直是人类进步的最大引擎之一。
语言本身是最初的文化技术,它让一个猎人告诉另一个猎人在哪里可以找到猎物,或让祖母将来之不易的烹饪技巧传给孙女。书写再次改变了文化;我们可以获取数百年前、数百英里外祖母们的智慧。印刷机既促进了工业革命,也推动了自由民主的兴起。图书馆及其索引和目录对科学和学术的发展至关重要。互联网搜索引擎使查找信息变得更加容易。
与这些早期技术一样,大型语言模型有助于访问和总结他人写下的数十亿句子,并用它们来创造新的句子。其他系统,如OpenAI的DALL-E 2(刚刚为《时尚》杂志制作了封面插图),也对我们创造的数十亿图像进行了同样的处理。文化技术的历史是,我们越来越能够跨越更大的时空鸿沟,越来越容易地获取越来越多其他心智的知识,而新的人工智能系统是这一过程中的最新一步。
然而,如果我们的知识大多源自他人的语言,那么像GPT-3这样的系统是否已具备所需的所有智能?那数十亿词汇是否已囊括了人类全部知识?还缺少什么?
文化传承具有双重面向——模仿与创新。每一代人都能通过模仿继承前人的发现,而大型语言模型正是绝佳的模仿者。但若每一代人不能同时创新,模仿将失去意义。我们超越他人的言语与过往的智慧,以全新视角观察世界并作出新发现。正是在这一点上,即便是幼童也能胜过当前的人工智能。
在著名的"图灵测试"中,艾伦·图灵于1950年提出:若在打字对话中无法区分人与计算机,则该计算机可被视为具有智能。大型语言模型已接近这一标准。但图灵还提出了更严苛的测试:真正的智能不仅应能像成人般谈论世界,更应能像儿童那样认知世界。
我的实验室创建了全新在线环境来实施这第二项图灵测试——为儿童与AI系统提供公平竞技场。我们向4岁儿童展示屏幕装置:当放置特定虚拟积木组合时会发光,不同装置运作方式各异。孩子们需通过实验找出规律并说出点亮方法。这些幼童经过数次尝试便能得出正确答案。随后我们让包括GPT-3在内最先进的AI系统解决相同问题,为语言模型提供儿童所见事件的文字描述,并要求其回答与儿童相同的问题。
我们原以为人工智能系统或许能从海量历史文本中提取出这个简单问题的正确答案。但那些庞大文本数据库里从未记录过我们虚拟的彩色积木机器。事实上,GPT-3彻底失败了。近期其他实验也得出了类似结论。尽管GPT-3能言善辩,却似乎无法解决因果推理问题。
若要解决新问题,谷歌搜索或去图书馆或许只是第一步。但最终你必须像那些孩子一样进行实验探索。GPT-3能告诉你故事最可能的结局。但创新——即便是四岁儿童的创新——都依赖于出人意料的发现,而非可预测的结果。
这是否意味着我们无需担忧AI产生意识?我认为对超级智能恶意AI(现代魔像)的担忧至少是被夸大了。但文化技术对世界的改变远超个体行为者,且不能保证这种改变会向好发展。
语言既能让我们准确交流、发现真相,也能用来撒谎、诱惑和恐吓他人。苏格拉底曾有名言:文字记录是个糟糕的主意。他说书面文字无法还原对话中的苏格拉底式辩证,人们可能仅因文字记载就轻信其真实性——他是对的。本杰明·富兰克林用印刷小册子传播民主思想,推动了美国革命最光辉的篇章。但正如历史学家罗伯特·达恩顿揭示的,同一技术也催生了诽谤污秽的洪流,助长了法国革命最黑暗的面向。
人们可能带有偏见、轻信他人、种族歧视、性别歧视且缺乏理性。因此,无论是通过“老妇人的智慧”、图书馆还是互联网,我们对前人思想的总结都继承了所有这些缺陷。显然,大型语言模型同样可能如此。
从古至今,每一项文化技术都需要新的规范、规则、法律和制度来确保利大于弊——无论是通过谴责说谎者、表彰真相讲述者,还是发明事实核查员、图书馆员、诽谤法和隐私法规。LaMDA和GPT-3并非伪装的人类。但使用它们的真实人类需要超越过去的惯例,建立能与技术本身同样强大的创新机制。
戈普尼克博士是加州大学伯克利分校心理学教授,也是《华尔街日报》“心智与物质”专栏作家。
本文发表于2022年7月16日印刷版,标题为《人工智能仍未能掌握之事》。