人工智能如何“思考”?我们才刚刚开始理解这一点——《华尔街日报》
Christopher Mims
在硅谷,你走不了多远就会碰到一家“AI for X”的初创公司。有面向企业科技的AI,面向医疗的AI,面向婚恋的AI,诸如此类,不胜枚举。
毫无疑问,其中一些初创公司纯粹是营销噱头。但其他大多数公司也只是将现有AI技术套用到人类某类需求或欲望上——从资金雄厚的初创企业和科技巨头(如OpenAI的ChatGPT、谷歌的Bard和Anthropic的Claude)那里获得大型AI系统的授权,然后将其应用到创始人认为尚未被AI充分开发的任何人类活动领域。
这些初创公司和服务突然遍地开花,似乎表明它们所依赖的AI技术已经成熟。但在很多方面,事实并非如此——至少目前还不是。不过好消息是(对AI爱好者而言),支撑这一切喧嚣的底层AI技术正在快速进步。这意味着今天的炒作可能很快成为明天的现实。
要理解这一切——为什么AI尚未成熟、它们如何进步、以及这预示着我们未来的方向——我们需要展开一段思想之旅。
当代蒸汽机
首先,了解这些AI的工作原理很有帮助。必须掌握两个术语:“生成式AI"和"基础模型”。当前令人们如此兴奋的新一代AI(那些在几年前还被认为是人类专属的能力)被称为生成式AI。它们基于基础模型——这些庞然大物通过海量数据训练而成,在许多情况下,其训练数据高达数TB,几乎囊括了互联网上所有可获取的信息。
生成式AI是指那些能对文字提示生成 eerily humanlike responses to written prompts诡异拟人回复,或创造出令人惊叹的逼真图像,或合成出与原型如出一辙的人工语音的人工智能。
要理解这类AI将引领我们走向何方,以及为何预测总是有限的,最佳方式是将它们与处于发展初期的其他颠覆性技术进行对比。以蒸汽机为例:18世纪初,没人能料到托马斯·萨弗里和托马斯·纽科门发明的原始蒸汽水泵(用于矿井排水)有朝一日会演变为发电必备的高效蒸汽轮机(毕竟当时电力尚未被发现)。
即将出版新书的作家乔治·穆瑟指出,最早的蒸汽机是直觉与反复调试的产物,而非基于对热力学原理的深刻理解。他的著作探讨了科学家如何探索人类与机器智能本质的新路径。
这种"先有技术实践,后有理论认知"的模式在科技史上不断重演。蒸汽机出现后,人类才逐渐形成被称为"热力学"的系统认知,这一理论最终自成体系,成为物理学中普适性最强的分支之一。
穆瑟表示,历史正在惊人地重现:当前AI同样是直觉与试错的产物,其运作机制仍是未解之谜。但正如早期蒸汽机蕴藏着无数未来应用的种子,当今生成式AI的潜力释放,正等待一个刚起步的关键突破——理解基础模型与生成式AI的真正工作原理。
为此,计算机科学家、数学家、物理学家、神经科学家和工程师们正携手开创一个全新研究领域:机器智能的通用科学。随着研究的深入,我们正逐步洞悉人工智能未来可能实现的能力边界。
探寻推理之谜
例如,部分研究者确信某种基础模型已具备实质意义上的推理能力。
这里需要引入第三个术语——大语言模型。作为生成式AI的一种,大语言模型是专门通过文本训练的基础模型代表(如ChatGPT、Bard及Meta新推出的聊天机器人均属此类)。
关于大语言模型是否已突破单纯记忆与复述信息的界限,进化到能以全新方式整合信息——即进行真正推理——学界仍存争议。
谷歌研究院AI专家布莱斯·阿圭拉·伊·阿卡斯指出,当代大语言模型在获得充分信息提示后能处理复杂任务,这证明其具备推理能力。例如通过适当引导,模型可正确回答基础数学问题——即使两个四位数的乘积根本不在其训练数据中。
“要解决这个问题,模型必须真正理解乘法运算法则,除此之外别无他法。“阿圭拉·伊·阿卡斯解释道。
其他研究人员认为,阿格拉·阿卡斯高估了当今大型语言模型所具备的推理能力。人工智能公司Cohere旗下非营利研究机构Cohere for AI的主任莎拉·胡克指出,人们所认为的大型语言模型推理能力,部分可能只是它们记忆的内容。这或许可以解释为何随着模型规模扩大,它们会获得新能力——并非因为语言训练赋予了它们推理能力。
预测人工智能世界的未来,就如同让蒸汽机的最初建造者去想象铁路、飞机和火箭一样困难。插图:Delcan & Co. 使用Midjourney AI生成“许多未解之谜源于我们根本不清楚预训练数据中包含了什么,”胡克说道。这种认知空白源于两个因素:首先,许多人工智能公司不再公开其预训练数据内容;其次,这些预训练数据集规模极其庞大(想象一下开放网络上的所有文本),当我们向基于这些数据训练的AI提出任何问题时,很难判断答案是否恰好已存在于那片数据海洋中。
普林斯顿大学三年级博士生萨亚什·卡普尔表示,无论如何,现有充分证据表明这些大型语言模型具备某种形式的推理能力——尽管以人类标准来看仍很原始。他致力于研究并撰文探讨当今AI的局限性。“但同时也有证据显示,这些模型在许多情况下通过记忆实现的性能宣称可能被夸大了,”他补充道。
下一步是什么
如果你已经读到这里,那么回报来了:如果当今的大型语言模型具备一定推理能力(无论多么基础),这可能会推动生成式AI能力在未来几年内快速进步。
部分原因在于,语言不仅仅是图片或声音等另一种交流媒介。它是人类为描述我们所能构想的世界万物及其关联而开发的技术。阿格拉·y·阿卡斯指出,语言让我们能够构建世界模型,即使没有任何其他感官刺激(如视觉或听觉)。这就是为什么大型语言模型能流畅地论述两种颜色之间的关系——尽管它从未真正"看见"过这些颜色。
此外,语言还是互联网上无数为人类设计但可被生成式AI改造的系统的接口,比如搜索引擎。
综合这些对大型语言模型的观察,我们可能很快就能拥有完全基于个人数据定制的AI助手。谷歌已尝试推出初级版本——其Bard生成式AI的更新版本可以搜索并整合你所有的电子邮件、日历事项和文档(只要它们已在谷歌系统中)——但目前仍显粗糙且容易出错。
阿格拉·y·阿卡斯认为,在不久的将来,这类系统在输入个人数据后可能会更擅长自我调整,其方式类似于人类持续形成新记忆的过程。未来2到5年内,这将使AI助手在为我们每个人提供个性化回应方面表现更出色。
当我询问阿圭拉·y·阿卡斯这类超个性化AI助手是否会问世时,他表示虽然无法评论谷歌未来的产品,但当前AI的发展轨迹意味着这类助手的存在是"一个显而易见的必然结果”。
另一个必然结果是,未来AI将通过类似人类获取能力的方式获得新技能——即让AI访问基于云端的人类服务软件。
最典型的例子是让聊天AI接入谷歌等搜索引擎。但互联网上远不止谷歌这一种搜索引擎——还有代码库、法律判例库、学术论文库等等。
生成式AI连接人类服务的途径之一是"插件”。例如旅游搜索服务Kayak(隶属Booking集团)和Expedia都可通过插件接入ChatGPT通过插件,购物服务Instacart和Shopify亦是如此。
大语言模型需要插件的原因在于:虽然它们接受了海量信息训练,但无法获取网络爬虫抓取不到的内容;其知识更新仅止于最后一次训练的数据集;即便拥有全部数据,某些推理(如数学运算)仍存在困难。
当大型语言模型能够获取人类已有的同类资源时,“AI助力X”服务和初创企业的未来版本所蕴含的真正潜力便清晰可见。这些初创企业不再仅是提供现有基础模型的授权和品牌重塑版本,而是开始整合各类其他数据与服务。例如,“AI法律咨询”会整合法律判决数据库,“AI诊断”则会接入医学文献数据库。这些系统将利用大型语言模型的初级推理能力,为人们提供比当前经常出现的漏洞百出且虚构的答案可靠得多的解答。
难以想象
当我们都拥有这类新型认知辅助工具时,世界会变成什么样子?这就像让蒸汽机的最初建造者预测铁路、汽车、喷气式飞机和火箭的出现一样困难。
此外,要实现这个理想境界——即能代表我们调用互联网超能力的AI助手拥有自然语言交互界面——仍存在诸多障碍。其中之一是当前生成式AI的运营成本,这需要大幅降低,才能让数亿人(而非仅限于早期使用者偶尔提出针对性问题)与未来的AI助手保持持续对话。
另一个障碍在于,即便是融合了大语言模型与专业系统、旨在提升特定任务性能的近未来系统,用Contextual AI首席执行官杜威·基拉的话说,也像是"科学怪人"。要解决这种拼凑系统产生的成本问题并提升其实用性,可能需要工程师们持续多年优化每个组件以实现协同运作,同时剔除对用户无用的部分。
从蒸汽机发明到火车头问世,其间跨越了一个多世纪。与此同时,一门新科学应运而生,继而催生了工业革命所必需的无数进步。如果生成式AI的发展遵循这一规律,其近期将涌现变革性发明——精通不同学科的AI、真正个性化的助手——随后是多年的完善过程,人们会疯狂争相驾驭这些新技术并从中获益,或许还会引发另一场工业革命。但这场革命的基础不再是能源与物质,而是对数据与洞见的操控。
我们只能开始想象那会是怎样的景象。
克里斯托弗·米姆斯是《华尔街日报》“关键词"专栏作者。欢迎通过[email protected]与他联系。
出现在2023年10月24日的印刷版中,标题为《AI如何“思考”?我们才刚刚开始理解这一点》。