为什么ChatGPT在基础数学上越来越差——《华尔街日报》
Josh Zumbrun
自去年向公众广泛开放以来,人工智能聊天机器人让试用者惊叹不已,引发了全球发展竞赛,甚至因其对编剧和演员的影响而间接导致好莱坞罢工。
AI工具也引发了人们对其将不断进化并威胁人类的担忧。OpenAI的ChatGPT于去年11月公开亮相,掀起了当前的热潮,随后3月推出的ChatGPT-4据称比前代更强大。
但本周发布的新研究揭示了人工智能发展的根本性挑战:ChatGPT在执行某些基础数学运算方面的能力出现退化。
斯坦福大学和加州大学伯克利分校的研究人员表示,这种性能下降是AI开发者所称的"模型漂移"现象——当试图改进极其复杂的AI模型的某部分时,会导致模型其他部分表现恶化。
“朝某个方向改进可能会在其他方面造成退化,“斯坦福大学AI实验室成员、新研究作者之一James Zou教授表示,“这使得持续改进变得极具挑战性。”
表面上看,ChatGPT令人惊叹——幽默风趣、通晓各类话题且语法无懈可击。有人让ChatGPT参加标准化考试取得了优异成绩。但有时这个聊天机器人连基础数学题都会算错。
由斯坦福大学计算机科学博士生Lingjiao Chen、Zou以及伯克利大学的Matei Zaharia组成的研究团队,其目标是系统且持续地观察这些模型在一系列任务中随时间推移的表现。
截至目前,他们已测试了两个版本的ChatGPT:免费公开的3.5版和需付费订阅的4.0版。
结果并不完全乐观。他们给聊天机器人布置了一项基础任务:判断特定数字是否为质数。这类数学问题对人类复杂,对计算机却很简单。
17077是质数吗?17947是质数吗?除非你是数学天才,否则无法心算得出答案,但计算机能轻松解决——只需暴力尝试除以2、3、5等数字即可验证。
为追踪性能变化,研究人员向ChatGPT输入了1000个不同数字。3月份,付费版GPT-4能准确判断84%数字的质数属性(坦白说这对计算机而言表现平平)。到6月时,其正确率已降至51%。
在八项不同任务中,GPT-4有六项表现退步。GPT-3.5在六项指标上有所提升,但在多数任务中仍落后于其高级版本。
许多用户体验初期感到惊艳,但逐渐注意到聊天机器人错误答案增多或拒绝回答的情况。
斯坦福-伯克利团队的实证研究表明,这不仅是主观感受。在某些功能上——包括数学计算、医学问题解答和代码生成——聊天机器人的表现确实出现了可量化的退步。
针对有关新研究的问题,OpenAI在一份书面声明中表示:“当我们发布新模型版本时,首要任务是全面提升新模型的智能水平。我们正努力确保新版本能在广泛任务中实现性能改进。但需要说明的是,我们的评估方法并不完美,正在持续优化中。”
试图改进复杂人工智能模型的某部分性能,可能导致其他部分表现下降。图片来源:Leon Neal/Getty Images需要明确的是,聊天机器人的表现并非全面退步。它在某些功能上也有所提升。部分测试显示,虽然GPT-3.5整体准确率下降,但其某些方面反而有所改进,而GPT-4却出现了退步。
邹教授表示,研究机器学习和人工智能的学者们早已注意到这种不可预测的性能漂移现象。“我们曾怀疑这种情况可能发生,但漂移速度之快仍令我们非常惊讶。”
斯坦福-伯克利研究团队不仅测试了ChatGPT的数学能力,还通过约1500个问题数据库进行了观点类问题测试。
3月份时,4.0版本能回答98%的问题。到6月份,回答率骤降至23%,且多以"问题具有主观性,作为人工智能我没有个人观点"等简短回应回避作答。
这种现象揭示了AI系统的发展现状。自聊天机器人问世以来,专门研究所谓"提示工程"的周边产业已悄然兴起。
有时,尝试不同提示词的人只是希望通过找到最佳提问方式,从而最大化利用模型获得理想结果。但有时他们试图诱骗机器人说出冒犯性或离谱的内容。(一种流行且极其有效的手法,是诱导AI扮演与尼可罗·马基雅维利进行不道德对话的角色。)
当然其中某些技巧完全无害。去年,谷歌研究院科学家Jason Wei和Denny Zhou发表论文表明,当要求人工智能模型逐步解决复杂推理任务时,其表现会大幅提升。今年三月,这种被称为"思维链提示"的技术效果显著。但到了六月,该提示的有效性已大幅下降。
数学问题解决能力的退化,是否可能是为了防止人们诱骗AI给出荒谬回答而产生的意外后果?这是否源于打击提示词工程时,无意中破坏了原本能改善数学表现的提示?抑或是为了让AI回答更简练导致的结果?这些模型如此复杂,甚至开发团队可能都无法确定。
邹表示,他的结论不是要放弃这项技术,而是需要更严密地监控AI。斯坦福和伯克利的团队将继续用数千个问题系统测试ChatGPT等AI模型,通过实证分析其长期表现。
我们习惯于将知识视为掌握一个问题然后在此基础上构建。作为其难以置信复杂性的副作用,人工智能可能不会以这种方式运作。相反,它前进一步,又会在意想不到的方向上漂移和蹒跚。随着时间的推移,人工智能可能会继续前进,但这远非一条直线。
写信给乔什·祖姆布伦,邮箱:[email protected]
刊登于2023年8月5日的印刷版,标题为《AI的意外:它正在忘记基础数学》。