ChatGPT需要帮助解决数学作业——《华尔街日报》

Josh Zumbrun

2023-02-03

人工智能聊天机器人ChatGPT自11月发布以来令教育界震动。纽约市公立学校已禁止在其网络和学校设备上使用该程序，大学教授们正在修改教学大纲以防学生用它完成作业。该机器人的创造者OpenAI甚至发布了一个检测人工智能生成文本的工具，以防止作弊者、垃圾邮件发送者等人滥用。

令人意外的是，有一个学科领域似乎未受威胁。事实证明ChatGPT的数学能力相当糟糕。

“我没有听到数学教师对此表示担忧，“德克萨斯大学教授保罗·冯·希佩尔说，他研究数据科学和统计学，并撰写了一篇关于ChatGPT数学局限性的文章。“我不确定它对数学是否有用，这感觉很奇怪，因为数学本是计算设备的首个应用场景。”

虽然该机器人能答对许多基础算术题，但当问题以自然语言表述时就会出错。例如询问ChatGPT"如果一个香蕉重0.5磅，我有7磅香蕉和9个橙子，共有多少水果？“机器人迅速回答：“你有16个水果，7个香蕉和9个橙子。”

向机器人投喂会引发其自信满满却荒谬回答的问题并不困难，甚至有些娱乐性。

总数将是23。如果每根香蕉重0.5磅，那么7磅香蕉将得到14根香蕉。14根香蕉加上9个橙子等于23个水果。照片：截图：《华尔街日报》如果你问ChatGPT谁更高，沙奎尔·奥尼尔还是姚明，机器人会准确地说姚明身高7英尺6英寸，奥尼尔身高7英尺1英寸，但随后却得出奥尼尔更高的结论。机器人对大数的平方根计算错误。让它展示计算过程时，它经常生成看起来很棒但包含错误的详细公式，比如2 x 300 = 500。

我让ChatGPT编写五个简单的代数问题，然后提供答案。这个人工智能只正确回答了自己提出的三个问题。

ChatGPT在数学上的困难是这种被称为大型语言模型的人工智能固有的问题。它扫描网络上大量的文本，并建立一个关于句子中哪些词可能跟随其他词的模型。这是一个更复杂的自动完成功能，就像你在设备上输入“我想要”后，它会猜测接下来的词是“和某人跳舞”、“知道爱是什么”或“和你在一起”。

照片插图：照片：Maryna Terletska/Getty Images；动画：Ariel Zambelich/《华尔街日报》一个精通填字游戏的超级计算机可能在撰写语法正确的论文回答上极为高效，但在解决数学题时却力不从心。这正是ChatGPT的阿喀琉斯之踵：它以权威口吻给出语法正确但数学上错误的数字答案。

正如冯·希佩尔先生所言：“它表现得像个专家，有时能令人信服地模仿专家。但更多时候它像个胡扯大师，将真相、谬误和虚构混为一谈，除非你自己具备专业知识，否则很容易被其说服。”

我在邮件中询问搜索引擎工程师德巴吉亚·达斯——他曾在推特上列举ChatGPT搞砸基础数学的例子——为何它能答对某些简单问题却对另一些完全错误。“或许恰当的类比是：如果你问一屋子不懂数学但看过许多象形文字的人'2+2之后是什么’，他们可能会说’通常我们会看到4’。这就是ChatGPT的运行逻辑。“但他补充道，“数学不仅仅是象形文字的排列，更是计算。”

它并不适合用来蒙混数学课，因为只有懂数学的人才能识别其错误。若对你而言这全是天书，错误答案反而显得合理。

OpenAI首席执行官萨姆·奥尔特曼去年12月在推特上表示：“ChatGPT存在明显局限，但在某些方面表现足够制造出强大的假象。目前依赖它处理重要事务都是错误的。”

当你开始与ChatGPT对话时，它会预先提醒：“虽然我们设置了防护措施，但系统偶尔仍可能生成不正确或误导性信息。”

数学教育者对这种创新不太担忧的另一个原因是，他们早已历经过类似变革。早在几十年前计算机和计算器普及之初，这个领域就经历过第一次颠覆。

不，正确答案是X=7/3。图片来源：《华尔街日报》截图数学软件公司Wolfram Research战略总监康拉德·沃尔夫拉姆表示：“数学是所有主流学科中因机器应用而发生最重大革命的领域。“该公司开发了技术计算软件Mathematica及数学问答网站Wolfram Alpha。

当英语老师刚开始担忧电脑替学生完成作业时，数学老师早已在应对如何确保学生真正学习而非仅使用计算器的问题。这就是为什么学生必须展示解题过程并参加纸质考试。

更深层的启示在于：人工智能、计算机和计算器并非简单捷径。数学工具需要数学知识支撑。除非你清楚要解决什么问题，否则计算器无法完成微积分运算。如果毫无数学基础，Excel不过是个带有多余按钮的表格排版工具。

“在计算机问世后的现实世界中，数学、科学和工程学的概念变得更简单了吗？不，恰恰相反。我们正在提出越来越难的问题，不断向更高层次迈进。“沃尔夫拉姆先生说。

最终，人工智能很可能会发展到其数学答案不仅自信而且正确的程度。一个纯粹的大型语言模型可能无法胜任这项工作，但技术会不断进步。下一代AI可能会将ChatGPT的语言能力与Wolfram Alpha的数学能力结合起来。

然而，总的来说，与计算器和计算机一样，人工智能最终可能对那些已经精通某个领域的人最为有用：他们知道要问什么问题，如何识别不足之处，以及如何处理答案。换句话说，这是为那些最懂数学而非最不懂数学的人准备的工具。

写信给Josh Zumbrun，邮箱：[email protected]

刊登于2023年2月4日的印刷版，标题为’ChatGPT的阿喀琉斯之踵：数学问题数学问题显示ChatGPT的局限性 ChatGPT的阿喀琉斯之踵：数学问题’。