OpenAI的GPT-5首日评价褒贬不一,引发困惑——彭博社
Emily Forgash
OpenAI首席执行官山姆·阿尔特曼
摄影师:阿尔·德拉戈/彭博社数月来,OpenAI首席执行官山姆·阿尔特曼一直在大力宣传GPT-5的能力,将其发布定位为公司的重要时刻。但在发布后的最初24小时内,这款新模型获得的评价褒贬不一。
在周四的公告中,OpenAI表示GPT-5在编码和解决复杂问题的推理能力上有所提升,并宣称其先进程度足以将聊天机器人ChatGPT提升至博士级专家水平。部分提前体验者对其给予了谨慎的好评。“这是我最喜欢的新模型,”开发者西蒙·威尔森在博客文章中称其“可靠”且“偶尔令人惊艳”,但他补充道:“它并未与之前版本有显著差异。”
然而在各大社交媒体平台上,ChatGPT用户对GPT-5仍会编造信息、在简单数学和拼写问题上出错表示失望。本特利大学数学副教授诺亚·詹西拉库萨认为这次发布“令人失望”,他表示虽然存在“一些改进”,但“比我期望的要有限得多”。
至少部分反应可能源于对底层运行机制的不解。与OpenAI之前的软件不同,GPT-5会根据查询内容自动在不同复杂程度的模型间切换。这种方式有助于最大化公司的计算资源,但也意味着用户并不总是使用到OpenAI最强大的技术版本。
例如在被要求统计"blueberry"中字母"b"出现次数时,GPT-5在测试中最初回答"三次"。但当被告知"再仔细想想"后,GPT-5似乎启用了更高级的推理模型,最终给出了正确答案。
上周五,阿尔特曼回应部分用户反馈时承认系统问题:“从今天起GPT-5会显得更聪明。昨天自动切换器故障停用大半天,导致GPT-5表现得异常迟钝。”
此次发布关系重大。OpenAI正竭力保持对中美竞争对手的领先优势,同时努力说服企业和个人用户付费使用其高级服务,以弥补其在人才、芯片和数据中心支持AI开发的巨额投入。
这家总部位于旧金山的公司近三年前发布ChatGPT引爆生成式AI热潮,最初搭载的是更早的GPT-3.5模型。此后该公司陆续推出多款日趋复杂的系统,包括多个能模拟人类推理过程的版本。
随着人工智能系统不断进步,要明确判断各类服务的优劣变得愈发困难。截至周五中午,GPT-5已在LMArena(一个基于用户排名的热门AI模型排行榜)多个类别中登顶。但另一项基准测试ARC-AGI-2显示,GPT-5落后于埃隆·马斯克xAI公司最新版本的Grok。
在缺乏更权威评估的情况下,模型之争有时会沦为感觉之争。如今每周有近7亿人使用ChatGPT,人们对模型体验的评价必然存在分歧。要评估新AI系统在个人生活和职业中的价值,仅用一天时间也远远不够。
宾夕法尼亚大学沃顿商学院教授伊桑·莫利克经常进行AI模型实验,他对GPT-5的研究能力、撰写巧妙文字回复以及简化编程(即使对新手而言)的表现赞叹不已。
“GPT-5会自主完成各种任务,常常是超凡的,有时是怪异的,有时是非常AI化的,“他在博客文章中写道,“而这正是它如此有趣的原因。”
然而Reddit上的反应截然不同。在周五平台举行的“问我任何事"活动中,奥特曼遭遇了用户的质疑,这些用户因无法对响应查询的模型拥有更多选择权和透明度而感到沮丧。奥特曼表示OpenAI将采取措施解决这些投诉,包括提高"透明度”。
有一次,阿尔特曼在回复一位Reddit用户的问题时提到,OpenAI认为GPT-5某个版本的"写作质量"优于GPT-4.5。随后他反问道:“你觉得它更差吗?“用户们纷纷迅速回应:是的。