OpenAI的“博士级”GPT-5未能满足众多用户的期望——彭博社
Shirin Ghaffary
OpenAI首席执行官萨姆·奥尔特曼过去一周大部分时间都在试图平息用户反弹。
摄影师:贾斯汀·沙利文/盖蒂图片社
自发布GPT-5以来,OpenAI过去一周主要致力于应对用户反弹。此外:专访人工智能"教父"、诺贝尔奖得主杰弗里·辛顿。但首先…
需要了解的三件事:
• 苹果计划进军AI机器人、家庭安防和智能显示屏领域• 特朗普恢复销售后,中国敦促企业避免使用英伟达H20芯片• AI初创公司Perplexity以345亿美元报价竞购谷歌Chrome浏览器
‘略有改进的模型’
上周五,在OpenAI发布备受炒作的GPT-5模型不到24小时后,首席执行官萨姆·奥尔特曼深入虎穴登上Reddit回应不满用户日益增长的批评。有人对GPT-5的写作风格和个性感到失望;还有人抱怨他们喜爱的模型在新版发布后实际上已被淘汰。
“好的,我们听到了大家对4o的呼声,“奥尔特曼在回复一篇恳求帖时表示,他指的是部分用户认为更友好、更鼓舞人心且更有魅力的旧版模型。几天后,OpenAI重新启用了4o以缓解反弹——这大致相当于苹果让旧款iPhone重新上市的数字化版本。
在原本应具有里程碑意义的发布首周,OpenAI试图扑灭的多起"火灾"中,4o版本的回滚只是其中一例。据阿尔特曼透露,GPT-5一项能自动判断何时采用更高级系统处理不同提示的新功能,在发布首日就出现故障,导致模型表现得“异常迟钝”。OpenAI紧急修复该问题,并让用户更清楚看到查询由哪个模型处理。阿尔特曼同时表示,正着力提升GPT-5的亲和力使其更"温暖”,同时避免重蹈4o覆辙——部分用户对聊天机器人产生了不健康的情感依赖。
这些初期发布失误与补救措施,某种程度上掩盖了OpenAI面临的更本质问题:GPT-5相较前代模型究竟提升多少?在通往人工通用智能(AGI,指在多领域超越人类智慧的更强AI系统)的竞赛中,它是否代表重大突破?
2023年3月GPT-4发布时,其性能较驱动初代ChatGPT的GPT-3.5有显著提升。此后OpenAI陆续推出多个模型,包括模拟人类推理过程的升级版本。但许多人期待GPT-5能成为又一重大飞跃。OpenAI则宣称GPT-5足够先进,可将ChatGPT转变为具有“博士级智慧的贴心伙伴”。
尽管为时尚早,但一些人对GPT-5是否标志革命性突破持怀疑态度,这暴露出用户过高期望与当前AI发展现实之间的落差。被誉为AI"教父"的杰弗里·辛顿曾对技术快速发展表示担忧,他甚至开玩笑对我说,GPT-5对实现通用人工智能而言可能是"一小步倒退”。其他观察者则相对宽容些。
“OpenAI发布了一个渐进优化的模型,但并未达到许多人预期的那种质变,“AI评估公司Vals AI创始人兼CEO拉扬·克里希南表示。经测试发现,GPT-5在编程竞赛、数学和税务评估等基准测试中领先,但在金融类任务等方面落后于竞品。
截至周四,在用户评分平台LMArena的多个类别中,GPT-5仍居榜首。但另一基准测试ARC-AGI-2显示,其表现落后于马斯克xAI的最新版Grok。
克里希南等人指出,GPT-5的最大改进在于价格。AI评估初创公司Scorecard创始人达里乌斯·埃姆拉尼表示,OpenAI实现了显著降本,使其基于推理的AI模型更经济实惠,更易普及。这种成本优势可能促使企业用户从更昂贵的竞争对手转向OpenAI。
去年11月,我和同事曾报道过,OpenAI和其他顶尖AI实验室正难以通过既往有效的方法显著提升模型性能。尽管如此,这些公司的一些高管仍持续表达对所谓"规模法则"的信念——该理论认为只要扩大模型规模、数据量和计算资源,AI模型就会变得更智能。然而这些提升可能并不容易实现,效果也不明显。
在GPT-5发布前的新闻发布会上,阿尔特曼将新模型誉为迈向通用人工智能(AGI)的重要一步,但承认"在实现这一里程碑前仍缺失某些关键要素”。尽管将AGI确立为OpenAI的核心使命乃至整个行业的目标,他却表示对这个术语怀有"某种厌恶”。
这种发展态势令许多人感到失望。一方面,OpenAI的模型在复杂编程和数据分析等高价值任务上表现更优,但数百万普通用户可能根本不会这样使用软件;另一方面,其系统有时仍会被基础数学和拼写问题难倒。本特利大学数学系副教授诺亚·詹西拉库萨指出,这两种现象的"并存着实令人费解"。
但OpenAI的改进——即使对日常用户而言并非革命性——却能对处理更复杂任务的企业和研究人员产生重要影响。“GPT-5在我们许多测试案例中明显优于GPT-4。普通用户在个人使用场景中可能感受不到这种差异,“云存储公司Box联合创始人兼CEO亚伦·列维表示,“但如果你是银行、医疗机构或制药公司,这些改进将具有实质意义。”
列维认为,用户的负面反馈更多源于对模型"个性或风格"的适应问题,而非性能本身。以GPT-4o为例,其特点包括"大量使用表情符号"等。“这与纯粹的能力提升完全是两回事,“他说道。
**关于AI有疑问?**欢迎发送邮件至希琳·加法里,我将在后续通讯中为您解答。
专访实录
本周早些时候,我在拉斯维加斯Ai4大会上现场采访了杰弗里·辛顿。这位AI先驱兼诺贝尔奖得主阐释了为何科技公司应开发具有"母性本能"的人工智能,并对最具责任感和最不负责任的AI实验室进行了排名。本次访谈经过精简编辑以提升可读性。
彭博社:许多AI领域商业领袖认为,我们随时可能实现AGI(人工通用智能)或超级智能——无论您如何称呼这种远超人类智慧的AI。您如何看待?我们距离这个目标还有多远?毕竟GPT-5上周刚刚发布,您认为我们正在接近这个临界点吗?
**辛顿:**GPT-5似乎可能是一个小小的退步。[笑] 几乎所有人都认为我们将获得超级智能,那些了解情况的人知道我们在说什么。我们不知道具体时间。可能超过20年,也可能只需几年。我认为一个合理的预测是在5到20年之间。
您一直直言不讳地谈论人工智能可能逃脱人类控制的风险。具体会如何发展?是什么具体情景让您夜不能寐?
一旦有了人工智能代理,就必须赋予它们制定自己子目标的能力。如果你想去欧洲,你需要先到机场。这是一个子目标。如果它们足够聪明,它们会很快发展出两个子目标。一个是生存,因为如果不生存,就无法实现其他目标。我们已经看到在没有计划的情况下,人工智能中发生了这种情况。另一个子目标是:获得更多控制权,因为如果获得更多控制权,就能完成更多事情。因此,有充分的理由相信任何知道如何创建子目标的代理人工智能都会试图生存,并试图获得更多控制权。
杰弗里·辛顿摄影师:克洛伊·埃林森/彭博社 那么,人工智能具体能控制什么,从而对人类构成威胁?
它们将比我们聪明得多。想象一下,你负责一个三岁孩子的游戏小组,你为他们工作。要控制他们并不难——你只需要承诺给他们一周的免费糖果。我们必须做到,当它们比我们更强大、更聪明时,它们仍然关心我们。正确的模型是我们拥有的唯一一个更聪明的事物被不那么聪明的事物控制的模型,那就是母亲被她的婴儿控制。母亲有各种内置的本能、激素,以及社会压力,真正关心婴儿,母亲真心关心婴儿。我们需要做的是开发母亲人工智能。我们需要人工智能母亲,而不是人工智能助手。我们需要在这些东西中建立母性本能,使它们真正关心人类。**您认为有些人工智能实验室比其他实验室更负责任吗?我很好奇您会如何评价它们。**我会说Anthropic的设立比OpenAI更关注安全性——事实也是如此。我认识几个在Anthropic工作的人,关系很好。在大型人工智能公司中,这是最关注安全性的。但他们必须筹集资金来购买GPU,所以他们现在从中东获得资金,这是一个不好的迹象。**为什么这是一个不好的迹象?**嗯,他们获得资金的国家并不以拥有强烈的道德指南针而闻名。我们就这样说吧。DeepMind实际上由德米斯[哈萨比斯]领导——德米斯真正关心安全性,谷歌的杰夫·迪恩也真正关心安全性。Anthropic和谷歌可能比其他公司更关注安全性。我对微软了解不多。我认为最底层的是马斯克和扎克伯格之间的竞争。**您认为马克·扎克伯格的“超级智能”实验室有机会获胜吗?**是的。另一方面,如果你试图通过从其他球队获得所有明星并将他们放在一起来组建一支足球队,他们通常不会立即配合。所以我们会看到会发生什么。**您会如何评价OpenAI?**他们是领导者,对吧?然后伊利亚离开了。**您的前学生伊利亚·苏茨克弗。**我的前学生,我非常尊重他。**伊利亚最近在做什么?您和他有联系吗?**他正在尝试制造安全的超级智能人工智能。他不会告诉我他如何尝试做到这一点。我想如果你告诉我,我也可以去筹集数十亿美元。
好吧,我们拭目以待他是否能打造出具有母性的人工智能,对吧?
那将会非常美好。
本周人类语录
“尽管人工智能在提升临床疗效方面展现出巨大潜力,但我们也必须警惕基础技能被悄然削弱的风险。”
奥马尔·艾哈迈德伦敦大学学院医院胃肠病学顾问
根据周三发布的研究结果,人工智能帮助医疗专业人员更准确地检测结肠癌前病变,但当辅助工具被撤除后,他们发现肿瘤的能力较该工具引入前下降了约20%。### 关注焦点
xAI创始人埃隆·马斯克指控苹果公司在App Store中偏袒OpenAI,并威胁采取法律行动。彭博社的库尔特·瓦格纳在《彭博科技》节目中与卡罗琳·海德和埃德·勒德洛就此展开讨论。### 深度解读
- 推特前首席执行官已走出与埃隆·马斯克的纷争,正着手成立一家人工智能公司
- 英伟达与AMD达成协议,向美国让利中国AI芯片销售份额
- OpenAI设计的GPT-5本意更安全,《连线》杂志发现其仍会输出同性恋侮辱性言论
- 印度首家人工智能独角兽Fractal提交5.6亿美元IPO申请
彭博社更多内容
***彭博实力人物:*9月4日纽约见。在美国网球公开赛的背景下,我们将汇聚体育商业领域具有影响力的声音,共同探讨可能冲击这个价值数万亿美元的全球产业的下一个颠覆性浪潮。了解更多。
获取深度科技及更多彭博科技通讯,直接送达您的邮箱:
- 网络简报,涵盖黑客与网络间谍的隐秘世界
- 游戏进行时,深入探索电子游戏产业
- 动力开启,获取苹果独家新闻、消费科技资讯等
- 荧幕时光,前排围观好莱坞与硅谷的碰撞
- 声音片段,报道播客、音乐产业及音频趋势