在DeepSeek爆红之前,一家网站已预告其到来——彭博社
Rachel Metz
插图:Patrik Mollwing为《彭博商业周刊》绘制对全球大多数人而言,深度求索(DeepSeek)似乎于今年1月横空出世,其开源人工智能软件与OpenAI和谷歌的模型分庭抗礼——据称其开发成本仅为竞争对手的零头。
但对于Chatbot Arena网站的粉丝来说,这一幕多少有些令人无奈:他们早已持续数月,观察并评分这家中国公司旗下模型的迭代进程。
Chatbot Arena诞生于2023年初,正值OpenAI发布ChatGPT引发狂潮后不久。这个由加州大学伯克利分校Sky Computing实验室发起的研究项目,汇集了众多尖端AI模型。访客通过体验这些模型驱动的聊天机器人,根据表现投票决定其排行榜名次。Chatbot Arena负责人、伯克利博士后研究员江威霖表示:“一个以真实衡量AI进展为使命的独立第三方至关重要。每个公司都自称拥有最佳模型,透明度和独立性才是破局之道。”
Chatbot Arena的江伟林(音译)与阿纳斯塔西奥斯·安杰洛普洛斯在加州伯克利的实验室空间。摄影师:劳拉·莫顿/华尔街日报Chatbot Arena迅速成为早期用户的热门聚集地,并成为AI基准测试快速演进领域的重要风向标:每月访问量达百万次。顶尖AI公司和开源新秀都来测试他们的新模型。部分企业甚至在公开发布前就提交模型测试(如OpenAI去年春季的GPT-4o)。
彭博社商业周刊至少Neuralink进展顺利随着更多女性开始举重,健身房或将永远改变男性气质强势回归商业领域,福祸难料不确定时代的九种毕业礼物创意当测试表现优异时,这将成为炫耀资本的来源,正如深度求索公司所示,甚至能获得国际关注。Chatbot Arena用户测试了该公司的多个开源模型,每个模型都在网站主排行榜上节节攀升。其最新推出的V3(类似驱动ChatGPT的大语言模型)和R1(需更长时间计算响应)分别于去年12月末和今年1月登陆平台,排名迅速上升。
发布后的几天,在一个周五,R1跃升至第三位,超越了o1,OpenAI的类似推理模型。DeepSeek的聊天机器人应用开始在移动应用商店中登顶,包括那个周末在苹果公司美国应用商店和几天后的Google Play商店。包括风险投资家马克·安德森和OpenAI首席执行官萨姆·奥尔特曼在内的知名人物对其赞不绝口。那个周一,投资者从美国和欧洲科技股的价值中抹去了近1万亿美元,因为DeepSeek引发了科技行业在AI基础设施上可能过度支出的可能性。
Chatbot Arena的领导者蒋和阿纳斯塔西奥斯·安杰洛普洛斯,也是加州大学伯克利分校的博士后,对此并不感到意外。“说实话,看到这样的模型登顶并不特别令人惊讶,”安杰洛普洛斯说。“生态系统将继续发展。一个月后,登顶的不会是DeepSeek-R1,而会是另一个不同的模型。”
Chatbot Arena并不是唯一提供公开AI基准测试的项目。像SWE-Bench或Humanity’s Last Exam这样的努力评估尖端AI模型在各种任务上的表现,比如回答数学或编程问题,或解决人类已知的一些最难题。标准化程度不高,也没有官方组织监督模型的测试方法。该领域的进展如此之快,以至于新模型可能很快使现有评估显得过时。(还记得图灵测试吗?)
聊天机器人竞技场衡量的是使用每款产品的实际感受。“可以称之为氛围感;另一种说法是真实场景用例测试,”Chiang表示,“如果你是开发ChatGPT的OpenAI,你会关心你的用户。”
截至2月初,聊天机器人竞技场已累计上线200多个模型,包括来自Anthropic、谷歌、Meta Platforms、OpenAI和xAI的模型,其中90个仍可供用户试用。企业通常与聊天机器人竞技场合作将其模型上线,并支付用户测试产生的费用。该网站是开源的,其数据和代码可供他人使用,并得到一些外部资助支持,如来自风险投资公司Andreessen Horowitz和红杉资本。由于是学术研究项目,加州大学伯克利分校的学生主要负责维护聊天机器人竞技场的运营。
访客会收到弹窗提示,告知该网站为研究项目。他们需要向两个匿名聊天机器人提问,然后选择最喜欢的那个。投票后,每个聊天机器人的名称会揭晓。这些投票用于创建评估模型实力的评级体系;这是国际象棋Elo系统的变体,根据一对一对抗结果分配评级。
用户目前已为最喜爱的语言模型投出超过260万票。由于无需登录,聊天机器人竞技场团队成员无法识别个人用户。但他们会大致分类用户喜欢向聊天机器人提出的提示类型。关于计算机编程和创意写作的问题特别受欢迎,例如提示词:“用对句写一首诗,通过换行营造动感和悬念;主题关于苹果。”
聊天机器人竞技场排名带有一种权威性的光环。但实际上,它们衡量的是非常具体的内容:即该平台受众的反应(这个群体似乎更偏向于对机器学习等话题感兴趣的学术型人士)。排名系统"非常酷,我们也乐于参与,但它并不能真正代表’这个模型好用吗?企业是否容易采用?’"尼克·弗罗斯特说道,他是Cohere公司的联合创始人,该公司专门为企业定制人工智能模型。
也有人担心评分可能被操纵。在发布于Arxiv的最新论文中(该平台是未经同行评审的公开研究档案库),研究人员通过模拟投票作弊来指出聊天机器人竞技场可能存在的漏洞。安杰洛普洛斯和蒋表示,该网站已采取多项保护措施来防范恶意使用。安杰洛普洛斯称,目前没有发现针对该网站的成功攻击证据。
蒋、安杰洛普洛斯及其合作团队正致力于改进聊天机器人竞技场社区,同时扩展测试类型。他们已开始支持包括图像生成器在内的其他类型AI模型。鉴于所受到的关注,研究人员也不排除未来商业化的可能性。“我们确实在考虑这个问题,“蒋表示。