ChatGPT还是Google Bard更好？这很复杂 - 彭博社

Austin Carr

2023-12-11

谷歌巴德。

摄影师：Gabby Jones/Bloomberg谷歌和OpenAI之间为争夺人工智能霸权的战斗有点令人困惑。但首先…

今日你需要知道的三件事：

• 微软与OpenAI的交易引起了美国和英国的调查• 一位苹果产品设计主管将离职• 巴尔德之门3 被评为“年度游戏”

你的星座是什么？

谷歌推出了一个名为 Gemini 的新人工智能模型，并为了向世界证明它比ChatGPT使用的模型更好，该公司采用了最无聊的方式：一张成绩单。

在一篇由首席执行官桑达尔·皮查伊共同撰写的公司博客文章中，谷歌声称Gemini在32个学术基准测试中有30项超越OpenAI Inc.的GPT-4，包括数学、阅读、编码和推理测试。Gemini肯定比谷歌今年初的水平要好得多，但这些吹嘘似乎有点不太自信，特别是在许多测试中，谷歌只领先OpenAI的模型几个百分点或更少。

有人真的会因为谷歌在代数技能评估中得分高出0.3%而从ChatGPT转到Bard吗？

由于有这么多人工智能产品试图区分自己，所以比较的要点几乎是毫无意义的抽象概念。像百度和Meta Platforms这样的科技巨头指出他们的大型语言模型拥有数十亿甚至数万亿的参数。初创公司吹嘘他们的系统已经吸收了数百万条内容。对于超级计算机运营商来说，重点是他们已经串联了数以万计的人工智能芯片。

甚至该领域的专家也对这类评估持谨慎态度。OpenAI研究员Rowan Zellers曾帮助开发了一个名为HellaSwag的常识任务测试，在Gemini发布后在社交网络X上发帖说他对“这些天所有LLM论文都报告的十几个文本基准测试有多可信”没有“很好的概念”。

比这些测试成绩更重要的是Gemini在实际应用中的表现，用户迅速指出该系统仍然容易出错，似乎并不比OpenAI的产品更好。谷歌自己也难以准确解释Gemini的分数对公众意味着什么，称该模型是其“最灵活”、“最有能力”和“最大”的。

不要紧，它有三个不同的版本——Ultra、Pro和Nano——甚至连谷歌的巴德都很难识别。当我问聊天机器人关于它的新Gemini型号时，它把我引向了名为Gemini Pro的各种产品，包括高光地板抛光剂、便携式PA系统和压花机。

过多的基准测试看起来有点像PC时代的规格战争。几十年前，计算机制造商用与处理器速度和内存大小相关的古怪指标来推广他们的硬件。苹果公司被认为是将焦点转向展示产品如何提升日常生活的新特性的先驱。当史蒂夫·乔布斯揭开第一代iPod时，它的存储容量远不及“口袋里装1000首歌”的承诺重要。

对于人工智能公司来说，问题在于，由于他们的软件声称几乎可以做任何事情，很难准确概括出什么使得某个特定产品特别。埃隆·马斯克推销xAI的 Grok 作为一种反觉醒的替代方案，而 X公司CEO琳达·雅卡里诺称其为 “终极忠诚”（不管那是什么意思）。

谷歌最明显的区别在于展示了巴德的 “多模态”功能，即你如何与机器进行文本输入之外的互动。在一个例子中，巴德看到了一张叉路的图像，有车道通向一只鸭子或一只熊的涂鸦。当问到叉路口的另一只鸭子应该朝哪个方向走时，巴德正确猜到最安全的路径是朝着它的同类。

但谷歌后来承认演示有些虚假，并基于未发布的Gemini版本。当我在Bard上运行相同的测试时，它奇怪地建议鸭子应该沿着自行车向南100英里前往罗德岛高速公路。另一方面，ChatGPT完美地完成了提示。

谷歌需要更加努力才能在这方面获得及格分。

重要新闻

微软的回答关于其与OpenAI的关系的监管调查是，它并不拥有该公司的股份。相反，它将获得OpenAI几乎一半的财务回报，这是为了适应这家初创非营利组织的非正统结构。监管机构可能不愿意看到这种区别。

值得关注

观看Bloomberg Technology的采访，采访对象是Crispr的共同发明者、2020年诺贝尔奖获得者Jennifer Doudna。### 充分充电

亚马逊正在寻求驳回美国监管机构的反垄断诉讼。

微软将把其视频游戏员工的临时工转换为工会化员工。

谷歌表示欧盟提议分拆其盈利丰厚的广告技术部门是“有缺陷的”。

你的星座是什么？

重要新闻

值得关注

更多来自彭博社