这家初创公司正在尝试测试人工智能模型的实际效果 - 彭博社

Shirin Ghaffary

2024-04-12

Langston Nashold 和 Rayan Krishnan

来源：Sedgwick McCray

一家新创企业正试图解决科技行业的一个重要盲点：一个独立的、标准化的测试来评估人工智能服务。但首先…

三件事值得知道：

• 美国司法部正在审查人工智能公司是否共享董事会成员• Adobe 正以每分钟 3 美元的价格购买视频来构建人工智能模型• 亚马逊的首席执行官表示生成式人工智能繁荣将建立在 AWS 上

一个未解决的问题

几乎每个月，科技公司发布新的人工智能产品，声称其性能与市场领导者 OpenAI 的类似选项相匹敌甚至超越。但赶上 OpenAI 只是挑战的一部分；另一部分是证明它。

数十亿美元正在投资于人工智能公司，但行业仍然没有独立的、标准化的测试用于比较人工智能软件的表现。OpenAI 的竞争对手 Anthropic 已经表示许多当前的评估在衡量人工智能模型的安全性和能力方面“有限”。而 Cohere 首席执行官 Aiden Gomez 甚至已经说过公开评估模型是一个“有缺陷”的系统。因此，人工智能公司通常设计自己的基准来展示他们的服务对代数、阅读理解和 Python 编码问题的回答情况。

Rayan Krishnan 和 Langston Nashold 正在努力寻找更好的解决方案。这两位 23 岁的年轻人从斯坦福大学的硕士项目辍学，他们在那里学习人工智能，与创始工程师 Rez Havaei 一起创立了 Vals.ai。这家初创公司与斯坦福的研究人员以及会计、法律和金融等特定领域的行业专家合作，建立了一个中立的第三方审查系统，用于大型语言模型。该初创公司还使用学术和行业特定的数据集提出测试问题。在今年稍早时进行了小规模预览后，Vals.ai 于周四推出，并宣布已从 Pear VC 获得了一笔未公开的前种子轮融资，此外还有 Sequoia 的一位侦察投资者参与。投资者的兴趣反映了对无偏测试的需求，特别是随着越来越多的公司在权衡是否将人工智能用于特定的工作场景。“我们实际上并不清楚这些模型是否可以在医疗保健领域的生产环境中使用，或者它们是否可以在法律领域使用，” Krishnan 说道。更让事情变得更加复杂的是，大型语言模型是建立在如此多的在线数据之上，以至于它们可能事先遇到过基准问题和回答。这就像“在考试之前看答案一样，”他说。一群研究人员、行业分析师和人工智能影响者试图拼凑不同的基准和非正式审查。一些学者，如沃顿商学院教授 Ethan Mollick，实质上已经成为了人工智能聊天机器人的新版本技术设备评论员。AI 初创公司 HuggingFace 也有受欢迎的“排行榜”，开发人员可以提交他们自己的模型进行评估。但是关于测试的最佳方式是什么，或者最值得信赖的评估者是谁，行业并没有达成共识。

寻找解决方案的赌注只会变得更高。一年前，OpenAI是无可争议的领导者。现在，像Anthropic、Google和Cohere这样的公司正在与之展开激烈竞争。人工智能公司也对技术提出了更大胆的声明，值得外部审查。Meta表示，其下一个模型将具有先进的推理能力，而Anthropic表示其模型在某些测试中与人类一样具有说服力。Krishnan的公司已经发现了人工智能模型可能存在的缺陷。在其第一份报告中，Vals.ai显示领先模型在税务问题上存在困难，这是根据该初创公司雇佣的会计师的建议得出的。最具能力的模型OpenAI的GPT-4准确率为54.5%。谷歌的Gemini Pro只有31.3%的准确率。换句话说：还不要解雇你的会计师。“要将一个模型应用到特定领域或任务中仍有很多工作要做，”Krishnan说。“这些模型非常有能力。它们有点像去了一所好的文理学院的孩子。你不会指望他们为你报税，但他们已经准备好接受一点他们需要的培训，然后成为税务专家。”Pear VC的合伙人Arash Afrakhteh表示，企业需要更多“细微差别”来了解特定人工智能模型“表现更好”还是“能以更低成本处理我需要的所有任务”。Vals.ai的数据还暗示了人工智能系统的表现可能会因行业而异。例如，Anthropic的Claude 3 Opus和OpenAI的GPT-4在法律推理任务上的准确率分别约为77%，远高于在税务问题上的表现。Krishnan表示，法律界对该初创公司在最近的法律会议上展示一些早期发现后的初步测试结果“非常感兴趣”。“人们认为这是一个尚未解决的问题，”Krishnan说。“他们对我们这样的研究人员采取新方法感到兴奋。”

**有关人工智能的问题？**给我发邮件，Shirin Ghaffary，我会尽力在未来的新闻简报中回答您的问题。

山姆·奥特曼在哪里？

OpenAI首席执行官山姆·奥特曼正在华盛顿与立法者和国家安全界人士会面，正如我与我的同事Ed Ludlow报道的那样。奥特曼将讨论美国及其盟国如何继续在人工智能领域保持领先地位。

奥特曼访问国会山是他作为人工智能行业顶级交易商和准外交官的世界之旅的最新一站。正如我们在周三报道的那样，本周早些时候奥特曼曾在阿拉伯联合酋长国会见投资者和官员，包括美国大使Martina Strong。据知情人士透露，奥特曼正在向各国工业界和政府提出一个全球联盟的计划，以建立开发人工智能所需基础设施，包括芯片、数据中心容量和能源。从阿联酋实体获得外国投资可能会引起美国外国投资委员会的关注，该委员会越来越密切关注中东财富基金与中国的联系。我们将看看奥特曼是否能运用自己的娴熟谈判技巧达成交易。

本周人类语录

“我们完全相信后果将是非凡的，可能会像过去几百年来一些重大技术发明一样具有变革性。”

杰米·戴蒙

摩根大通首席执行官

在他的年度股东信中，戴蒙将人工智能的影响比作蒸汽机和印刷机，并表示这项技术可以“增强几乎每一个工作。” 摩根大通一直在测试人工智能应用，可以为银行追踪的每家公司生成收益摘要，并提供一个帮助台服务，提供确切的问题解决步骤。### 值得关注

欧盟委员会执行副主席玛格丽特·维斯塔格讨论人工智能市场和欧盟对科技巨头的调查。彭博社### 深度学习

Meta 本周推出了一款新的人工智能芯片，以减少对英伟达的依赖
Meta还淡化了今年选举中人工智能虚假信息的威胁
沙特阿拉伯和阿联酋正在急于建设人工智能基础设施，以争夺成为该地区科技超级大国
活动人士正在向国会议员发送由枪支暴力受害者生成的语音邮件

彭博社更多内容

**彭博科技峰会：**Q&AI 即将直播！下个月加入我在旧金山举办的彭博科技峰会，我们将采访人工智能行业的两位重要人物。OpenAI 首席运营官 Brad Lightcap 将与我一同登台，谈论科技领域最热门公司背后的业务，而 Hugging Face CEO Clém Delangue 将与我讨论开源与闭源之争，等等。你还有机会向他们提出你心中的人工智能问题！Q&AI 的订阅者可享受 30% 的门票折扣这里。到时见！

每日科技资讯以及更多彭博科技周刊将发送至您的收件箱：

网络安全简报涵盖黑客和网络间谍的阴影世界
游戏动态报道视频游戏行业
电源动态苹果独家新闻、消费者科技资讯等
银幕时光报道好莱坞和硅谷的碰撞
声音碎片报道播客、音乐行业和音频趋势