宾夕法尼亚大学沃顿商学院教授现在是人工智能产品的首选评论者 - 彭博社

Shirin Ghaffary

2024-08-02

摄影师：Gabby Jones/Bloomberg世界上最知名的聊天机器人评论员之一谈到他对大型语言模型进行测试的“人文主义”方法，面向普通大众。但首先…

三件事情：

• 马斯克的xAI 接触了初创公司Character.AI，希望收购• OpenAI 推出语音助手，延迟解决安全问题• Reddit 阻止微软在未付费的情况下搜索该网站

基于氛围的计算

今年早些时候，当一个神秘聊天机器人出现在一个用于比较大型语言模型的热门网站上时，伊桑·莫利克对其进行了测试，并发现这个工具“可能更好”，比OpenAI的GPT-4更好。他早期的印象在社交媒体和科技出版物中被广泛分享。他的看法也被证明相当准确：OpenAI 后来确认这个聊天机器人是他们最新的模型。莫利克，一位49岁的企业家教授，就职于费城宾夕法尼亚大学沃顿商学院，已经成为可能是最有影响力的AI模型评论员。他和妻子Lilach经常进行与聊天机器人的“奇怪实验”，并分享他对日益拥挤的AI产品领域的实际印象。莫利克现在在X上拥有超过20万用户的追随者，撰写了一本关于AI的《纽约时报》畅销书，并就这一主题向企业和立法者提供建议。（莫利克表示，他并没有从任何科技公司那里获得报酬来分享他的反馈意见。）“我和妻子经常谈论这个。比如，为什么是我们？”莫利克在最近的一次采访中告诉我。“我应该和所有这些公司、政府官员以及像你这样的人交谈，这很奇怪。”

部分原因是Mollick填补了一个空白。虽然AI公司会将他们自己的模型通过常见的评估测试，比如在特定领域如编码中，但这些基准往往无法匹配这些服务在现实世界中的表现。作为一个贪婪的聊天机器人测试者，Mollick会尽可能地将它们用于他能想到的每一个问题，比如找出他在博物馆看到的一幅画背后的故事，修理他的浓缩咖啡机，以及弄清楚他喜欢的印度甜点的名字。

“这是基于感觉的计算，”Mollick说。“你必须了解这些系统的功能。目前没有其他选择。”

Ethan Mollick在我们的聊天中，Mollick对最新工具的独特优势和劣势提出了一连串简洁的观察，谈到了谁在建立最佳聊天机器人的竞赛中处于领先地位。很明显，他对它们的能力感到敬畏，同时也坦率地谈到了它们的缺点。本次采访已经过了删减，以保持长度和清晰度。

**Bloomberg: 你是如何测试这些模型的？你是有目的地测试它们，还是日常使用？**Mollick: 我和我的妻子是一个团队。她不喜欢成为焦点，所以没有被特别提及，但她是一个了不起的提示创作者。可能是地球上最好的。她对我们构建的复杂提示进行了很多半正式测试，而我则进行了很多奇怪的实验。我尝试了很多事情。你只需推动这个模型。我每天都尽可能地使用它，很快就会了解它的个性——它擅长或不擅长什么。对我来说疯狂的事情是，我很少遇到有人花时间尝试让AI做事情。我认为这是一个很大的缺失。大多数人并不经常使用它，或者他们只是按照他们学会的方式使用它，而不是进行实验或玩耍。**你可以提前获得这些模型。你是一名学者。你是一名高级用户。我不知道该怎么称呼你。你对于你现在拥有的这种新的名声和领导地位有何看法？**我不认为自己是一名评论员。对我来说，有两个核心用例非常重要。一个是教育。我们对教育非常了解。我之所以很高兴能提前获得这些东西，是因为这让我们能够对这些公司提出异议，我们已经对每一个公司都这样做了。例如，所有这些模型都存在一个非常有趣的共同问题，那就是它们都倾向于想要非常乐于助人，而这实际上在教育中是非常糟糕的。如果你犯了一个错误，AI系统会想要纠正你，而我们不希望你被纠正。我们希望你能犯错误，然后它帮助你找到下一个答案。另一个是我认为这些人大多是编程人员。目前还没有人们可以参考的说明书。所以我可以从人文主义的角度来做这件事：这对人们意味着什么？他们会如何反应？我们如何以正确的方式使用这些东西，而不是以错误的方式？我们如何避免陷阱？我觉得这是一个有用的贡献。在Anthropic发布了Claude 3.5 Sonnet**之后，OpenAI的ChatGPT开始失去优势吗？**简而言之，对于很多人来说，Claude 3.5可能比GPT-4o更好。但是，GPT-4o的功能还没有被激活，对吧？目前正在发生的有趣问题之一是，他们已经推迟了一些事情。我认为Claude有一些提升生活质量的差异，这使得它对很多人来说非常独特，但它仍然比GPT-4功能更少。所以现在它们之间的竞争更加激烈。两个月前，即使与Claude Opus相比，我几乎总是建议你选择GPT-4。现在我认为你必须根据你的用例来决定。

其他竞争对手呢？

有一大堆有趣的东西即将推出：有 [Meta] 的开源大型羊驼模型，还有一些有趣的模型即将问世，其中有些来自中国。但实际上，目前拥有前沿模型的是 Google、Anthropic 和 OpenAI。每次 OpenAI 受到挑战，他们的系统都会逐渐改进，变得更好，击败其他模型。我会说目前并没有明显的优势，但随着即将推出的语音模式，情况可能会发生变化。随着 GPT-5 的发布，情况可能会在一夜之间发生变化。

**目前你首选的服务是 GPT-4o 还是 Claude？**这取决于情况。我正在为一本未命名杂志写一篇社论，我想，“你知道吗？我已经把所有要素准备好了。我想让 Claude 帮我写第一稿。” 我把所有要点、第一段、最后一段以及我的博客文章中的片段粘贴进去。我说，“这是社论的限制条件，把它变成好东西。” 结果它做到了。**在发送给编辑之前，你需要编辑多少？**几乎不需要。编辑认为这太棒了。我知道如何按照我的风格制作东西，对吧？我知道我必须把我的要素放进去，然后编辑一下，增加更多我的风格。

你是否必须向编辑透露这件事，还是直接交稿了？

这件事我并不需要透露。希望我现在不会惹麻烦，因为我在记录上报告了这个。但事实是：写书时你会学到很多人都有幕后撰稿人。我一生从未有过幕后撰稿人。我所有的文字都是我自己写的。在这方面有什么界限呢？

你在多大程度上依赖AI的基准？

基准在很多方面都存在问题。很多基准看起来很有权威，但它们都是基于选择的。有些人在决定人们如何使用这些系统时做出了非常明确的决定，而这些决定大多是错误的，与真实生活中使用这些系统的人相比。结果是基准展示的东西与使用这些系统的真实体验之间存在越来越大的差距。

你为什么认为你有独特的优势来进行更全面的测试？

我一只脚在学术界，一只脚在实际世界的应用中，然后一只手在教学中，另一只手在做一些奇怪的事情。我认为这创造了一组有趣的联系。但重要的是，我认为玩耍的意愿也很重要。

**有关AI的问题？**给我发邮件，Shirin Ghaffary，我会尽力回答您的问题，并在以后的新闻通讯中回答。

本周人类语录

“所有关于科技公司CEO们如何在这些财报电话会议上只谈论AI的笑话都是有道理的。这是因为AI实际上非常令人兴奋，它将在多个时间范围内改变所有这些不同的事情。”

马克·扎克伯格

Meta CEO

Meta 报告称销售额超出预期，表明该公司在人工智能方面的投资正在帮助其销售更多定向广告。这一进展为扎克伯格赢得了更多时间，向投资者证明他对人工智能的大赌注是值得的。### 值得关注

苹果即将推出的人工智能功能将比预期推迟，错过了即将推出的iPhone和iPad软件更新的首次发布，但这给了公司更多时间来修复错误。彭博社的马克·格尔曼（Mark Gurman）与埃德·拉德洛（Ed Ludlow）一起讨论“彭博科技”。### 深度学习

AI初创公司Perplexity正在与《时代》、《财富》等出版商合作分享收入，此前曾面临抄袭投诉
Instagram将允许用户创建定制聊天机器人用于其个人资料
OpenAI表示“致力于”安全，在致美国议员的一封信中表示
谷歌正在利用人工智能改进一项由失败阻碍的昂贵医疗保健推动

基于氛围的计算

本周人类语录

更多来自彭博社