OpenAI、谷歌、Meta或Anthropic?企业最佳AI选择指南 - 《华尔街日报》
Christopher Mims
我们都被关于最新一代人工智能如何改变人们生活、帮助企业提高生产力甚至导致裁员的新闻所淹没。但这些海量信息并不能帮助任何人回答关于这些AI的最基本问题:哪一个最好?
因此,我走访了那些深入应用全球最强大AI解决实际问题的企业高管、工程师和研究人员,了解他们的发现。
他们的回答让我惊讶。关于谷歌、OpenAI、Anthropic和Meta的AI相对优缺点的实用建议很多。但总体信息是,最适合任何任务的AI取决于用户和任务本身。他们的见解也让我们得以一窥整个AI领域的发展方向。
与半年前不同,如今企业要么拥抱生成式AI可能带来的成本节约和生产力提升——一些研究人员认为这正通向"通用"或类人AI——要么就可能输给那些会这样做的竞争对手。
像对待员工一样对待你的AI
如今最强大的AI不是你可以在自己的计算机上购买和运行的。它们只能通过云端访问。这使得通过输入文档、图像和文本来测试它们很容易,但也意味着企业改变其行为的能力有限。
加拿大西安大略大学首席AI官马克·戴利表示,测试这些AI更像是雇佣员工,而不仅仅是购买现成的软件。
“人们期望聊天机器人能即开即用,但你必须花时间尝试,看看哪些能胜任工作,就像对待员工一样,”他补充道。
戴利发现,所有主流大语言模型——包括OpenAI、Anthropic、谷歌以及仅向企业提供模型的初创公司Cohere——都各有优劣。选择哪一款取决于个人偏好和具体任务,值得逐一试用。
选择ChatGPT永远不会错
其他公司似乎正在追赶OpenAI的能力,但目前OpenAI的模型仍是衡量其他产品的标准。本周早些时候,Anthropic发布了新的大语言模型Claude 3,该公司宣称其在所有基准测试中都击败了黄金标准GPT-4。
“我们正在疯狂使用OpenAI,”帮助大公司应用AI的Nomad Data公司首席执行官布拉德·施耐德表示。该公司利用OpenAI消化、总结和搜索海量文档库,如法律简报、法庭案件和保险索赔。其客户还包括私募股权公司,这些公司可能只有一周时间消化即将收购企业的数千份文件。
在尝试所有最强大的大语言模型后,施耐德的公司发现,对于这类文档处理任务,没有哪家能比得上OpenAI。他发现Anthropic的Claude旧版本和谷歌Gemini现版本都存在频繁幻觉问题。(AI领域的‘幻觉’指聊天机器人编造虚假信息。)
谷歌高级副总裁普拉巴卡尔·拉加万最近撰文指出,幻觉是所有大语言模型面临的共同挑战,但"这是我们持续改进的重点"。Anthropic总裁丹妮拉·阿莫迪表示,将此类模型的幻觉率降至零"极其困难"。该公司称,其最新模型准确回答问题的概率是前代的两倍,但完全消除幻觉可能导致模型对原本能正确回答的问题也犹豫不决。
明确AI系统的核心需求
科学搜索引擎Consensus首席执行官埃里克·奥尔森表示,除准确性外,还需重点考量速度和成本两大因素。
在搜索引擎场景中,用户期望秒级响应。由于Consensus需将GPT-4生成的科学论文摘要与搜索结果配对,这些摘要必须近乎实时生成。
奥尔森指出,这意味着唯一真正适用的模型是OpenAI的GPT-4"turbo"版本,其响应时间仅1.5秒,比标准GPT-4快一倍。他补充道,谷歌Gemini和Anthropic的Claude模型响应速度也逊于OpenAI产品。
话虽如此,这种性能表现是有代价的。OpenAI及其竞争对手向企业用户按token(本质上是按字数)收费来处理请求。
“我们遇到过单个问题咨询花费50美元的情况,“施耐德表示。例如当某人询问涉及5000份法律文件的具体问题时,因为调用OpenAI系统的次数可能高达数万次。
谷歌的优势:规模效应
当OpenAI和Anthropic争夺最强大型语言模型头衔时,谷歌在多项基准测试中表现滞后。
但谷歌及其客户的一个优势是,其模型能在每次查询中处理海量数据。这是OpenAI目前无法提供的功能,而Anthropic仅向少数客户开放此服务。
“Gemini 1.5支持百万级token的上下文处理,这彻底改变了游戏规则,“戴利指出,“你可以输入相当于10本教科书的内容量,它虽不完美但能在35秒内完成人类难以企及的综合分析。”
微软面临的双重挑战
微软在AI推广中面临两个问题:首先,尽管与OpenAI深度合作,但本质上微软是其服务的转售商——而企业客户也可直接向OpenAI采购。
需要说明的是,微软通过Azure云服务提供了多款AI模型平台。例如既与Mistral建立了合作关系,也提供Meta开源的Llama模型。
“借助Azure AI,我们正将最全面的高性能开源与前沿模型集合带给全球最受信赖云平台上的客户,”微软AI平台副总裁埃里克·博伊德表示。
亚马逊云服务采取类似策略,该公司已与Anthropic达成合作。
施耐德指出,当OpenAI发布新功能时,微软版本模型需要显著延迟才能同步更新。他补充说,微软版GPT-4似乎存在容量限制,而OpenAI原版则无此问题,这导致企业每分钟可购买的令牌数受到更严格限制。
多数企业将自建AI系统
总部位于布拉格的Rossum公司首席AI架构师彼得·鲍迪斯认为,对于生成式AI的许多专业应用场景,企业可能希望自主构建训练AI,或委托第三方开发。Rossum通过其研究团队自主研发的多套AI系统,为企业提供发票自动化处理服务。
自主训练大型语言模型看似不可能,但随着Meta的Llama等开源模型快速发展,即便小型团队也能实现这一目标。
所有受访专家均表示,能力快速提升的开源大语言模型,其运营成本仅为使用OpenAI和谷歌模型的零头。原因主要有二:首先是模型体积更小,运行能耗更低;其次因其可部署于自有服务器,省去了大型AI公司中间环节及其利润抽成。
如果针对特定数据进行训练并执行足够专一的任务(如Rossum公司提供的发票处理服务),定制化的人工智能即使开源也能超越那些大型语言模型。
今日真理未必适用于明日
生成式人工智能正以互联网早期爆发期以来罕见的速度进化。Anthropic公司发布的模型在团队规模更小、成立时间更短的情况下,展现出与OpenAI旗鼓相当的实力,这表明大型语言模型可能逐渐商品化。届时,唯一重要的将是哪家公司能以最低成本提供最迅捷的响应。
这场激烈竞争的最大受益者将是各类企业——无论规模大小,它们员工的 productivity 可能获得显著提升。这些效益只需支付人类从事同类知识工作成本的一小部分。这对白领职业未来的影响不言而喻且令人忧心。
欲获取更多《华尔街日报》科技板块的分析、评测、建议与头条新闻,请订阅我们的每周通讯。
联系克里斯托弗·米姆斯请致信 [email protected]
刊载于2024年3月9日印刷版