Databricks以13亿美元收购生成式AI初创公司MosaicML - 《华尔街日报》
Angus Loten and Belle Lin
阿里·古德西是Databricks的首席执行官。图片来源:David Paul Morris/彭博新闻Databricks已同意以约13亿美元的价格收购生成式人工智能初创公司MosaicML,此举旨在满足企业快速增长的构建类似ChatGPT工具的需求。
总部位于旧金山的数据存储和管理初创公司Databricks表示,该交易将其支持AI的数据管理技术与MosaicML的语言模型平台相结合,使企业能够利用专有数据自行构建低成本的语言模型。目前,大多数企业依赖于基于网上公开数据训练的第三方语言模型。
同样位于旧金山的MosaicML成立于2021年,将成为Databricks旗下独立运营的服务。据联合创始人兼首席执行官纳文·拉奥介绍,该公司一直致力于降低使用生成式AI的成本——从每模型数千万美元降至数十万美元。MosaicML现有62名员工,迄今已融资6400万美元。
该交易预计将于Databricks截至7月31日的第二季度完成。
生成式AI应用程序旨在根据用户的自然语言提示生成原创文本、图像和计算机代码。自去年11月AI初创公司OpenAI推出在线生成式AI聊天机器人ChatGPT以来,该技术引发了广泛关注。
诸如Anthropic和OpenAI等公司向企业授权现成的语言模型,企业随后基于这些模型构建生成式AI应用。由于市场对这些模型强烈的商业需求驱动,生成式AI市场急剧扩张——这为像MosaicML这样的初创公司创造了机会,它们声称能以更低成本提供类似AI模型,并可根据企业数据定制。
“如果从零开始构建模型,你会清楚输入的数据内容,“Databricks首席执行官阿里·戈德西表示。他指出,现成模型因已通过互联网数据训练而开箱即用,但其中包含的无关信息可能导致结果偏差。许多公司还对与外部供应商构建的模型中共享数据涉及的隐私和安全问题心存顾虑。
部分机器学习专家和AI供应商认为,像驱动ChatGPT这样的大语言模型的计算与综合能力优于小模型——后者虽然在特定领域功能强大,但能力终究有限。毕马威美国人工智能负责人斯里卡尔·克里希纳表示,数据管理方面持续存在挑战,且确定哪些模型最适合特定用途仍需探索。
“数据始终是成功的关键因素,“克里希纳说,随着大语言模型的出现,对数据的需求只增不减。
MosaicML首席技术官韩林·唐(左)与首席执行官纳文·拉奥、创始顾问迈克尔·卡宾及首席科学家乔纳森·弗兰克。照片:MosaicML企业技术领导者正面临为AI模型准备数据的压力。数据是所有算法的基础,因为它被用来教会算法从中提取模式并做出预测。
提供编程工具的Replit等公司已经在使用Databricks处理数据管道,并将这些信息传输到MosaicML以训练代码生成模型,Rao表示。
Databricks的技术被称为"湖仓一体”,旨在为AI应用准备和管理业务数据,同时将数据、分析和AI编程工具统一在一个系统中。Databricks通过出租分析、AI和其他基于云的软件来盈利,这些软件利用AI就绪的数据——Ghodsi称之为"镐和铲子”——来构建企业技术系统。去年,Databricks报告了超过10亿美元的年化收入。
根据市场分析公司PitchBook Data的数据,全球生成式AI市场的支出预计将在今年年底达到426亿美元,并以32%的复合年增长率增长,到2026年达到981亿美元。该公司表示,生成式AI初创企业的风险投资从2022年全年的48亿美元增长到2023年前五个月的127亿美元。
Databricks由加州伯克利的一群数据科学家于十年前创立,在2021年8月完成16亿美元的融资后,其私募市场估值为380亿美元。其投资者包括摩根士丹利的Counterpoint Global、Andreessen Horowitz、Baillie Gifford、UC Investments和ClearBridge Investments。
```生物制药服务公司Syneos Health的首席信息与数字官Larry Pickett表示,目前基于专业医疗数据训练模型的成本估计在100万至200万美元之间。分析师指出,这类"领域专用"模型对企业而言比ChatGPT更具实用价值,因为它们包含更多行业术语和专业知识。
但Pickett预计,通过使用较小的预训练模型,Syneos Health能大幅降低开支,“而不是基于OpenAI拥有的全部数据语料库进行构建”。他表示,其中部分模型已可通过机器学习初创公司Hugging Face等开源库获取。
“并非所有应用都需要GPT-4,“Krishna在提及OpenAI的大型语言模型时表示。他指出,语言模型正针对特定应用场景进行精细化调整,“届时模型将小到可以嵌入任何智能手机”。
联系Angus Loten请致信[email protected],联系Belle Lin请致信[email protected]
本文发表于2023年6月27日印刷版,标题为《Databricks以13亿美元收购AI初创企业》