AI初创企业资金充裕,但数据不足——这是个问题 - 《华尔街日报》
Isabelle Bousquette
像ChatGPT这样的AI工具激发了对大语言模型可能性的广泛热情,但获取正确的数据至关重要。图片来源:FLORENCE LO/REUTERS生成式AI初创企业正获得数十亿美元融资,但如果无法获取正确数据,它们可能很快面临失败——而这绝非易事。
“我们看到许多公司的提案,它们可能正在追求AI的卓越应用,却无法获得构建强大应用所需的数据,更不用说能帮助建立商业竞争壁垒的专有数据,“风险投资公司Primary Venture Partners联合创始人兼普通合伙人布拉德·斯夫鲁加表示。
Bullpen Capital驻场首席技术官保罗·蒂玛指出,如今拥有正确数据比以往任何时候都更关键。由于模型构建已趋于同质化,真正的价值在于数据本身。
据PitchBook数据,生成式AI初创企业的风险投资金从2022年的48亿美元激增至2023年前五个月的127亿美元。目前许多公司正试图在金融或医疗等领域构建更垂直的AI模型——但获取这些领域的训练数据集并非易事。
部分AI初创企业寻求与拥有海量数据的大型企业合作。例如,安永全球税务副主席玛娜·里克表示,得益于其庞大的交易数据储备,每天都有生成式AI初创公司前来接洽。但安永客户服务全球管理合伙人安迪·鲍德温坦言,对于用公司数据训练外部模型可能带来的后果存在顾虑。
“这些数据归谁所有?当我们训练模型时,我们对该模型的访问权限是什么?其他人又将如何使用这个模型?”鲍德温说道,“这些数据是我们带来的知识产权的一部分。”
初创公司可以通过仅为每个客户使用其自身数据训练不同的模型来规避知识产权问题。初创公司TermSheet正在采用这一策略开发其产品Ethan,这是一个生成式AI模型,用于回答房地产开发商、经纪人和投资者的行业问题。但首席执行官兼联合创始人罗杰·史密斯表示,即使让客户同意这一点也需要一些教育和说服工作。
法律科技公司Logikcull的联合创始人兼首席执行官安迪·威尔逊表示,说服企业相信你拥有强大的网络安全态势并能够真正保护这些数据也可能是一个挑战。
Primary Venture Partners的Svrluga表示,在生成式AI应用中,大型科技公司可能比初创公司更具优势,部分原因是它们已经获得了大型客户的信任,这些客户对它们处理数据感到放心。
金融服务公司Truist的首席数据官特蕾西·丹尼尔斯表示,她目前只与大型科技供应商而非初创公司探讨生成式AI的使用案例。她说,她可以信任大型供应商来确保数据安全。
这意味着,即使是那些能够利用公开可用数据取得先机的初创公司,在利用企业数据集完善其模型时也会面临挑战。Veesual是一家可以生成人们试穿衣服效果图像的AI初创公司,最初利用互联网上的公开图像进行训练,但难以说服大型零售商同意提供数据以增强模型。
Veesual公司首席执行官兼联合创始人马克西姆·帕特表示,在某些情况下,大型零售商要求巨额付款或公司股权,以换取Veesual如何从这些数据中获利,但交易并未达成。
帮助律师事务所起草专利申请的生成式人工智能初创公司PatentPal的首席执行官兼创始人杰克·徐表示,该公司基于公开可用的专利申请文件进行训练。他表示,通过继续使用经过加密或匿名化的实际客户反馈来训练该工具,有机会使其更加准确。但这很复杂,因为这些反馈必须与包括商业机密在内的高度敏感和机密数据分开。
“对于早期初创公司来说,存在品牌认知度的问题,也存在社会认可度的问题,”他说。
但与此同时,压力也在增加。Struck Capital的创始人兼管理合伙人亚当·斯特拉克表示,一些初创公司正在竞相争夺某些细分领域内的更多数据,并且要更快地完成这一目标。
“如果你认为存在专有数据集,你会希望在他们之前获得这些数据,然后谈判独家使用权,”他说。“从这个意义上说,这几乎变成了一场军备竞赛。”
联系伊莎贝尔·布斯凯特,邮箱:[email protected]
本文发表于2023年6月16日的印刷版,标题为《人工智能初创公司资金充足但需要更多数据》。