企业急于采用生成式AI 促使数据管理成当务务——《华尔街日报》
Belle Lin
企业技术主管正面临确保公司数据存储、筛选和保护以供AI使用的压力。图片来源:I-Hwa Cheng/彭博新闻社人们对由ChatGPT开发方OpenAI等公司推出的大型语言模型兴趣高涨,这使数据管理重新成为焦点,也让企业技术主管面临更大压力,他们需要确保公司数据得到妥善存储、筛选和保护,以便用于人工智能。
金融科技公司Jack Henry的首席信息官Rob Zelinka表示:“任何公司,无论属于哪个行业,确实都需要围绕数据管理建立良好的结构和治理。现在引入大型语言模型,这一点变得更加重要。”
加剧这种紧迫性的事实是,已经建立了强大数据基础设施的公司可以更快地将大型语言模型用于定制化商业用途,如管理合同、提供客户服务和编写代码。为了在创新方面超越对手,商业技术领导者面临更大需求,需要提供能够帮助生成式AI应用成为现实的数据框架。
一些首席信息官已向内部数据专家和专门从事数据基础设施建设和成本管理的外部供应商寻求帮助。数据(可能包括公司的交易记录、分析、代码和其他类型的专有信息)被认为是任何AI模型的支柱,因为它被用来教导这些算法从中提取模式并做出预测。
Syneos Health的首席信息与数字官Larry Pickett负责协助制定企业数据管理战略,其核心是"管理、清理并整合全业务领域的所有数据"。这家生物制药服务公司首先将其企业资源规划和临床试验信息等运营系统数据整合至数据湖(即数字存储库)中,Pickett介绍道。
Pickett表示,随后Syneos Health花费约18个月为AI模型训练构建数据储备,组建了由数据科学家和业务领域专家组成的团队来打造"特征库"——即可复用机器学习组件的中央存储库。
这家总部位于北卡罗来纳州莫里斯维尔的公司还会删除不再使用的数据,仅保留AI、仪表盘及其他应用所需的资料。“若不加以控制,云服务成本和数据存储费用确实会激增,“Pickett强调。
训练大语言模型需要随时调用海量数据,其存储、处理和保护成本高昂。2019年成立于加州山景城、刚刚结束隐匿模式的初创公司Granica等供应商,正属于新兴企业阵营,致力于通过现成服务帮助企业利用生成式AI,或降低成本和提供网络安全保障。
Granica开发出针对Amazon.com和谷歌云平台存储数据的压缩技术,声称能缩减云对象存储的容量与成本——这类存储承载着大量非结构化数据,无法用传统行列格式处理。这家初创公司周四宣布已从风险投资公司NEA和贝恩资本创投募得4500万美元。
为确保AI训练数据安全,电子邮件、日历和联系人API提供商Nylas正在测试Granica的Screen服务,该服务能在压缩数据过程中清除敏感公司数据及个人身份信息。
Nylas工程副总裁John Jung表示,这对生成式AI工具非常有用——这类工具可被训练成模仿特定用户撰写邮件。“需要擦除[个人身份信息],避免模型可能产生幻觉并泄露敏感信息”,他解释道,这里指的是生成式AI程序输出虚假结果的情况。
分析师还预测将有更多初创企业专注于帮助企业筛选数据并控制生成式AI的数据访问权限。
对部分CIO而言,数据质量与成本控制同等重要——即确保数据格式规范、组织有序且与AI模型训练相关。“关键不仅在于收集数据,更要清洗、分类数据并确保其格式可用,“Zelinka表示,“否则你只是在付费存储无意义数据。”
Zelinka称Jack Henry目前正聚焦数据治理,他与首席风险官共同制定数据访问权限与使用规范,并与首席技术官合作研究如何将生成式AI嵌入公司产品及平台。
IT研究与咨询公司Gartner杰出副总裁分析师Erick Brethenoux指出,多数企业关注大语言模型所用数据的"质量、上下文和隐私”。他表示这些问题长期存在,但生成式AI的热潮使其加速凸显。
Syneos Health目前正准备发布其称为“协议天才”的工具,这是一款基于OpenAI大型语言模型和ChatGPT构建的聊天机器人,能够搜索40万份临床试验方案,皮克特表示。商业需求推动了这种创新速度,他称,“因为我们确信其他公司也会这么做。”
联系贝尔·林,邮箱:[email protected]