《彭博社》：长期以来，科技公司一直在争取Fidelity的数十年数据用于AI模型

Saritha Rai

2023-06-08

随着世界各地的科技公司争相创建类似ChatGPT的AI服务，所需的基础原材料——数据——突然前所未有地受到需求。

富达投资就是一个例子：科技初创公司和大型企业都在争取与这家财富管理巨头合作，以获取其金融服务数据宝库，首席信息官Mihir Shah在一次采访中表示。对于寻求为金融行业构建AI系统的公司来说，富达数十年的在线交易记录、客户电话转录和面对面客户互动报告将是一个宝藏。它拥有约8PB的数据——相当于万亿页的印刷文本。

这家美国投资公司管理着超过11万亿美元的资产，拥有数千万客户，Shah表示，公司尚未与任何潜在合作方接触过。他领导着一项努力，旨在从富达的数据中获取价值。他表示，公司考虑过构建自己的AI模型，尽管尚未决定是否采取这种方式。他表示，任何分享的数据都将经过匿名化处理，并根据最佳安全实践清除个人信息。

诸如ChatGPT之类的服务基于大型语言模型，或者分析来自互联网和其他来源的大量文本以确定如何生成听起来像人类的文本的AI系统。这项技术引发了各行业的兴奋，因为公司寻求降低成本并更好地为客户服务——从摩根大通公司到摩根士丹利等银行都在带头。

ChatGPT 创建者OpenAI，由Microsoft Corp.支持，以及Alphabet Inc.和Meta Platforms Inc.都是该领域的技术领导者。它们大多使用相同的公共数据来训练它们的系统，以理解并生成类似人类的文本或代码。

但是，Fidelity拥有的专有数据，例如，将使AI服务脱颖而出，Shah表示。29年前加入Fidelity并负责构建其网站（作为一家主要金融服务公司的第一个网站）的Shah现在正在指导Fidelity公司范围的基于云的数据仓库的创建，这是为了更好地利用这些数据。

“差异化将在将第一方数据与公共数据相结合，以构建金融服务的垂直大型语言模型上体现出来，”驻波士顿的Shah通过视频说道。“我们已经看到垂直LLM在科学研究和医疗保健行业中出现。”

阅读更多关于人工智能的内容
* 摩根大通进军人工智能，华尔街竞争对手在努力追赶 * 人工智能术语速查表及其含义 * 英伟达在大规模人工智能赌局中市值突破1万亿美元 * 对冲基金使用ChatGPT处理所有繁重工作 * 人工智能巨头让全球规制者束手无策：Dave Lee

一个大型语言模型的价值很大程度上取决于它所接受的数据量和质量。需要大量的文本、图片、声音和其他信息来让AI模型学习模式和关系，以便它们可以基于这些模式生成内容。

沙阿说，Fidelity的数据被认为非常有吸引力，一些追求者提议免费为公司建立一个AI系统，以换取合作。他说，Fidelity的大部分数据相对较新，符合最新的合规要求，保存在过去七年中。Fidelity拥有超过4200万客户，为数以万计的企业管理退休计划和其他福利计划。

沙阿表示，当Fidelity决定如何部署数据时，需要考虑AI系统面临的挑战，如可靠性、偏见以及个人可识别信息的处理方式。与此同时，公司正在采取措施加强其安全基础设施，并对可以访问数据的人员增加进一步限制。

“我们对这些新工具非常谨慎，”沙阿说。“对于生成式AI，你无法完全信任结果。”