OpenAI希望与各方合作，收集更多多样化的数据 - 彭博社

Rachel Metz

2023-11-10

Sam Altman，OpenAI首席执行官。

摄影师：Chris J. Ratcliffe/BloombergOpenAI计划扩大与外部组织合作，收集更广泛语言、主题和文化的数据，以构建任何人都可以使用的公共数据集，帮助训练更具代表性的人工智能工具。总部位于旧金山的初创公司周四表示，希望各个团体和社区与其联系，共同合作进行数据合作，目标是收集“反映人类社会”的大量数据。该公司还表示，正在努力制作私有数据集 —— 例如组织或公司不愿与他人分享的数据 —— 也可用于训练人工智能。 OpenAI的GPT-4等大型语言模型用于帮助驱动ChatGPT，它们会从互联网上获取大量文本，以便确定如何向用户生成相关的听起来像人类的回复。但这些人工智能系统通常过度依赖英语数据，忽略了在线存在较少的文化和语言。因此，这些系统可能会强化偏见或错误信息。一些科技公司，包括微软和谷歌，已经转向第三方数据提供商开始填补各种语言的空白。

“我们真的认为每一种语言，每一种人类努力和活动，都可以使这些模型受益，”OpenAI总裁Greg Brockman在接受彭博新闻采访时周三表示。“这有点像双向街道：你能够在模型中代表你的数据，模型在那个领域的表现就会更好。”