OpenAI希望与各方合作,收集更多多样化的数据 - 彭博社
Rachel Metz
Sam Altman,OpenAI首席执行官。
摄影师:Chris J. Ratcliffe/BloombergOpenAI计划扩大与外部组织合作,收集更广泛语言、主题和文化的数据,以构建任何人都可以使用的公共数据集,帮助训练更具代表性的人工智能工具。总部位于旧金山的初创公司周四表示,希望各个团体和社区与其联系,共同合作进行数据合作,目标是收集“反映人类社会”的大量数据。该公司还表示,正在努力制作私有数据集 —— 例如组织或公司不愿与他人分享的数据 —— 也可用于训练人工智能。 OpenAI的GPT-4等大型语言模型用于帮助驱动ChatGPT,它们会从互联网上获取大量文本,以便确定如何向用户生成相关的听起来像人类的回复。但这些人工智能系统通常过度依赖英语数据,忽略了在线存在较少的文化和语言。因此,这些系统可能会强化偏见或错误信息。一些科技公司,包括微软和谷歌,已经转向第三方数据提供商开始填补各种语言的空白。
“我们真的认为每一种语言,每一种人类努力和活动,都可以使这些模型受益,”OpenAI总裁Greg Brockman在接受彭博新闻采访时周三表示。“这有点像双向街道:你能够在模型中代表你的数据,模型在那个领域的表现就会更好。”