探寻AI可持续发展的“燃料” “语料筑基,智生时代”语料主题论坛邀您参与
guancha
在电影《黑客帝国》中,人类被想象为“生物电池”,机器从人类身体所产生的热量和电力中获取能量。这种设定虽然夸张,但引发了人们对于虚拟现实与现实世界之间的界限,以及自由意志等问题的思考。
电影中的“生物电池”概念也引出了一个有趣的现代对比:随着人工智能的发展,人们在某种程度上开始“为AI打工”。在大型文本生成项目中,如OpenAI的GPT系列,高性能的AI模型对高质量语料的需求巨大。因此,为了训练这些AI,人们需要创造和整理大量的高质量文本数据。这个过程看似为减少人类的劳动而设计,实际上却让人类在某种程度上成了AI的“做题家”,即持续提供用于训练AI的数据。虽然这种情况和电影中的设定不同,但也呈现了一种新的依赖关系:人类的智力产物直接支持着人工智能的发展和优化。
WAIC 2024密切关注语料数据的发展。为深入探讨语料数据的策略、实践与挑战,大模型语料数据联盟、上海库帕思科技有限公司、上海市数商协会、上海市人工智能行业协会将联合举办“语料筑基,智生时代”数据主题论坛,为与会者提供深入洞察。
论坛时间:7月6日 9:30-12:30
论坛地点:上海世博中心金厅A
语料枯竭成为发展人工智能的障碍
语料库是训练AI模型的“食粮”,其质量直接决定了模型的性能和应用的广泛性。在全球范围内,从学术研究到商业应用,人工智能的发展都严重依赖于大量高质量、多样化且公正的数据,这些数据是训练精确、可靠和公正的AI系统的基础。
然而,由于采集限制、成本、维护等多种原因,高质量语料短缺正在成为全球人工智能研发中普遍存在的一个国际性难题,且短期内无法通过单纯加大资金投入解决。
导致高质量语料短缺的原因有以下几种:首先,数据的采集往往受限于版权、隐私保护法规以及数据来源的限制,导致无法广泛地收集到多样的数据样本。此外,数据的标注工作不仅成本高昂,而且需要大量的人工参与,这在很大程度上限制了数据集的规模和多样性。标注数据的准确性和一致性的维护也是一个挑战,因为不同的标注者可能会有不同的理解和判断标准。
早在2022年,就有学者指出高质量语料将会成为AI发展的制约,例如Nostalgebraist曾说过高质量的语料数据的缺失将会成为机器学习的瓶颈。近年来,不断有研究发现,由于互联网语料内容的持续下降,互联网语料数据增速已经从90年代将近100%的年增速率下降至2010年的两位数增长率,预计本世纪末,增长率将会下降至1%。
2024年6月4日,Pablo Villalobos等人在一项研究中进一步预测了高质量语料枯竭的具体时间。该研究表明,高质量数据预计将于2028年枯竭,高质量数据的缺位将会严重限制未来大模型大表现(如下图所示)。