人工智能需要开源模型才能发挥其潜力——《华尔街日报》

Kai-Fu Lee

2023-11-30

约翰内斯·古腾堡的印刷机在15世纪彻底改变了人类生活，使思想能够以先前难以想象的速度传播全球，为人类带来巨大进步。古腾堡试图保守技术秘密，但心怀不满的前投资人约翰·福斯特很快复制了他的设备。福斯特不仅自立门户开办印刷厂，还挖走了古腾堡的首席技术专家彼得·舍费尔。

对后世而言，这实属幸事。试想若印刷技术被某家公司垄断或局限于某个国家，人类数百年的进步可能永远不会发生。这个类比虽不完美，却为当前人工智能的争论提供了有益视角。

能够生成文本、图像等多媒体的生成式AI，将在21世纪引发比印刷机更剧烈的变革。通过训练具有数千亿参数的大语言模型算法，生成式AI能消化几乎全部人类知识范畴，具备写作、绘图、推理和解决问题的能力。这些强大工具将极大增强知识工作者的能力。

印刷机加速了知识传播，而生成式AI将加速知识创造。它能以人类难以企及的速度理解、阐释并创造思想内容。这项技术不仅会提升生产力、创造不可估量的经济价值，更能帮助创业者致富并——更重要的是——改变人类生存方式。基于我四十年AI领域的经历——从学者到微软与谷歌从业者，再到风险投资人——我可以断言：生成式AI将引发有史以来最伟大的技术革命。

但我们不能将这种力量仅锁在特权精英手中。面对即将到来的重大技术范式转变，让不同背景的人们理解并接触这项技术至关重要，确保无人被排除在外。正因如此，我决定创立01.AI——这家致力于构建生成式AI基石（基础大语言模型）的初创公司。我们推出的首个拥有340亿参数的Yi-34B语言模型，其源代码已在GitHub开源，任何人都能使用、改进并定制它。

虽然Yi-34B的适中规模特别适合研究者、创业者和中小企业，但OpenAI和谷歌仍将其更强大模型封闭商用。我并非主张所有模型都应开源，但希望科技公司在追求商业目标的同时，也能拥抱并回馈开源社区。

科技巨头可开源小型模型而保留大型模型专有权，这正是01.AI的策略。这种开放性能让研究者、教育者、学生、创业者、爱好者及非营利组织都用上AI模型。这种包容性至关重要，因为许多群体根本负担不起昂贵的商用模型。拥抱开放，就是让生成式AI走向民主化。

通过技术封闭来阻碍生成式AI普及，只会让成功企业将工具锁入黑箱，导致某些群体被边缘化。当前最先进的生成式AI模型主要基于英美数据训练，虽然具备多语言功能，但对网络资源较少的语言表现糟糕。来自小国或贫困地区的用户获得的使用体验大打折扣——他们既无资源构建本族语海量数据库，也缺乏开发高质量母语模型的技术能力。这场生成式AI革命正在将他们遗落。

主流专有模型还存在美国偏见。由于训练方式的原因，这些模型反映的是美国的文化和价值观，可能并不适合其他地方。一个国家认为的常态，在另一个国家可能是冒犯甚至违法的。美国和欧洲之间存在巨大差异，更不用说西方与世界其他地区之间了。一个通用模型不可能满足每个国家的需求。每个国家都应该有一个高质量模型，根据其文化、价值观、宗教和语言量身定制。

一些媒体将01.AI描述为中国对ChatGPT开发者OpenAI的回应。我们自视为对OpenAI更“开放”的回应。在我们看来，关键竞争不是中国对美国的竞争，而是开放系统对封闭系统的竞争。即使资源有限，我们也决心为更多语言开发高质量模型，让全球更多人能使用这项技术。我们不希望AI让任何人掉队。

作为技术乐观主义者，我坚信人工智能将推动人类进步，放大而非取代我们的人性。但只有坚持开放的美德，才能实现这一目标。

李先生是01.AI的首席执行官兼创新工场董事长。

图片来源：Getty Images/iStockphoto刊登于2023年11月30日印刷版，标题为《AI需要开源模型才能发挥潜力》。