一位高中老师的免费图像数据库助力AI 独角兽 - 彭博社
Marissa Newman, Aggi Cantrill
克里斯托夫·舒曼(Christoph Schuhmann)站在德国汉堡的克洛斯特尔学校(Gymnasium Klosterschule)外。
摄影师:玛丽亚·费克/Bloomberg
在德国北部城市汉堡郊区的一座郊区房屋前,一个单词“LAION”用铅笔涂在邮箱上。这是唯一表明这座房屋属于那位在全球引起轰动的人工智能热潮中扮演重要角色的人的迹象。
那个人是高中老师克里斯托夫·舒曼, LAION,全称“大规模人工智能开放网络”,是他的激情项目。当舒曼不在教德国青少年物理和计算机科学时,他与一小队志愿者一起建立世界上最大的免费人工智能训练数据集,该数据集已被用于文本到图像生成器,如谷歌的Imagen和Stable Diffusion。
像LAION这样的数据库对于人工智能文本到图像生成器至关重要,这些生成器依赖于它们来解构和创建新图像所需的大量视觉材料。去年年底这些产品的推出是一个开创性事件:它将科技行业的人工智能竞赛推向了超高速,并引发了一系列伦理和法律问题。在几个月内,针对生成式人工智能公司Stability AI和Midjourney的侵犯版权的诉讼已经提起,批评者开始警告这些公司数据集中存在的暴力、性暗示和其他问题图像,这些问题被指责引入了几乎不可能消除的偏见。
高中老师的五十亿图像数据库推动AI 独角兽
但这些不是舒曼的关注点。他只是想释放数据。
大语言
这位40岁的老师和受过训练的演员两年前在一个AI爱好者的Discord服务器上结识后,帮助创立了LAION。OpenAI的第一个版本 DALL-E,一个深度学习模型,可以 从语言提示生成数字图像 — 比如,响应这样一个请求创建一张粉色鸡坐在沙发上的图像 — 刚刚发布,舒曼既受到启发又担心这会鼓励大型科技公司使更多数据专有化。“我立刻意识到,如果这集中在一个、两个或三个公司,对社会将产生非常不好的影响,”舒曼说。
作为回应,他和服务器上的其他成员决定创建一个开源数据集,以帮助训练图像到文本扩散模型,这是一个类似于用数百万张闪卡教某人外语的几个月过程。该团队使用加利福尼亚非营利组织Common Crawl收集的原始HTML代码来定位网络上的图像,并将其与描述性文本关联起来。它不使用任何手动或人工筛选。
几周内,舒曼和他的同事们拥有了300万个图像文本对。三个月后,他们发布了一个包含4亿对的数据集。现在这个数字已经超过50亿,使LAION成为最大的免费图像和标题数据集。
随着LAION的声誉日益增长,团队开始无偿工作,直到2021年从机器学习公司Hugging Face收到一次性捐赠。然后,一天,一位前对冲基金经理进入了Discord聊天室。
Emad Mostaque提出承担计算能力的费用,没有任何附加条件。他想要启动自己的开源生成式人工智能业务,并渴望利用LAION来训练他的产品。团队最初对这个提议不屑一顾,认为他是个怪人。
“一开始我们非常怀疑,”Schuhmann说,“但大约四周后,我们获得了云端GPU的访问权限,这些GPU通常价值约9000美元或10000美元。”
当Mostaque于2022年推出Stability AI时,他使用了LAION的数据集来为其旗舰AI图像生成器Stable Diffusion进行训练,并雇佣了该组织的两名研究人员。一年后,该公司目前正在寻求价值40亿美元的估值,这在很大程度上要归功于LAION提供的数据。至于Schuhmann,他并没有从LAION中获利,也表示自己对此不感兴趣。“我仍然是一名高中教师。我拒绝了各种公司的工作邀约,因为我希望这个项目保持独立,”他说。
新的石油?
像LAION这样的数据库中的许多图像和链接在互联网上一直就在眼前,有些甚至已经存在几十年。人工智能的兴起揭示了其真正价值,因为数据集越大且多样化,其中的图像质量越高,AI生成的图像就会越清晰和精确。
这一认识反过来引发了许多关于公开可用材料是否可以用于填充数据库的法律和伦理问题 — 如果答案是肯定的,那么创作者是否应该得到报酬。
为了构建LAION,创始人们从公司如Pinterest、Shopify和Amazon Web Services等处抓取了视觉数据 — — 这些公司并未就LAION对其内容的使用是否违反其服务条款发表评论 — — 以及YouTube的缩略图、来自诸如DeviantArt和EyeEm之类的作品展示平台的图片、来自包括美国国防部在内的政府网站的照片,以及来自《每日邮报》和《太阳报》等新闻网站的内容。
如果你问Schuhmann,他会说在线上免费提供的任何东西都是公平竞争的对象。但目前欧盟没有人工智能法规,即将出台的人工智能法案,其语言将在今年夏初敲定,不会规定版权材料是否可以包含在大数据集中。相反,立法者正在讨论是否应该包括一项规定,要求AI生成器背后的公司披露用于训练其产品的数据集中包含了哪些材料,从而给这些材料的创作者提供采取行动的选择。
欧洲议会议员Dragos Tudorache告诉彭博社,该规定背后的基本理念很简单:“作为生成式人工智能的开发者,你有义务记录并透明地披露你在算法训练中使用的版权材料。”
克里斯托夫·舒曼(Christoph Schuhmann)在汉堡的一家公园里,4月20日。摄影师:玛丽亚·费克/彭博社这样的监管对于Stability AI来说不是问题,但对于其他文本到图像生成器可能会是一个问题——“没有人知道Open AI实际上用什么来训练DALL-E 2,”舒曼说,引用这个作为科技公司封锁公共数据的一个例子。这也会颠覆目前数据收集的现状。
“在这个领域内已经形成了一种传统,就是假设你不需要得到同意或者不需要告知人们,或者他们甚至不需要知道。人们有一种认为只要在网上的东西,你就可以爬取并放入数据集中的理所当然感,”Mozilla基金会的值得信赖的AI高级研究员Abeba Birhane说,她研究了LAION。
尽管LAION没有直接被起诉,但它已经被提及在两起诉讼中:一起指控Stability和Midjourney使用艺术家的受版权保护的图像来训练他们的模型,以及Getty Images对Stability提起的诉讼,指控LAION爬取了1200万张其图像用于训练Stable Diffusion。
由于LAION是开源的,所以不可能知道有多少其他公司使用了这个数据集。谷歌已经承认他们利用LAION来帮助训练他们的Imagen和Parti AI文本到图像模型。舒曼认为其他大公司也在悄悄地这样做,只是没有披露而已。
网络最糟糕的地方
当他的儿子玩《我的世界》时,舒曼坐在客厅里,将LAION比作“一艘小型研究船”,漂浮在“巨大的信息技术海啸”之上,取样展示世界下方的内容。
“这只是互联网上公开可用内容的一小部分,”他谈到LAION的数据库时说。“获取起来非常容易,因为即使是我们,可能只有来自捐赠者的1万美元预算,也能做到。”
但公开可用的内容并不总是公众想要看到的,也不一定是合法允许查看的。除了安全适宜的猫和消防车照片外,LAION的数据集中还包含数百万张色情、暴力、儿童裸体、种族主义迷因、仇恨符号、受版权保护的艺术作品以及从私人公司网站上抓取的作品。舒曼表示他并不知道LAION的数据集中是否包含儿童裸体照片,尽管他承认自己并没有深入审查数据。如果收到有关此类内容的通知,他表示会立即删除相关链接。
在开始组建数据库之前,舒曼咨询了律师并运行了自动工具来过滤非法内容,但他对清理LAION的内容并不感兴趣,而是更愿意从中学习。“我们本可以从我们发布的数据中过滤掉暴力内容,”他说,“但我们决定不这样做,因为这将加快暴力检测软件的开发。” LAION确实提供了一个索要删除照片的表单,但该数据集已经被下载了数千次。
从LAION中提取的冒犯性内容似乎已经被整合到了Stable Diffusion中,尽管最近加强了过滤器,但仍然很容易生成虚假的伊斯兰国斩首照片或大屠杀图像。一些专家认为这样的材料也可能在AI生成器内部产生偏见:像Dall-E-2和Stable Diffusion这样的工具已经因在没有暗示主体种族的文本提示的情况下再现种族刻板印象而受到批评。
这些偏见是谷歌决定不发布Imagen的原因,该模型是在LAION上训练的。
在被要求发表评论时,Stability AI表示,他们在LAION数据库的精心筛选子集上训练了Stable Diffusion。该公司试图在电子邮件中写道,他们试图为模型提供比原始SD更多样化和广泛范围的数据集,并补充说他们试图使用LAION的NSFW过滤器来删除成人内容。
即使是支持基于开源的人工智能的倡导者也警告称,在未经筛选的数据集上训练人工智能的后果。根据Hugging Face的机器学习和社会团队负责人Yacine Jernite的说法,基于受污染数据的生成式人工智能工具将反映其偏见。“模型非常直接地反映了它所接受的训练。”
在产品上线后引入防护措施是不够的,Jernite补充说,因为用户总是会找到规避安全措施的方法。“当你拿一个模型来模拟人们在互联网上的行为,然后说,‘好吧,但不要这样做’时,人们会找到办法让它仍然做那些事情,”他们说。
数据非营利组织Common Crawl的创始人Gil Elbaz怀疑“你无法从训练集到最终产出之间划出一条直线”,而是将这个过程比作一个去博物馆寻找灵感但被禁止复制艺术品的艺术家。相反,他说,“重要的是社会决定哪些用例是合法的,哪些是非法的。”
这不仅仅取决于社会。随着欧洲监管机构制定法规以应对人工智能的使用,他们正面临一个事实,即当前人工智能繁荣所挖掘的数据多年来一直在一个法律灰色地带生成,而这个地带现在才受到严肃审查。“没有多年数据积累,AI不可能达到这种复杂程度,”欧洲议会议员Tudorache说。
但对于舒曼来说,应该监控的不是数据集。在他看来,人工智能的最坏情况是大科技公司通过将他们的工具定制到一个监管框架中来排挤开发者。他警告说:“如果我们试图减缓速度并过度监管,最终可能存在一个巨大的危险,即只有少数大型公司能够承担所有的形式要求。”