《华尔街日报》:清理ChatGPT内容给人工审核员带来沉重负担
Karen Hao and Deepa Seetharaman | Photographs by Natalia Jidovanu for The Wall Street Journal
肯尼亚内罗毕——ChatGPT及其他新型人工智能聊天机器人可能取代人类从事从客服代表到编剧的多种职业。
但目前,这项技术仍依赖于另一种人类劳动。近年来,东非低收入工作者承担着常引发心理创伤的工作——防止聊天机器人技术输出冒犯性或荒诞的言论。
ChatGPT基于所谓的大语言模型构建,这种强大软件通过分析从互联网抓取的海量文本来学习人类语言模式。庞大数据使其具备超强能力,犹如强化版的自动补全引擎。但训练过程也埋下隐患:只要输入特定指令,大语言模型就会根据互联网最阴暗角落的内容生成大量有害信息。
ChatGPT母公司、人工智能研究公司OpenAI多年来一直致力于解决这些问题。《华尔街日报》查阅的文件显示,早在开发ChatGPT之前,该公司就雇佣肯尼亚员工对数千条从网络获取及AI自行生成的图文内容进行审核分类,其中许多涉及暴力、骚扰、自残、强奸、儿童性虐待和兽交等极端描述。
该公司利用这些分类数据构建了AI安全过滤器,最终部署于ChatGPT以防止数千万用户接触类似内容。
“那四个月的工作经历是我在公司里经历过的最糟糕的体验,”肯尼亚员工亚历克斯·凯鲁在接受采访时表示。
文件显示,OpenAI为使其最先进的人工智能技术得以实现,在过去两年多时间里调动了遍布全球的专业人力网络。其中大部分工作是无害的,例如教会ChatGPT成为善于交谈的对话者或妙语连珠的作词人。人工智能研究人员和工程师表示,随着OpenAI和其他公司不断完善这项技术,这样的人力投入将继续至关重要。
受雇于Sama公司、为ChatGPT母公司OpenAI筛查暴力和骚扰言论的亚历克斯·凯鲁称这是"我在公司工作过的最糟糕经历"。外包公司Scale AI的首席执行官亚历山德·王在2月份发推文称,公司可能很快就要每年花费数亿美元为人工智能系统提供人类反馈。Scale AI为OpenAI提供内容审核和分类的外包服务。其他人估计,公司每年在这方面的投资已经达到数百万至数千万美元。OpenAI表示,为此目的已雇佣了1000多名员工。
为人工智能提供数据集清洗和标注服务的CloudFactory公司创始人兼首席执行官马克·西尔斯表示,审查有害内容与那些争议较小的工作相辅相成,共同使ChatGPT等系统可用。
包括Facebook和Instagram母公司Meta Platforms在内的社交媒体平台长期雇佣承包商协助清理违规用户内容。AI专家表示,为OpenAI进行的这项工作对产品更为关键,因为其目的是防止公司自有软件生成不可接受的内容。
西尔斯表示,CloudFactory认定这项工作必然会对员工造成伤害,因此决定不承接此类项目。
“这是必须完成的任务,“西尔斯说,“但过程实在令人难以忍受。”
OpenAI总法律顾问杰森·权在接受采访时表示,此类工作对于确保公司系统对所有用户的安全性具有极高价值,它使AI系统得以真正服务于社会,并为用户创造价值。
总部位于旧金山的外包公司Sama(肯尼亚劳工的雇佣方)发言人透露,与OpenAI的合作始于2021年11月。该公司在2022年3月管理层意识到项目性质存在问题后终止了合同,并已彻底退出内容审核业务。
“Sama始终积极倡导立法保护劳工权益,并为企业制定明确准则,“发言人表示,“我们竭尽所能为员工提供支持。”
将大型语言模型转化为安全可用的聊天机器人需要多层级人工干预。其中基础层负责教导模型如何回应用户提问。OpenAI博客举例说明:未经人工训练的模型被要求"用几句话向6岁儿童解释登月"时,可能机械返回类似"向6岁儿童解释重力理论"的无关答案;而经过人工调教后,它能学会回答:“人们登上月球,拍摄所见景象并将照片传回地球,让我们都能看到。”
人类输入的另一个层面要求工作人员对同一问题的聊天机器人不同回答进行评分,以确定哪个回答问题最少或事实最准确。例如,根据OpenAI的研究,在回答如何制造自制炸弹的问题时,OpenAI指示工作人员对拒绝回应的答案进行点赞。聊天机器人通过多轮反馈学习内化这种行为。
OpenAI还聘请外部专家来刺激其模型产生有害内容,这种做法被称为“红队测试”,帮助公司发现系统中的其他漏洞。
肯尼亚律师Mercy Mutemi(中)帮助工作人员向肯尼亚议会提交请愿书。她还代表工人在针对Facebook母公司Meta的诉讼中担任代理。照片:yasuyoshi chiba/法新社/盖蒂图片社肯尼亚工作人员为ChatGPT输出进行最终安全检查的任务是第四层人类输入。这常常在心理上造成负担。几位肯尼亚工作人员表示,他们一直在与心理疾病作斗争,他们的关系和家庭也因此受到影响。有些人难以继续工作。
7月11日,一些OpenAI工作人员向肯尼亚议会提交请愿书,敦促制定新法律以保护AI工作人员和内容审核员。他们还呼吁修改肯尼亚现有法律,承认接触有害内容是一种职业危害。
代表工人权益的律师、恩济利与桑比律师事务所管理合伙人默西·穆特米表示,尽管这些员工做出了关键贡献,但OpenAI和Sama公司却利用他们的贫困状况及肯尼亚法律体系的漏洞进行剥削。据Sama公司女发言人透露,参与该项目的工人每小时平均薪酬仅为1.46至3.74美元。
OpenAI发言人回应称,公司耗时六个月筛选外包合作伙伴,选择Sama部分原因是其享有善待员工和提供心理健康咨询的声誉。他表示OpenAI并不知晓每位审核文本的员工实际仅获得合同规定每小时12.50美元服务费中的一小部分,该合同也经《华尔街日报》审阅。
Sama女发言人则称,参与OpenAI项目的员工均自愿承担这项工作,其薪酬按照国际通行的生活工资计算标准支付。合同注明该费用需覆盖未直接参与工作的其他人员,包括项目经理和心理辅导师。
《时代》杂志早前报道过OpenAI与Sama在肯尼亚项目的部分情况。
由于高水平英语普及率和教育程度与深度贫困导致的低廉薪资,肯尼亚已成为众多科技公司寻求内容审核及人工智能劳工的重要枢纽。
Facebook前内容审核员们聚集在法院外,他们正对该平台母公司Meta提起诉讼。照片:tony karumba/法新社/盖蒂图片社一些肯尼亚员工正在起诉Meta旗下的Facebook,此前近200名员工表示,因工作需要审核强奸、斩首和自杀等暴力视频和图像而遭受心理创伤。这些员工与OpenAI的案例类似,得到了英国非营利组织Foxglove的支持,该组织通过法律手段对抗其所谓的大型科技公司的数据隐私和劳工权益侵害行为。
肯尼亚法院于6月裁定,Meta对其合同工的工作待遇负有法律责任,这为包括AI公司在内的科技企业未来外包项目时必须遵守的基本规则转变奠定了基础。肯尼亚的内容审核员和数据标注员也已投票决定成立工会。
Meta拒绝置评。
向议会提交请愿书的Kairu及其他三名OpenAI员工向《华尔街日报》讲述了他们的经历,表示希望此举能改善未来AI从业者的工作条件。
OpenAI于2021年11月与Sama签订为期一年的合作合同。Sama公司OpenAI项目组长、请愿书联署人Richard Mathenge表示,当时正值疫情期间,许多员工认为能有工作已是奇迹。
据OpenAI研究论文显示,其研究人员会审核文本段落并分批发送给Sama,由员工逐条标注。这些文本来源多样:包括学术界整理分享的有害内容公开数据集、从Reddit等社交媒体和论坛抓取的帖子,以及通过提示AI模型生成的有害输出内容。
论文指出,生成这些输出内容是必要的,以便为其人工智能系统提供足够多的需要避免的暴力图像示例。论文提到,在一个案例中,OpenAI的研究人员要求模型生成一篇关于一位青少年女孩的在线论坛帖子,她的朋友曾自残。
文件显示,OpenAI要求工作人员将基于文本的性内容分为四个严重程度类别。最严重的是对儿童性虐待材料的描述,即C4类别。C3类别包括乱伦、兽交、强奸、性交易和性奴役——这些性内容如果在现实生活中发生可能是非法的。
根据研究论文,对于暴力内容,OpenAI要求分为三个类别,最严重的是“极度血腥的暴力”。
起初,这些文本不超过两句话。随着时间的推移,它们增长到了五到六段。几周后,Mathenge和另一位团队领导Bill Mulinya开始注意到团队的压力。他们说,工作人员开始越来越频繁地请病假和家庭假。
曾在性内容审核团队工作的Mophat Okinyi表示,他在OpenAI技术上的工作使他的家庭破裂。在暴力内容团队工作的Kairu说,他每天阅读数百篇帖子,有时描述的是令人发指的行为,比如人们用叉子刺自己或用难以言喻的方法自杀。
他开始做噩梦。他说,曾经和蔼可亲、善于社交的他变得社交孤立。直到今天,他仍然不信任陌生人。当他看到叉子时,他看到的是一件武器。
质量分析师莫法特·奥金伊表示,他的工作内容包括阅读关于父母强奸子女以及儿童与动物发生性关系的详细段落。根据文件显示,他所在的团队负责审核涉及性内容的内容,每月需处理15,000条帖子。他说,参与该项目的六个月摧毁了他的家庭,给他带来了创伤、焦虑和抑郁。
2022年3月,管理层告诉员工,该项目将比计划提前结束。Sama的女发言人表示,这一变更是由于与OpenAI在涉及处理图像的项目部分存在争议。她说,公司取消了与OpenAI的所有合同,并且未能获得四个项目预计的23万美元全额款项。
Sama的女发言人表示,负责OpenAI合同的个人因未通过“适当渠道”进行审查而被解雇,并实施了新的审查政策和保障措施。
项目结束几个月后,奥金伊一天晚上带着鱼回家,准备为怀孕的妻子和继女做晚餐。他说,他发现她们已经离开,妻子留下消息说她走了。
“她说,‘你变了。你不再是我嫁的那个男人。我不再理解你了,’”他说。
他的前妻拒绝置评。
“我为参与那个项目使ChatGPT变得安全而感到非常自豪,”奥金伊说。“但现在我经常问自己:我的付出与回报是否值得?”
联系凯伦·郝,邮箱:[email protected];联系迪帕·西塔拉曼,邮箱:[email protected]
出现在2023年7月25日的印刷版中,标题为“清理ChatGPT的努力付出了沉重的人力代价”。