谷歌和微软押注27岁创始人让人工智能在印度发挥作用 - 彭博社

Saritha Rai

2023-11-02

印度卡纳塔克邦农村的Karya公司联合创始人Manu Chopra，于9月25日。

摄影师：Samyukta Lakshmi/Bloomberg在阿加拉（Agara）一条安静街道上的一间单间住宅里，这个小村庄位于班加罗尔西南三小时车程的地方，四周是稻田和花生地，Preethi P.坐在缝纫机旁的凳子上。通常情况下，她会花几个小时修补或缝制衣服，平均每天不到1美元。然而，在这一天，她正在用手机的一个应用程序朗读她的母语卡纳达语中的一句话。她稍作停顿，然后又读了一句。

Preethi是这个地区常见的单字名字，她是Agara及周边村庄中被一家名为Karya的初创公司雇佣的70名工人之一，负责收集印度方言语言的文本、语音和图像数据。她是一个庞大而看不见的全球劳动力——在印度、肯尼亚和菲律宾等国家运作——这些劳动力收集和标记AI聊天机器人和虚拟助手所依赖的数据，以生成相关的回应。然而，与许多其他数据承包商不同，Preethi的努力得到了很好的报酬，至少按当地标准来看。

与Karya合作三天后，Preethi赚了4500卢比（54美元），这比这位22岁的高中毕业生通常作为裁缝一个月的收入多出四倍以上。她说，这笔钱足够支付那个月的贷款分期付款，这笔贷款是用来部分修补她家里那些被用彩色纱丽小心修补过的破败泥墙的。“我只需要一部手机和互联网。”

Karya公司员工Preethi P.在印度卡纳塔克邦阿加拉的家中工作，时间是9月25日。摄影师：Samyukta Lakshmi/BloombergKarya成立于2021年，在ChatGPT崛起之前，但今年围绕生成式人工智能的狂热只增加了科技公司对数据的贪婪需求。根据印度科技行业协会Nasscom的预测，到2030年，仅印度就预计将拥有近一百万数据标注工作者。Karya通过向承包商提供比普通最低工资高出多达20倍的报酬，承诺生产更高质量的印度语言数据，从而使科技公司愿意支付更高的价格来获取数据，与其他数据供应商有所区别。2030年，印度预计将拥有近一百万数据标注工作者。

“每年，大型科技公司花费数十亿美元来收集用于他们的人工智能和机器学习模型的训练数据，”这家初创公司背后的27岁斯坦福大学计算机工程师Manu Chopra在接受彭博社采访时表示。“为这样的工作支付较低报酬是行业的失败。”

Manu Chopra与Chamarajnagar当地工人互动。摄影师：Samyukta Lakshmi/Bloomberg如果微薄的工资是行业的失败，那么硅谷有责任创造这种失败。多年来，科技公司一直将数据标注和内容审核等任务外包给海外更便宜的承包商。但现在，一些硅谷最知名的公司正在转向Karya，以解决他们的人工智能产品面临的最大挑战之一：寻找高质量数据来构建能更好服务数十亿潜在非英语使用者的工具。这些合作关系可能代表数据行业经济和硅谷与数据提供商关系的强大转变。

微软公司已经使用Karya来为其人工智能产品获取本地语音数据。比尔和梅琳达·盖茨基金会正在与Karya合作，以减少输入大型语言模型的数据中的性别偏见，这些模型是AI聊天机器人的基础技术。谷歌的母公司Alphabet公司正在依赖Karya和其他本地合作伙伴在印度的85个地区收集语音数据。谷歌计划扩大到每个地区，包括大多数使用的语言或方言，并为125种印度语言构建生成式AI模型。

许多人工智能服务主要是通过英语互联网数据（如文章、书籍和社交媒体帖子）不成比例地发展的。因此，这些人工智能模型无法很好地代表其他国家的互联网用户的语言多样性，这些用户比他们学习英语更快地访问使用人工智能的智能手机和应用程序。仅在印度，就有近10亿潜在用户，因为政府正在推动在从医疗保健到教育再到金融服务的各个领域推出人工智能工具。

人工智能如何帮助打击印度贫困

“印度是我们在非西方国家首次尝试这样做，我们正在用九种印度语言测试Bard，”谷歌印度研究负责人Manish Gupta说，他指的是公司的AI聊天机器人。“超过一百万人口使用的70多种印度语言没有数字语料库。问题非常严重。”

Gupta列举了AI公司需要解决的一系列问题，以便为印度的互联网用户提供服务：非英语数据集的质量极低；印地语和其他印度语言几乎没有对话数据；以及印度语言的书籍和报纸的数字化内容非常有限。

当用于南亚语言时，一些大型语言模型被发现会编造词汇并且在基本语法方面存在困难。人们还担心这些人工智能服务可能反映出对其他文化更加偏颇的看法。斯坦福大学计算机科学系教授Mehran Sahami表示，关键在于广泛代表性的训练数据，包括非英语数据，以便人工智能系统“不会持续传播有害刻板印象，产生仇恨言论，也不会传播错误信息”。

一名工人在印度的方言语言中收集文本、语音和图像数据。摄影师：Samyukta Lakshmi/BloombergKarya是一家社会影响初创公司，总部位于班加罗尔，并得到资助，通过专门针对农村地区的工人，扩大了部分语言代表性的范围。Karya的应用程序可以在没有互联网访问的情况下运行，并为那些识字能力有限的人提供语音支持。在印度，超过32,000名众包工作者登录了该应用程序，完成了4000万个有偿的数字任务，如图像识别、轮廓对齐、视频标注和语音标注。

对于 Chopra 来说，目标不仅仅是改善数据供应，而是为了与贫困作斗争。Karya的创始人在印度德里西部的一个贫困社区叫做Shakur Basti长大。他赢得了一项奖学金，进入一所精英学校学习，在那里他因为同学说他“闻起来像穷人”而受到欺凌。Chopra最终来到斯坦福大学学习计算机科学，但意识到他讨厌那里流行的“如何赚十亿美元”的思维方式。

2017年毕业后，他开始着手他长期以来的兴趣：利用技术来解决贫困问题。“仅需存款1500美元，就能让印度人有资格进入中产阶级，” Chopra说。“但贫困人口可能需要200年才能达到那个储蓄水平。”在Chamarajnagar的一个Karya培训中心。摄影师：Samyukta Lakshmi/Bloomberg

微软发现，为了供其人工智能系统和研究使用，一直在支付大量费用来收集语音数据，尽管质量较差。例如，2017年，尽管在孟买及其印度西部地区使用的马拉地语中有100万小时的数字化口语数据可用，但仅有165小时可供购买。他的初创公司此后为微软的人工智能服务整理了1万小时的马拉地语音数据，由来自五个不同地区的男性和女性朗读。“科技公司想要数据，包括口音等，” Chopra说。“你咳嗽，他们就想要在语音中体现出来——这代表着自然语言。”微软印度研究院的研究员Saikat Guha专注于数据收集伦理学，他表示也已经在一个项目中使用了Karya的内容，帮助视障人士找工作。“这些数据的质量比我使用过的任何其他来源都要好，”Guha说。“如果公平支付工人，他们会更投入工作，最终结果就是更好的数据。”

与此同时，超过3万名受过学校教育的年轻女性正在与Karya合作，帮助收集“性别有意识”的数据集——比如医生或老板并不总是男性——用六种印度语言为比尔及梅琳达·盖茨基金会工作。这是印度语言中最大的这类努力，将作为一个语料库，用于构建减少LLM中与性别相关偏见的数据集。Karya并不止步于印度。该公司表示正在与非洲和南美的组织就出售其平台作为服务进行谈判，这些组织将进行类似的工作。

在培训中心的Shambhavi.S。摄影师：Samyukta Lakshmi/Bloomberg目前，班加罗尔西南另一个村庄Yelandur的妇女们正急切地等待Karya的下一个项目：从卡纳达语音频录制转录。其中之一是25岁的Shambhavi S.，她在家里安静地工作，给公婆做完晚饭，哄好孩子睡觉后，从之前的任务中赚了几千卢比。

“我不知道什么是人工智能，我从未听说过，”Shambhavi说。“我想赚钱并教育我的孩子，让他们学会如何使用它。”订阅 印度版新闻简报*，Menaka Doshi撰写——这是对新兴经济强国、其崛起背后的亿万富翁和企业的内幕指南，每周发送一次。*