AI盈利的秘密在于雇佣更多的博士 - 彭博社
Saritha Rai
十几位数据专家在不丹的廷布科技园的办公室中完善人工智能模型,时间是在十月。
摄影师:Saritha Rai/Bloomberg在不丹这个小王国,十几位数据专家在雄伟的喜马拉雅山峰环绕的办公室中完善人工智能模型。iMerit的员工并不是在训练AI进行诸如识别“窗台上的棕色猫”这样的基础任务。相反,他们在教算法人眼的解剖结构或如何检测地理空间地图的变化。
在三位硅谷亿万富翁的支持下,iMerit是越来越多的公司中的一部分,这些公司正在构建更复杂、可盈利和可靠的AI版本,这个行业预计到2030年将为全球经济增加近20万亿美元。随着模型变得更加智能,大型企业越来越希望利用它们的力量来完成高度专业化的任务,催生了数十家致力于跨金融、医疗和国防等行业定制应用的数据服务初创公司。
这关系重大。尽管人工智能热潮席卷硅谷,但人们仍然对这项技术是否真的足够有用以至于全球企业愿意为其支付费用并确保AI模型开发者能够盈利存在疑问。当然,英伟达公司通过销售AI芯片成为了世界上最有价值的公司。但该公司的最大客户,包括微软公司和谷歌公司,仍然因构建更先进的AI系统的巨大成本而亏损。
拉达·巴苏,iMerit的创始人兼首席执行官,将其与构建互联网、手机和其他现代技术平台的软件编码员进行了类比。“我们是人工智能革命的编码者等价物,”这位正在准备筹集下一轮资金的白发企业家说道。
在不相关、敏感且有时危险的行业中使人工智能达到高级水平并不容易。这项工作需要一支深厚的人类专家团队,他们愿意在日常工作之外,通过培训和改进技术领域的模型来贡献力量。
iMerit在不丹廷布的办公室,拍摄于十月。摄影师:萨里莎·赖/彭博社在肯尼亚,一家初创公司正在开发技术,以扫描灌木丛寻找偷猎者的迹象。在哈萨克斯坦,医学专家正在教模型识别肺癌的早期阶段。在印度、韩国、越南等地,时薪65美元的语言学家正在帮助模型掌握英语以外的语言。
在iMerit,这里雇佣了5000名员工,分布在不丹、印度和新奥尔良,23岁的耶希·旺莫来自一个农民家庭,花了多年时间掌握一项单一任务:正确识别广阔玉米和棉花田中的杂草和碎片。旺莫和她的同事们身穿色彩斑斓的不丹传统服装gho和kira,帮助像蓝河科技这样的公司(德尔公司旗下的子公司)构建算法,提高喷洒农药和肥料的准确性,减少使用量多达90%。
“我们看到公司正在解决更高级但也越来越小众的问题,”数据标注解决方案公司Datasaur Inc.的创始人兼首席执行官Ivan Lee说,该公司的客户包括Netflix Inc.和FBI。“客户可能需要在坦桑尼亚长大的牙医或来自法国的建筑师,”Lee说,他的团队主要在印度尼西亚工作。
数据准确性是他们工作的指路明灯。当ChatGPT在两年前推出时,批评者迅速指出该平台的缺陷和失误。从那时起,许多人类专家被聘请进行质量控制。这项工作非常繁琐。像Wangmo这样的数据标注员仔细审查扫描件、照片、视频和文本,以准备AI模型。目标是改善训练于庞大数据集上的生成AI系统,以分析或创建新内容。完善它们消除了AI潜在能力与其在现实世界中实际表现之间的差距。
Yeshi Wangmo花了多年时间掌握正确识别广阔玉米和棉花田中杂草和碎片的技能。摄影师:Saritha Rai/Bloomberg根据研究公司PMI Cognilytica的董事兼总经理Kathleen Walch的说法,这种专业化在处理军事情报等高风险行业中越来越关键。
这种工作的低级版本并不新鲜。数据服务行业大约在二十年前开始。当时,生活在菲律宾和印度等地的标注员主要标记小数据集,这些数据集支撑了例如语音助手或购物网站上的搜索引擎的语音识别。批评者担心AI已经创造了一个可被利用的底层阶级,指出该行业某些领域的工资徘徊在每天几美元左右。
但随着多年来人工智能的进步,许多简单的工作现在已经实现自动化。需求已经转向招聘专家,并支付更高的薪水和费用,尽管这些仍然远低于硅谷数据科学家的薪酬套餐。
印度的一名放射科医生训练人工智能模型,可能会获得100,000卢比(1,200美元)的报酬,工作几个小时,Indika AI的创始人兼首席执行官Hardik Dave表示。这位承包商的平均月收入大约是这个的三分之一,他说。
如今,提供标注服务的初创公司吸引了知名投资者。今年夏天,最大的参与者Scale AI从Meta Platforms Inc.和Amazon.com Inc.筹集了资金。该公司的估值接近140亿美元,已经超过了Mistral和Cohere等知名人工智能模型构建者的数字。在2023年,红杉资本的前50家人工智能公司名单中有四家标注初创公司,较去年仅有一家有所增加。一家公司Labelbox得到了Andreessen Horowitz和Kleiner Perkins的支持。另一家公司Snorkel AI则由Alphabet Inc.的风险投资部门资助,估值为10亿美元。
Scale AI的联合创始人Alex Wang(左)在7月的Allen & Co.的阳光谷会议上。Scale AI从Meta Inc.和Amazon.com Inc.筹集了资金。摄影师:David Paul Morris/Bloomberg更广泛地说,数据标注市场的估值在2024年接近200亿美元,预计到2030年将以每年约20%的速度增长,根据总部位于旧金山的市场研究公司Grand View Research的报告。
失误的后果也更加严重。一个标记错误的框架可能会让企业损失数百万美元,招致诉讼甚至 导致死亡。癌症扫描的人工智能工具或自动驾驶汽车是两个敏感领域。
“不够准确的人工智能可能会失控,”洛斯加托斯的Sama首席执行官温迪·冈萨雷斯说,她的客户包括 福特汽车公司 和 沃尔玛公司。“企业无法承受这样的损失。”
考虑一下马萨诸塞州总医院与Centaur Labs之间的合作,这是一家拥有50,000名自由职业者的数据标记初创公司,分布在包括美国、哈萨克斯坦和越南等国家。
近年来,总部位于波士顿的Centaur Labs改善了医院使用的产品,逐渐引入更高技能的数据专家。有些与日常疾病相关。(该初创公司正在开发一个打鼾检测算法和一个用于睡眠呼吸暂停的应用程序。)其他则涉及更复杂的主题,例如开发能够更精确识别CT扫描中肺结节的人工智能。上个月,该初创公司宣布获得来自Accel、Y Combinator等的资金注入。
哈萨克斯坦的放射科医生波利娜·皮柳斯负责Centaur Labs的一家承包商的团队,她表示,工作越来越专业化。她说,如今,仅仅检测肺结节已经不够。客户越来越希望获得减少假阳性数量并跟踪结节随时间增长的专业功能。在不降低标准的情况下降低风险是最佳选择。
“医学数据标注是一个复杂的过程,不能容忍匆忙、无能、粗心或过度削减成本,”Pilius说。
Polina Pilius,哈萨克斯坦的一名放射科医生,负责Centaur Labs的一个承包商团队。来源:Polina Pilius尽管可能出现各种问题,人工智能的支持者认为,训练模型以应对风险行业中的复杂问题总比无所作为要好。他们说,在许多情况下,只有好处。
Labelbox,这家位于旧金山的初创公司,与一家向监管数十万辆卡车的公司销售行车记录仪分析的客户合作。在过去的一年里,Labelbox的数据专家已经训练人工智能机器人,使其在监测驾驶员是否疲劳或醉酒方面变得更加专业。一旦检测到,车队运营商会被提醒,驾驶员会被联系。
Labelbox的首席执行官Manu Sharma表示,这只是一个例子,说明模型不仅仅是在削减成本或提高效率。他说,最好的技术是拯救生命的,而数据标注者正处于推动人工智能能力前沿。
他们正在“创造一个他们的专业知识更易获得并可以应用于造福社会的世界,”他说。