如何构建真正适合你企业的人工智能 - 《华尔街日报》
Christopher Mims
人工智能或许有朝一日会被用于驱动真正类人的半机械人,或是人类丰富想象力所创造的其他产物。而目前,英戈·斯托克正运用这项技术帮助连锁餐厅减少食物浪费,并用更少员工完成更多工作。
作为PreciTaste公司的联合创始人,斯托克博士带领这家初创企业利用基于人工智能的传感器和算法完成一项非常具体的任务:预测人们在任意时刻会点多少食物,并确保这些食物能被及时制作出来。
这个旨在减少浪费的创意,源于几年前某个下午斯托克博士对一家快餐店厨房的探访。当时他目睹厨师煎了30个汉堡肉饼,却因无人购买而全部丢弃。他不禁思考:为何厨师必须遵循根据餐厅平日客流量预设的排班表,而非根据当天实际冷清的情况灵活调整?
Phuc Labs实验室工程师正在为初创企业基于AI的过滤系统准备处理样本,该系统通过机器视觉算法识别电子垃圾中的有价值的金属颗粒。图片来源:贾斯汀·塞勒姆·迈耶/Phuc Labs"每个被丢弃的汉堡相当于50英里汽车行驶的二氧化碳排放量,“他解释道,这指的是从饲养牛群到最终制成汉堡所消耗的能源,“想想所有为制作它们而进行的物流环节,最终却全都被浪费丢弃。”
利用人工智能工具减少快餐店浪费并提升效率,这几乎算不上科幻情节。它不像近来备受关注的其他人工智能那样炫目,比如能根据文字提示生成巧妙图像的DALL-E,或是足以撰写关于自身的科学论文的文本生成软件GPT-3。它也不像谷歌的LaMDA聊天机器人那样可能登上头条——该机器人能产生如此类人的对话,以至于公司一名工程师宣称其具有感知能力,而这一说法遭到公司断然否认。
但除了少数例外,这些吸引眼球的系统尚未对任何企业的盈亏产生实质影响。
当前对企业最重要的AI系统往往要平凡得多。如果它们是人的话,大概会戴着安全帽在真人秀《干尽苦差事》里客串演出。
极致简化
当企业家Phuc Vinh Truong因新冠疫情封锁被困在马萨诸塞州的家中时,他突发奇想:如果能看见液体流中的污染物并逐个吸出,会怎样?
这促成了Phuc Labs的诞生,这是一家致力于利用人工智能革新电子垃圾回收效率的初创企业。
该系统从电池和其他电子垃圾回收商粉碎旧电子产品后产生的碎片开始处理。通常情况下,这类废料会通过化学分离等多种技术进行处理。而Phuc Labs则将颗粒悬浮在水中,随后让形成的浆液流经微型管道,在此过程中以每秒100帧的速度用摄像头捕捉其流动。
每一帧画面都由运行机器学习视觉算法的计算机进行分析,该算法经过训练,能够区分对回收商有价值的金属颗粒和其他杂质。当颗粒流至管道末端时,一股强力微型气流会精准喷射,将含有目标颗粒的"水片"导入收集池。水流在系统中循环往复,直至几乎所有有价值的金属颗粒都被分离出来。
IRI总裁Lee Echiverri表示,Phuc Labs的"视觉阀门"技术仍处于早期阶段,但公司正与菲律宾最大电子垃圾回收商之一IRI合作试点项目。
这种新型过滤技术若没有人工智能将无法实现,但它并非尖端AI。机器视觉系统可能是研究最深入的AI分支,经过数十年发展已臻成熟。从手机人脸识别摄像头到自动驾驶系统,再到乌克兰战场上摧毁俄罗斯坦克的导弹,其应用无处不在。
对于人工智能系统而言,识别电子废弃物碎片中微小的金属颗粒就像玩一个简单游戏,但提取这些颗粒才是更大的挑战。图片来源:Justin Salem Meyer/Phuc Labs张先生的团队利用现成的计算机视觉系统Roboflow构建了其系统的首个版本。他们通过手动标注数百张颗粒图像(用方框标记颗粒并分类)进行训练,其余工作由Roboflow软件完成。
虽然人工智能是Phuc Labs过滤系统的独特驱动力,但其成功关键在于系统对AI的核心要求极低——只需判断"这是否为金属”。张先生表示,工程师们本质上是在为AI设计一个简单的学习游戏,而AI已在象棋和围棋等游戏中展现出卓越能力。
在AI的其他现实应用中,工程师们发现限制AI的任务范围才是成功关键。自动驾驶系统就是典型例证——尽管始终未能实现早期承诺的完全自主,但在火车、远洋船舶和长途卡车等限制性环境中,部分车辆的自动驾驶已取得进展。
专业化胜过灵活性
Stork博士位于纽约的公司PreciTaste合作的每一家快餐连锁店,都为其工程师和他们构建的AI驱动餐厅管理系统带来了新的挑战。
“每家食品连锁店都有自己的菜单、运营方式、设备和处理事务的方式,”他说。例如,配备机器视觉的壁挂式摄像头阵列可能需要以不同的方式布置,这些摄像头可以从原料离开冰箱的那一刻起追踪订单,直到准备交给顾客。而且,准备步骤的数量在不同餐厅之间可能有很大差异。
PreciTaste表示无法透露哪些连锁店正在考虑采用其技术。但该公司业务发展副总裁Greg Richards表示,他们正在与商业厨房制造巨头Franke合作,在几家全国性的快餐和休闲快餐店中测试其技术。(自20世纪70年代以来,Franke一直是麦当劳的供应商。)
为了使系统正常工作,深度感应摄像头必须经过训练,以识别准备托盘中的原料(例如米饭)剩余多少。知道何时补充取决于需求的变化,而需求又取决于包括天气和当地假期在内的因素,这些因素可能决定人们是否会外出就餐以及他们会点什么。所有这些以及更多信息都被输入到与帮助亚马逊等零售商管理物流网络相同的预测算法中。
当今的人工智能系统缺乏常识,面对意外事件时表现不稳定,且将从一个任务中“学习”到的知识迁移到类似情境的能力极为有限。从这个角度看,可以说当今的人工智能根本不具备智能——正如一位AI先驱所言,它只是“复杂的信息处理”。
这导致工程师和数据科学家不得不为这些脆弱的人工智能提供大量人工辅助,包括规划、硬件工程和编写软件。所有这些努力都是为了构建一个框架,在这个框架内训练AI完成一组被尽可能狭义化的任务。
未来或许会有所不同
艾伦人工智能研究所首席执行官Oren Etzioni表示,像DALL-E、GPT-3和LaMDA这样的AI被称为“基础模型”。目前它们主要还是研究项目。但他补充说,有朝一日这类系统可能会足够灵活,能够解决目前仅属于人类智能领域的问题。
这些AI已经开始多样化并承担更广泛的任务。实现这一点的方式之一是基础模型被注入了海量数据,使其能够同样胜任撰写文章或编写代码等工作。例如,类型小说作家正在使用基于GPT-3的软件来帮助他们快速生产直接上架Kindle的小说。而使用微软Copilot系统的程序员在它自动补全代码时能提高效率。Copilot与GPT-3同源,和那个会写营销文案、小说和文章的“表亲”一样,它也远非完美。
在我们等待这些基础模型在研发实验室之外找到更多应用的同时,针对相关系统的研究正被证明是有用的,这些研究让我们部分实现了目标。
Gong是一个基于云的系统,来自旧金山同名初创公司,它记录并分析销售团队使用的每个沟通渠道。这包括电话、Zoom会议、电子邮件、聊天记录等。然后,它分析所有这些沟通,并提供建议,以便销售人员能达成更多交易。这些建议范围广泛,从成功销售演讲中常出现的词语和短语,到演讲中应该讲多少话——通常建议少说。
Gong支持数十种语言。多年来,这意味着每当公司想要更新其AI模型以提高转录或分析语音的能力时,必须为每种语言甚至方言单独进行更新。Gong首席执行官Amit Bendov表示,这是一项巨大的任务。
然后,在2019年,Meta AI(Facebook母公司Meta Platforms的一个研究部门)发布了一个名为Wav2vec的系统,该系统使用一种新颖的算法快速自学任何语言。Bendov先生表示,使用这个开源代码使Gong的工程师能够构建一个单一系统,能够解析Gong支持的所有语言和方言。Gong现在使用一个不断更新的多语言AI模型来理解公司系统处理的所有内容。
尽管有Meta研究人员的这一助力,Gong仍然使用一个定制的语音识别系统,该系统经过数千小时的录音和人工转录文本的训练。(这包括客户电话录音、《宋飞正传》剧集以及粉丝转录的剧本。)
Gong公司将人工智能应用于相对狭窄的任务,如语音识别,其工程师构建定制系统来实现这一目标的方式,体现了与Phuc Labs的废物过滤技术和PreciTaste的餐厅管理系统相同的工作日常AI原则。
有朝一日,那些引人注目的大型花哨模型可能会适用于这家公司和其他公司的工作——但现在还没有。要实现这一点,可能需要巨大的飞跃,比如赋予AI常识,包括关于现实世界的知识,以便它能够从所摄取的所有数据中提取意义。
“有趣的是,Gong不知道iPad是什么,也不了解我们客户的业务,”Bendov先生说。“它只知道‘当你成功时,这就是所说的内容。’”
欲了解更多WSJ技术分析、评论、建议和头条新闻,请订阅我们的每周通讯。
写信给Christopher Mims,邮箱:[email protected]
刊登于2022年7月23日的印刷版,标题为“傻瓜式AI”。