我试图让一个人工智能写这个故事:保罗·福特 - 彭博社
Paul Ford
插图:Jeremy Sorese 为彭博商业周刊绘制
人工智能的时代真是太棒了!谷歌在其开发者 I/O 大会上宣布了一套新的 AI 驱动的产品和服务,其中包括一个名为 Duplex 的产品,它可以为你打电话,听起来就像一个真实的人,这让所有人都感到震惊。特朗普政府与亚马逊、Facebook、微软、Nvidia 和黄油制造商 Land O’Lakes 的代表举行了一种 AI 峰会,显然是因为白宫有太多变动。此外,音乐家 Grimes 和埃隆·马斯克约会的公开消息也是在两人分享了一个关于 AI 的笑话之后传出的。
然而,当人们问我经营的软件公司在机器学习方面做了什么时,我平静地说:“什么都没有。”因为在某种程度上,确实没有什么可做的。
当前的热门话题是机器学习,这是 AI 的一个子领域。在机器学习中,你将普通的数据——图片、电子邮件、歌曲——通过一些专门的软件处理。这些软件构建了一个“模型”。由于模型编码了之前的内容,它是预测性的——你可以向模型输入不完整的数据,它会建议补全的方法。一个简单的例子:任何人,包括你和我,都可以将字母表输入到“递归神经网络”(RNN)中。这会生成一个字母表的模型。现在你执行这个模型(也许通过运行一个脚本),并给它字母“ABC”。如果你的特别训练的神经网络状态良好,它会说“D”。
向上一级:给你的神经网络提供一百万张带标题的图片,然后给它一张没有标题的图片,问它填补缺失的标题。给它无数封带回复的电子邮件,然后给它一封没有回复的邮件,问它该说什么。
由于我们一直在使用软件,我们创造了难以置信的数据量。你无法雇佣足够的人类来筛选这些数据,因此我们转向计算机,尽管它们缺乏判断力,但在活力上弥补了这一点。最大的数据显示者——谷歌、苹果、脸书、微软、亚马逊、金融公司,以及,当然,大黄油——出于多种原因涉足人工智能。但最重要的是,他们拥有所有这些数据,而程序员却不够,无法理解这些数据。机器学习是一个巨大的捷径,是通往新产品和大幅节省的路径。
“观看机器学习模型自我训练就像观看电影剪辑”
出于好奇和一种深刻的乐观懒惰,我开始学习足够的机器学习知识,以便我可以将我写过的所有内容输入神经网络,让它写出一篇听起来像我的文章,甚至只是一个段落。我遇到的第一个障碍是,即使对于一个习惯于困惑的书呆子来说,机器学习也是不透明的。阅读相关资料意味着要重新学习许多词汇,吸收诸如RNN或LSTM(长短期记忆)这样的缩略语。人们谈论温度参数、冷却函数和模拟退火。我是行话的老手,相信我,这真是一个巨大的认识论盛宴。
更糟糕的是,当你在所有机器学习的表面下查看时,你会看到一堆可怕的数学:扭曲的括号、函数和矩阵四处散落。软件常见问题、PDF、Medium帖子都螺旋式地变成方程式。我需要理解sigmoid函数和tanh之间的区别吗?我不能在某个地方转动一个旋钮吗?
这一切让我想起了1990年代的Linux和网络:如果你能跨越术语的墙,就会感受到美好的可能性。当然,学习是值得的,因为它有效。
它之所以有效,是因为机器学习为你编写软件。你将数据输入程序,它就会输出一个新的程序来分类数据。大多数软件开发者甚至不知道模型内部发生了什么。这应该让我们停下来思考,但让硅谷停下来反思就像让小狗放下它的吱吱玩具一样。
这里还有个好消息:机器学习非常慢。我们已经习惯了计算机的极快,能够同时做成千上万的事情——在你聊天的同时播放电影、连接到数十个维基百科页面、在一个窗口中写作、并且不停地发推特(诚然,我可能有问题)。但是当我试图将我所有的写作输入一个机器学习工具包,希望计算机能为我写一些段落时,我的笔记本电脑只是摇了摇头。要制作我的散文模型,至少需要一个晚上,甚至可能几天。至少目前,自己写段落对我来说更快。
但我已经读过教程,不想放弃。我下载并安装了 TensorFlow,这是一个由 谷歌 开发并作为开源软件发布的大型机器学习编程环境。在四处寻找后,我决定下载我的谷歌日历,并将我所有的会议输入TensorFlow,看看它是否能生成新的、听起来真实的会议。正是世界所需要的:一个会议生成器。
不幸的是,我的会议是一堆庞大的事件,名称像“人员配置”、“管道”、“约翰与保罗”和“办公室欢乐时光”。我曾经运行过一个脚本来加载数据,然后又运行了另一个脚本来生成日历邀请。然而,在那次试运行中,我设置了错误的“光束”(天知道那是什么),结果RNN不断地生成“管道”这个词。对此我只能说,公平。销售=我的生活。
“我回到我的笔记本电脑上,运用了一项编程的基本技能:作弊。”
问题是,这看起来可能像是失败。但我给我的机器学习模型输入了几千行文本(在机器学习标准下算是微不足道),它只学会了一个词。我几乎和我认为我幼儿子说“猫”时一样自豪。我回想起艾伦·图灵在1950年的开创性论文中提出的通过计算机模拟儿童的想法。“可以推测,儿童的大脑就像是从文具店买来的笔记本,”他写道。“机制很少,空白的纸张很多。”
改变设置,再试一次。在50个“周期”之后(当程序读取所有数据一次时,就是一个周期——训练一个网络需要很多周期),我让它生成了标题为“书籍”、“Sanananing broces”和“Talking Upgepteeelrent”的会议,尽管我从未与任何人谈论过Upgepteeelrent。经过一百个周期,我得到了像“Broam Shappery”和“DONKER STAR E5K”这样的会议。
许多小时过去了。我如此沉迷于模拟会议,以至于错过了一次真正的销售管道会议。于是我回到家,那里有一台更快的计算机,配备了图形处理单元,或称GPU。GPU已被证明是比特币矿工和机器学习者的秘密武器。这是因为它们擅长同时进行大量计算。普通微处理器就像一个逻辑驱动的香肠制造机;你给它肉(指令),它处理肉并整天生产香肠(输出)。而GPU就像成千上万的香肠研磨机同时工作。哪些问题可以分解成可以同时运行的小任务?计算3D场景中的光照。挖掘比特币。还有机器学习。这些事情可以加速几十倍,甚至上百倍。
可悲的是,尽管我遵循了说明,但我无法让Linux识别我的显卡,这在使用Linux 20年后感觉更像是一个熟悉的特性而不是一个错误。当然,并不是所有的希望都破灭了:我可以在线租用一个TPU,或称张量处理单元,从Google(张量是一个数学概念,涉及事物之间的连接),使用它的云服务。微软公司提供每月50美元的云机器学习服务,包含“100个管理模型”,而亚马逊公司的“弹性GPU”每小时5美分。Google也会以大约相同的价格租用计算机。但如果你想租用Google TPU并快速处理大量机器学习任务,费用将是每小时6.50美元,按秒计费。使用TPU来处理张量是否值得多花130倍的钱?如果你在处理大量卫星图像或MRI——可能是值得的。
我回到我的工作笔记本电脑,运用了编程中一个基本的技能:作弊。我从基于“字符”的神经网络切换到基于“单词”的训练——由于我的宠物神经网络不再学习字母,而只是查看“标记”,我的会议很快变得更加可信。
经过2000个周期,它达到了相对不错的会议:“保罗和保罗!”,“萨罗尼听到”,以及令人畏惧的“签到”,但它仍然主要产生像“坐(内容:提案/吉娜·麦康克)”这样的东西。我开始理解为什么每个人都如此兴奋:总是有一个旋钮可以转动,还有其他东西可以调整,使计算机看起来更具思考性。或者,正如当时的博士生安德烈·卡尔帕西在2015年的一篇文章中所写,递归神经网络的非凡有效性:“我一直在训练RNN,我多次见证了它们的力量和鲁棒性,但它们的神奇输出仍然能让我感到惊喜。”他目前是特斯拉公司的人工智能总监。他的神经网络一定不仅仅是令人愉快。
玩弄机器学习满足了我对理解世界和稍微掌控它的好奇心——将现实简化为输入和输出,并进行重新组合。我想忘记我的家人和公司,直接沉浸在这个云TPU的世界中,不断输入更多数据,让它创造出越来越令人惊讶的模型,我将探索和筛选这些模型。当你运行模型时,它会不断变得更聪明。看着一个机器学习模型自我训练就像看一部电影剪辑。最后,一个机器人洛基跑上费城艺术博物馆的楼梯,举起他的机器人手臂。可惜机器人洛基是基于冰球电影的数据集训练的,而不是拳击,但看着他进入擂台并尝试进球仍然会很有趣。
“至少目前,计算机需要人类,就像我们需要它们一样”
最后,我让它运行了20,000个周期,然后回家,但早上的结果并没有更好。也没有更糟。结果包括:“骑士日”,“快乐销售”,“公司和家庭的跟进”,“闲聊计划个人公交。午餐推介:温迪没有得到”,以及“泰勒聊天甲板”。我不知道这说明了我的生活什么,竟然所有这些都可能是真实的邀请。
我已经达到了在不学习更多知识的情况下能做的极限。我了解到,机器学习非常缓慢,除非你使用特殊设备,而根据我参加的会议,我的生活相当无聊。我接受这两件事。现实是我的语料库不够大;我需要数百万、数十亿次会议来建立一个好的预测模型。但想象一下我能做什么!我完全不知道!给我一个白板!
我在软件行业工作,机器学习是一个新的热门领域,但我并不担心,我们也没有重新调整公司的方向。机器学习很重要,但它还不适合普通人使用(不过可以看看 lobe.ai,看看未来可能的样子)。和所有软件一样,机器学习工具仍然需要人来使它们看起来更好,并教会它们如何运作。至少目前,计算机需要人类,就像我们需要它们一样。
另外,为什么要费心呢?大公司的锁定效应简直荒谬。他们拥有数据、软件和工程师。不想把钱给谷歌?你可以跳到亚马逊的 SageMaker 平台,花费每小时24.48美元,租用一台拥有8个GPU和616GB内存的机器。今天,训练模型的速度很慢;明天,你的洗碗机将会在你的碗碟上训练神经网络,以便更好地清洗它们。
与此同时,对于最大的科技公司来说,几乎没有限制的上升空间。而对于谷歌来说更是如此,谷歌是一家在线广告公司,同时也涉及搜索。它并不是为了成为一家广告公司而成立的,但它确实是,而且它的市场价值约为7500亿美元,因此它必须接受这一点。它拥有大量数据。机器学习在将大数据产品化(一个真实的词)方面非常有效。
所以如果我是谷歌,最糟糕的结果就是我能够利用机器学习所提供的东西,并将其应用于我庞大的广告产品组合,使它们更智能、更好、更有用,并在我收取费用的文化广阔领域中进行更智能、更好的搜索,这包括YouTube、全球地理以及(实际上)整个网络。此外,我可以使使用安卓手机变得更容易,而我也间接控制着这些手机。
与此同时,我,谷歌,将发布TensorFlow,这将使一大批招聘成本高昂的工程师迅速掌握我们内部使用的工具,激发他们来我们庞大规模进行机器学习的强烈愿望,在那里他们可以拥有他们想要的所有TPU小时。多年来,这将累计达到数百亿美元。
但是——仍然在我心中传达谷歌的精神——在我最疯狂的梦想中,我将围绕机器视觉、翻译、自动交易服务完全开辟新的产品线,并创造数百亿美元的价值,所有这一切都在机器学习屈服于不可避免的下行压力,变得过于便宜和简单之前。
我的意思是,即使TPU缩小,世界上的每个人都能进行机器学习,我仍然会拥有数据。那美丽、获取成本高昂的数据。我将把我所有的地图变成自动驾驶汽车,把我所有的对话变成为你进行对话的电话,把我所有的电子邮件变成自动回复。我将为整个机器学习世界提供云基础设施——从那些仅仅是书商的亚马逊那里夺回我应得的东西——因为我的工具将成为标准,我们的数据将是最大的,应用程序将是最庞大的。其中一些将是有问题的。警察可以搜索可能成为罪犯的人,信用机构可以预测将会有不良信用的人,许多国家的国土安全办公室可以筛选他们的人口并制作可疑价值的名单。我们将是整个事情的基础设施。
在最糟糕的情况下,我,谷歌,仅仅会成功得非常出色。在最好的情况下,我将成为一种大胆的新数字现代性的基础技术,在这种现代性中,计算机深深嵌入人类生活中,以我们今天只能瞥见的方式。
我真是个好孩子。