这家初创公司正在创造看起来和行为极其真实的虚拟人 - 彭博社
Ashlee Vance
萨加尔 和 BabyX 在灵魂机器公司的奥克兰办公室。
摄影师:伊恩·特赫为《彭博商业周刊》拍摄
在新西兰,人们会做一些奇怪的事情。在奥克兰大学,如果你想在高脚椅上对一个婴儿进行数小时的实验,那是可以的。你甚至可以和她那令人惊讶的健谈的无身头进行对话。
BabyX是马克·萨加尔及其研究人员的虚拟创作,看起来不可思议地真实。这个孩子是基于萨加尔18个月大女儿的图像制作的3D数字渲染,拥有红润的脸颊、温暖的眼睛、满头金发和柔和甜美的声音。当我 去年访问这位计算机科学家的实验室时,BabyX被困在一台计算机里,但仍然能看到我坐在屏幕前和她的“父亲”。为了引起她的注意,我们会喊:“嗨,宝贝。看着我,宝贝,”并挥动我们的手。当她的目光锁定在我们的脸上时,我们会举起一本装满单词(如“苹果”或“球”)和图片(羊、钟表)的书,然后请BabyX读出单词并识别物体。当她答对时,我们会称赞她,她自信地微笑。当她答错时,责备她会让她流泪和闷闷不乐。
如果遇到一个能从书中读出单词的虚拟孩子听起来很奇怪,那么在她连续答对一堆问题并展现出似乎是真正的快乐时,感受到一种父亲的自豪感就更加令人困惑。BabyX和我似乎有了一个时刻,在彼此学习的同时,交换着对人类体验如此熟悉的表情和微妙的暗示。这正是萨加尔通过他的研究和新公司 灵魂机器有限公司所追求的感觉。
“人工智能”这个术语已成为一种涵盖所有的术语,用于描述在封闭环境中进行的无情、神秘的计算。巨大的计算机农场在处理大量数据,利用统计分析我们的互联网历史、驾驶习惯和言语,以生成针对性的广告、更好的地图,以及苹果公司的Siri。这种将人工智能视为越来越多生活中无形阴影的感觉,使得从斯蒂芬·霍金到埃隆·马斯克的人们对这项技术持怀疑态度,因为它往往让人感觉不自然,似乎不够真实。
萨加尔是试图使人工智能人性化的阵营中的领军人物,他表示这项技术有潜力在人与机器之间建立更共生的关系。虽然他并不是第一个提出这个想法的人,但他的方式独特,是他早期作为计算机科学家的经历与后来在好莱坞特效界的经历的结合。他得出的结论是,面孔是穿越“怪异谷”的关键,使虚拟生物感觉真正栩栩如生。Soul Machines的创作在这方面无与伦比,能够以令人震惊的方式扭动和微笑,肌肉和特征的运动与我们惊人相似。它们也有人的声音,已经被合同用于从保险公司到航空公司等各种在线助手。Soul Machines希望生产第一波可爱、可信的虚拟助手,作为客户服务代理,为塑料块如亚马逊的Echo和谷歌公司的Home注入生命。
来源:Soul Machines在日本和美国,拥有类似愿望的公司已经制作出各种各样的虚拟化身、助手和全息图。许多参与这些项目的人表示,只有当人工智能系统和机器人变得更像人类时,它们才能发挥其全部潜力。他们需要拥有记忆,思维认为,加上某种类似情感的东西,才能推动它们寻求自己的体验。
Sagar在这一方面的做法可能是他对该领域最激进的贡献。在他构建的精美面孔背后,是前所未有的生物模型和模拟。当BabyX微笑时,是因为她的模拟大脑对刺激做出了反应,向她的系统释放了一种虚拟的多巴胺、内啡肽和血清素的鸡尾酒。这是Sagar更大追求的一部分,利用人工智能逆向工程人类的工作方式。他想深入情感、欲望和思维的根源,并将这些经验传授给计算机和机器人,使它们更像我们。
“自从我20多岁以来,我一直在思考计算机能否变得智能,能否拥有意识,这些想法在我脑海中燃烧,”他说。“我们想建立一个不仅能为自己学习,而且有动力去学习和与世界互动的系统。因此,我设定了这个疯狂的目标,试图构建一个人类意识的计算模型。”
这里有一件真正让你感到恐慌的事情:他比任何人想象的都要快得多地接近这个目标。自去年以来,BabyX除了其他事情外,还长出了身体,并学会了弹钢琴。它们成长得真快。
与硅谷大多数人不同,萨加尔并不自动服从工程。“当科学家和艺术家看世界时,他们看到的是同样的东西,”他说,“只是用不同的语言和视角来描述。但这一切都是真实的。一切都是相互关联的。”
他很早就有了这个想法。1966年他在内罗毕出生时,他的父亲在东非铁路和港口公司担任系统分析师,编程打孔卡计算机来运行火车基础设施。他的母亲是一位画家,每周四带他去野生动物保护区练习画动物。几年后,家人搬到了新西兰,萨加尔开始帮助父亲在家里进行DIY——修理电视、捣鼓管道、调试汽车。他也不断磨练自己的绘画技巧,特别关注母亲的肖像作品。“她几乎能用三条线捕捉到某人的肖像,准确地把握某人的曲线,”他说。“这让我非常意识到人眼和嘴巴等部位的精确曲线的重要性。”
刊登于 彭博商业周刊的《比你想象的更快》特刊,2017年9月11日。立即订阅。照片由贾斯廷·凯内普斯(Plenty)、巴拉兹·加尔迪(OceanGate)和伊恩·特(Soul Machines)为彭博商业周刊拍摄。萨加尔在国外年轻时利用了这些观察,当时他在街头和餐馆为现金素描肖像。像他所在地区的许多年轻人一样,他在高中和大学之间休息了很长时间。在四年里,他环游世界,绘画、调酒、逐门逐户销售,甚至为澳大利亚军队填沙袋以支付自己的费用。回到新西兰后,他在奥克兰大学获得了工程学博士学位,然后在麻省理工学院进行博士后研究。在马萨诸塞州,他和一些同事建立了详细且栩栩如生的人眼数字模型,供外科医生进行练习。到1998年,好莱坞邀请萨加尔尝试让计算机生成的图像(CGI)看起来不那么像CG。
他的第一个项目是 不可思议的林佩特先生 的重拍,这要求萨加尔的团队将吉姆·凯瑞变成一条能够猎杀纳粹潜艇的会说话的鱼。(是的,真的。原版由唐·诺茨主演。)华纳兄弟娱乐公司在支付了1000万美元的数字凯瑞鱼表情后放弃了该项目,认为制作一部完整的电影成本太高。然而,萨加尔并不想停止对数字面孔的工作。几年间,他将这些生物作为虚拟助手初创公司Life F/X的基础,让他的面孔朗读电子邮件。该公司随着互联网泡沫的破灭而倒闭,因此萨加尔在索尼影业图像工作室(蜘蛛侠2)找了一份特效工作。这使他在电影行业中声名鹊起,并于2004年回到了新西兰。
来源:Soul Machines在 Weta Digital,由 指环王 导演和同胞基维彼得·杰克逊经营的特效公司,萨加尔在七年内获得了两项奥斯卡奖,负责杰克逊的 金刚 重拍和詹姆斯·卡梅隆的 阿凡达 的数字角色创作。他将工程与艺术的结合为他在让金刚和外星人纳美人看起来真实方面提供了优势。多年的肖像绘画和虚拟眼球制作使他对面部细微差别有了独特的见解,这在CGI专家中并不常见,而他的特效软件使得拍摄演员经历一系列情感并自动将表情融合成,比如说,一个巨大的大猩猩,相对容易。“正是这些几乎不可察觉的眼睛和面部运动让我们感受到背后有灵魂,”他说。
感觉自己已经解开了面部的谜题,萨加尔梦想更大。他关注人工智能技术的进步,并看到了将其与艺术结合的机会。2011年,他离开电影行业,回到学术界,看看自己能否超越复制情感和表情。他想深入了解是什么导致了这些情感。他想从内而外开始建模人类。
在奥克兰大学,萨加尔创建了动画技术实验室,并招募了大约十名研究人员。远离Weta——或他在好莱坞大道上的Life F/X办公室,前面有鲍勃·马利的星星——动画团队在一个狭小的房间里工作,房间因他们强大的计算机而始终保持炎热和潮湿。当我去年看到这个空间时,工程师们被投影在墙上的巨大动画面孔包围着,每一个毛孔和眉毛都清晰可见。这些面孔远非无生气,似乎渴望开始对话,随着每一次呼吸,肌肉收缩和放松。
在实验室的后角,萨加尔坐在一堆杂乱的笔记和书籍中,如 心智考古学 和 神经科学中的计算建模原理。正是在那里,他通过一对巨大的计算机显示器让BabyX进行虚拟测试。这个婴儿代表了实验室许多努力的结晶,将萨加尔的面部艺术与最新的人工智能学习和语音软件结合在一起。在那张天使般的面孔下,还有一些开创性且近乎可怕的技术。
萨加尔点击鼠标,剥去了BabyX的皮肤,留下了一对漂浮的眼睛——带着血管——连接着一个精细的脑部结构,脑干从后面延伸下来。这个版本的BabyX仍然可以看到外面的世界并与我们互动。当我们向她展示文字时,处理语言的脑部区域发出紫色光芒。当我们赞美她时,快乐中心则亮起黄色。“研究人员已经建立了许多认知的计算模型和这些部分,但没有人将它们结合在一起,”他说。“这就是我们想要做的:将它们连接起来并放入一个动画身体中。我们正在尝试为人类计算创建一个中央神经系统。”
“我们想知道是什么让我们运转,是什么驱动社会学习,自由意志的本质是什么”
萨加尔再次点击,脑部和眼睛的组织消失,显露出BabyX大脑内神经元和突触的复杂图像——一条超复杂的高速公路,细线和小结在BabyX活动时发出不同强度的光芒。这一层工程的存在归功于萨加尔团队多年研究和综合最新脑部工作原理的研究。基底神经节连接到杏仁体,杏仁体连接到丘脑,依此类推,各自的功能(触觉处理、奖励处理、记忆形成)也同样被列出。换句话说,奥克兰团队建立了可能是现存最详细的人脑地图,并利用它进行了一系列惊人的模拟。
BabyX 不仅仅是一张亲密的图片;她更像是一个实时电路板。虚拟的血清素、催产素和其他化学物质可以被注入到模拟中,激活虚拟神经受体。你可以实时观看 BabyX 的虚拟大脑释放虚拟多巴胺,点亮某些区域,并在她的面部层上产生微笑。所有部分通过一个名为脑语言的操作系统协同工作,这是 Sagar 和他的团队发明的。自从我们去年第一次交谈以来,他的目标并没有变得更加谦虚。“我们想知道是什么让我们运转,是什么驱动社会学习,自由意志的本质是什么,是什么引发好奇心,以及它如何在世界中表现出来,”他说。“关于人类本质的这些奇妙问题,我们现在可以尝试回答,因为技术已经进步了很多。”
来源:Soul Machines在我与 BabyX 的第一次游戏约会后不久,Sagar 收拾好他的实验室和研究人员,将他们搬到了奥克兰标志性的渡轮大楼的顶层,在那里他创办了 Soul Machines,以商业化他的团队的突破。按照他的标准,近期的商业应用相当简单。大约 45 名员工,包括艺术家、人工智能专家、语言专家和程序员,正在构建一系列虚拟助手。在大多数情况下,这些是 Sagar 好莱坞工作的精炼版本,只是它们足够聪明,可以理解口语并回应查询,且比虚拟人更少了令人不安的因素。
Soul Machines 在二月份向世界揭示的第一个面孔是 Nadia,一个漂亮的白人女性,扎着棕色的头发,绿眼睛,涂着粉色口红,声音像凯特·布兰切特。Sagar 的团队为澳大利亚国家残疾保险机构开发了她,该机构计划将她作为该国 50 万残疾人士的在线助手。希望与 Nadia 在该机构网站上互动的人会觉得她比基于文本的聊天机器人或自动电话线路上的菜单树更具亲和力和可用性。
根据 Sagar 的说法,互动是双向的。Nadia 会微微点头以示理解,当感到困惑时则显得疑惑,但她也通过用户 PC 或移动设备上的摄像头解读观众的表情。“如果你看起来困惑,她可以看到这一点并主动引导你,”Sagar 说。“你也可以对这些东西大喊大叫,但她会以最优雅的方式回应。人们擅长处理愤怒的客户,并根据情况调整他们的肢体语言。我们也可以做到这一点。”
Sagar 在 Nadia 的开发中得到了帮助,使用国际商业机器公司的 Watson 技术作为她语音识别的基础。他的公司招募了布兰切特花费 15 小时录制短语,以便软件能够将其转化为更广泛的回答。Nadia 已经在 10,000 人身上进行了测试,他们教会了她如何完善她的回答以及在某些时刻表现出的情感。澳大利亚政府预计她将在明年初开始全职工作。
Soul Machines 正在与航空公司、医疗保健提供商和金融服务公司进行 10 项试验。在早期阶段,该公司的最大考验将是用户是否觉得其软件足够真实,能够与人类对话一样令人满意。即使是与聊天机器人成功的客户关系体验,即机器人给出正确答案的情况,往往也会让人感到不满,因为他们觉得自己被转交给了一个低劣的存在。
来源:Soul Machines目前,Sagar的团队正在以一次性的方式开发其首批虚拟助手,有点像咨询公司。“我们今天的大多数客户将他们的第一个数字员工视为品牌的延伸,”首席商务官Greg Cross说。“他们正在经历一个设计过程,这个过程类似于为电视广告活动选择发言人。”
为了使其过程更容易重复,Soul Machines正在编写角色创建软件,将开发简化为一系列简单的菜单。通过滑动几个旋钮,Sagar可以将一个年轻、瘦弱的头像转变为一个年长、丰满的头像,并改变肤色和其他特征。每个菜单生成的结果看起来都像是电影制作或视频游戏开发者可能花费数百万美元和数月时间创造的角色。公司已支付演员录制数百小时的独白,组建了一个音频库,可以用来为角色配音,例如一个为斯堪的纳维亚客户设计的巨魔,或一个将在儿童教育网站上使用的动画拟人化草莓。
随着技术的成熟,Cross预计它将进一步走出PC屏幕。汽车制造商已经在考虑在其自动驾驶汽车的屏幕上由角色回答乘客的问题。同样,亚马逊、苹果和谷歌母公司Alphabet也可能希望为其语音激活的虚拟助手配上面孔。“我们也在探索创建数字名人的想法,”Cross说。“如果你可以将一位顶级录音艺术家或运动员转化为数字版本,让粉丝以一种非常情感智能的方式与之互动,会怎么样?”
像克罗斯一样,萨加尔常常显得对他的演讲可能听起来令人毛骨悚然毫无察觉。八月份,当我拜访灵魂机器公司,查看萨加尔最新的创作时,他穿着一件T恤,上面描绘了两个胎儿共享一个子宫,头对脚地排列成一种阴阳姿势。其中一个胎儿是人类;另一个则有着明显的人工大脑,里面布满了电路。他想把这个设计作为公司的标志。去年十一月给他750万美元的投资者说不。
萨加尔给人的感觉像是一个富有远见的学者,有时几乎显得着迷。问一个基本问题,你很可能会得到一个热情洋溢的30分钟回答,内容涉及人工智能、艺术、心理学和柏拉图。很难想象这个人和汽车保险公司的人交谈,试图说服一个穿西装的高管接受虚拟化身,而不让事情变得奇怪。但萨加尔说他喜欢商业部分,因为这帮助他更好地理解人们对他的虚拟化身的喜好和厌恶,并深入了解人际互动的细节。
BabyX的5.0版本已经远远超出了最初的漂浮头部。BabyX现在有一个完整的身体,坐在高脚椅上,腿来回晃动,而她的手则在寻找可以做的事情。接下来的部分,你也想坐下来,抓一个安抚奶嘴。
来源:灵魂机器萨加尔的软件允许他在BabyX面前放置一个虚拟的玻璃面板。在这个玻璃上,他可以投影任何东西,包括一个互联网浏览器。这意味着萨加尔可以在BabyX面前展示来自虚拟钢琴网站的钢琴键盘或来自Sketch.IO的绘图板,看看会发生什么。结果证明,她的反应和其他孩子一样:她试图用手拍打键盘或涂鸦出一幅粗糙的画作。
是什么促使BabyX去敲击琴键?好吧,当她的一只手碰到钢琴键时,会产生一种声音,软件将其转化为波形并输入到她的生物模拟中。然后,软件在BabyX的听觉系统内触发一个信号,模仿真实婴儿耳蜗中会振动的毛发。与此同时,系统在她的手指中激活虚拟触觉感受器,并在她的模拟大脑中释放一剂数字多巴胺。“第一次发生这种情况时,这是一个巨大的新奇,因为婴儿在触摸某物时没有过这种反应,”Sagar说。“我们正在模拟发现的感觉。这改变了感觉运动神经元的可塑性,从而允许在那一刻发生学习。”
婴儿会像你的非莫扎特婴儿一样对钢琴感到厌倦吗?确实如此。当她敲击琴键时,脑内感受器中模拟的多巴胺量减少,BabyX开始忽视键盘。
Sagar与安妮特·亨德森(Annette Henderson)合作,她是一位在奥克兰经营婴儿研究实验室的心理学家,以推动这项技术的发展。亨德森拍摄了数百小时婴儿与看护者之间的互动,同时进行不同的实验,例如教婴儿一个新词或忽视他几分钟。儿童的反应数据——笑声、哭声、手部动作、姿势变化——正在数字化,以创建更为准确的行为模型。“我们知道确切的动作、微表情和反应,”Sagar说。“当我们为BabyX构建下一个模型时,我们应该能够生成相同的行为。”
大约在18个月后,亨德森计划使用升级版的BabyX与看护者和其他孩子进行实验。她认为虚拟婴儿是一种以前无法想象的方式来测试新理论,通过随意改变成千上万的变量——如果婴儿不微笑,如果她不与你对视,等等。她说,研究虚拟孩子对刺激的反应,可能帮助研究人员更好地理解如何与那些不太社交的血肉之躯的孩子互动。
作为回报,萨加尔得以推进他理解人性的追求。“我们可以记录母亲与虚拟婴儿的互动,并不断为BabyX添加功能,直到她变得如此逼真,以至于我们获得自然的互动,”他说。“到那时,我们就达到了我们的目标。”
然后呢?
来源:Soul Machines世界许多顶尖的脑研究者对萨加尔和其他人工智能乐观主义者所构建的模拟类型印象深刻。“我与这些家伙花的时间越来越多,”加州大学欧文分校的神经生物学教授加里·林奇说。“这一切都是真实的。这不再是一个学术项目。”林奇认为,像萨加尔这样的工作的一个问题是,最终结果——一个真正有意识的虚拟婴儿——是如此复杂和独特,以至于它不是人类行为的有用镜子。“它会做一些没人曾经想过的事情,”他说。“它会走出门,说,‘再见。我有事情要做。’”
其他研究人员警告说,Sagar可能通过他可爱而复杂的面孔误导人们对技术现状的理解。“西方人往往想要将这些东西拟人化,我们可能会对此感到非常着迷,”加州大学伯克利分校的工业工程与运筹学教授Ken Goldberg说。“如果你让它看起来像人类并表现得像人类,你几乎有双重责任去清楚地说明它的局限性。”他赞扬Sagar进行这种类型的研究,但不希望人们对这种技术的短期利益抱有虚假的希望。Sagar有一种倾向,谈论BabyX时仿佛它已经能够做到他所梦想的一切。
虽然假设Sagar的最终目标是一个将人类与机器紧密结合的世界似乎合理,但他常常在周末到荒野中远离电脑,并且不让他的孩子在晚上使用互联网。这并不是人们期望从一个尽可能快地推动人工智能进入未知领域并希望获得最佳结果的人身上看到的行为。在我们的一次谈话中,我指出像弗兰肯斯坦这样的故事通常对人类的结局并不好。“我们不是在挖掘尸体,”他说,巧妙地避开了扮演上帝故事的真正道德。
你不必偏执就能相信人工智能的崛起可能对人类产生相当糟糕的后果。计算机可能开始为自己做决定,而这些决定可能包括对人类有害的事情。BabyX一会儿在网站上吃虚拟布丁杯,下一刻,她就把你的房子卖掉以寻求个人娱乐,或者决定她应该掌控一切。
Sagar 对于 AI 可以从我们身上学到的课程以及反之亦然保持乐观。“我们正在寻找像合作这样的事物的基础,而合作是人性中最强大的力量,”他说。在他看来,一个他教会了合作的智能机器人将更容易与人类合作和建立关系,并且不太可能奴役我们或为能量收割我们的身体。“如果我们真的要利用 AI,我们需要学会与机器合作,”他说。“未来是一部电影。我们可以让它变得反乌托邦或乌托邦。”让我们都为一部温馨的喜剧祈祷。