计算机终于学会倾听 - 彭博社
bloomberg
当维克托·W·祖说话时,他的电脑在倾听。最近,这位麻省理工学院的研究人员变得越来越苛刻,要求机器购买机票并提供街道方向。当祖命令:“给我显示离麻省理工学院最近的中餐馆,”他的电脑调出一张城市街道地图,并用蓝色勾勒出他办公室与位于主街的皇家东餐厅之间的路线。
这与目前市场上可用的技术相比是一个飞跃——也是对未来可能发展的预览。如今许多商业语音识别系统,例如来自马萨诸塞州牛顿的龙系统公司,充其量只是复杂的语音打字机,将口语转化为打印文字。其他系统可以响应预设命令,例如“打开文件”,但即使是这些系统也无法理解语义。
祖和其他研究人员正在证明,语音系统有更高的使命——它们不仅限于听写,还可以“理解”并对口语做出反应。能够做到这一点的机器对技术恐惧者来说可能是天赐之物,他们可以简单地请求他们想要的东西——比如,100股克莱斯勒公司的股票——而无需费心使用电脑键盘、电话按键等。另一方面,这种复杂的系统可能会使许多文员和客户服务代表失业。祖说,语音理解系统“将影响数亿人。”
这种潜力是如此真实,以至于美国电话电报公司最近通过授权来自比利时的Lernout & Hauspie语音产品公司的语音技术来增强自己的工作,该公司提供法语、德语和其他语言的服务。这些系统对没有触摸音电话服务的人至关重要,这意味着“按1以获取更多选项”的请求不适用。虽然80%的美国家庭拥有触摸音服务,但在意大利和比利时等国家,这一比例低至25%到35%。AT&T网络系统的数据网络总监吉姆·克雷格说:“语音识别技术将在全球许多信息服务中变得必不可少。”
如果新的系统确实遍布全球,那么大部分功劳将归功于语音识别与一种在近十年前失宠的人工智能(AI)分支的结合。这个领域,自然语言处理,旨在使计算机能够用英语而不是晦涩的计算机语言进行编程。但由于令人失望的结果,研究在1980年代中期逐渐淡化。早期尝试适应人工智能的努力失败,因为人类的语言实在太不符合语法,计算机无法跟随。
解决方案是放弃标准英语,创建一种源自实际语言的真实语法,基于实际言语中的犹豫、停顿和句子片段。这些新系统并不理解他们所听到的一切。但他们可以根据部分理解采取正确的行动——甚至可以提出问题以澄清某些内容。自三月以来,麻省理工学院的研究人员通过语音与美国航空的Eaasy Sabre预订系统连接,以购买旅行票(表)。卡内基梅隆大学的一个原型甚至可以通过与客户的实时互动进行抵押贷款利息计算。
“词汇识别。”这比几年前那些显得相当愚蠢的语音系统有了很大进步。那些系统要求说话者完美发音,并在单词之间留出空格。这些第一代系统分析声音以识别每个单词,并应用统计学来发现最可能的两个或三个单词组合。他们对语言理解的最接近的尝试是所谓的“词汇识别”,即从句子中提取一个单词或短语并对此采取行动。这就是微软声音系统背后的概念。同样,日本的日本电信电话公司(Nippon Telegraph & Telephone Corp.)的研究人员也开始使用语音识别来提供银行账户余额。
在让计算机理解而不仅仅是识别的努力中,一个热门的研究领域是能够抓取和保留语音片段以获取更多信息的系统。就像一个聪明的游客,他懂得足够的英语来从几个词中推断出一个句子,麻省理工学院的系统会重新措辞问题,以验证其词汇选择并从说话者那里寻求更多细节。这个想法是利用新的对话来更好地理解之前所说的内容。
这种对话的一个附带好处是,人类会原谅不可避免的错误。人们通常不会感到沮丧,而是像对待孩子语言挣扎一样回应这些系统。“如果你能让机器理解即使是片段,只要你保持一个向前推进的对话,人类就会坚持下去,”新泽西州穆里希尔的AT&T贝尔实验室著名语音研究员劳伦斯·R·拉比纳说。
下一个前沿是让系统在工作中学习。博尔特·贝拉内克与纽曼、麻省理工学院和IBM的研究人员正在引导他们的系统自动建立一个理解的储备,基于人们通常的说话方式。计算机将从录音语音中发现的关系中推导出自己的规则,而不是让科学家为理解上下文和意义编写规则。
这些系统可以适应语言的动态变化,麻省理工学院的BBN研究员玛德琳·贝茨说。例如,一旦他们意识到“坏”这个词已经成为“酷”或“时髦”的俚语,他们就可以添加一个新的定义。“我们必须拥有自发学习的系统,因为语言总是会给我们惊喜,”IBM连续语音识别研究的前经理弗雷德里克·杰利内克说。
IBM和其他公司正在追求的一种方法使用统计概率来确定正确的含义。它已经用于识别单词。例如,这些系统对“冰冷”这样的组合给予更高的概率,而对“不太可能的组合”如“我冷”则给予较低的概率。现在,研究人员打赌这样的系统可以检测同一短语的多个含义中最合适的一个。例如,一个包含短语“早晨航班”的旅行预订模型可能会对“中午之前离开”的含义给予更高的概率,而不是“中午之前到达”。
科学家的一个技巧是使用句子图表技术作为推导和维持可能上下文的一种方式。对句子“男孩已经离开”进行图表处理,并将“男孩”存储为名词短语,使计算机能够识别以“他”开头的后续句子的主语为男孩。卡内基梅隆大学计算机科学学院院长Raj Reddy表示,这种技术使计算机“能够保留特定短语,然后将它们拼接在一起以找出有意义的短语”。
时机。SRI国际的另一个努力试图使用音调、响度和时机,正如文本中的标点符号一样,来帮助设定上下文。SRI研究人员希望这种技术能够帮助计算机理解现在对计算机来说令人困惑的句子的意图:例如,句子“我不认为我知道”是表达困惑还是不耐烦?
当然,让这些新系统在家庭或办公室的正常条件下工作将需要巨大的性能提升——以及更便宜的计算机。实验室版本现在使用价值100,000美元的工作站和复杂的麦克风,而不是家庭PC或电话。软件开发商Bolt Beranek的系统在一台具有96兆字节内存的工作站上运行——是良好办公PC的24倍。
尽管它们拥有巨大的能力,但今天的实验系统仍然必须限制在单一主题领域,以免让用户面临过多选择。如果说,一个询问前往洛杉矶航班的人突然想知道那里的天气,这就成了一个问题。麻省理工学院的研究人员喜欢通过问他们的方向定位系统:“我的狗在哪里?”来让系统崩溃,因为它知道街道和建筑。
随着更便宜的计算能力为系统提供额外的智能,人工智能使它们在工作时能够增加其语言能力,这些问题应该会逐渐减少。语音理解可能正是无须用手接触计算机就能畅游信息高速公路的通行证。