一台能够识别其主人的声音的计算机? - 彭博社
bloomberg
托马斯·富迈是那种说话速度快到一些人,甚至是他的妻子,都很难理解的纽约人。不过在工作中,他桌子上的机器却完全没有问题。作为谢尔登·雷曼兄弟公司的证券交易员,富迈大部分时间都在与个人电脑聊天。当富迈告诉它时,他的电脑会立即买入或卖出大约2500万美元的政府债券。他说,与电脑对话比打字更容易、更快,而且错误率也更低。
能够理解并回应人类语言的电脑几十年来一直是科幻小说的常客。虽然像《2001太空漫游》中HAL电脑那样多才多艺的对话者尚未出现,但最近的进展使得在办公室、家庭、医院和工厂的日常任务中添加更简单的语音识别变得可行。
闲聊。让电脑像人类一样处理语言的梦想让一些世界顶尖的头脑感到沮丧。“当我开始时,我以为这将在10年内解决,”自1972年以来一直在IBM的托马斯·J·沃森研究中心探索语音的拉利特·R·巴尔说。
最近,许多研究人员得出结论,创造能够理解一切的电脑并不是绝对必要的。“让我们有一台只了解一件事的机器,”AT&T贝尔实验室的研究主任劳伦斯·R·拉比纳说。如果一台电脑经过训练能够理解,例如,预订航空公司机票或交易股票的词汇,那么问题就变得简单得多(图表)。
多亏了这种新方法,这项技术终于实现了它的承诺。根据新泽西州塞达诺尔斯的Probe Research Inc.的数据显示,美国语音识别硬件和软件市场今年将超过1亿美元。这比1990年的5000万美元和1980年代中期几乎没有的市场大幅增长。另一个推动增长的重要因素是:几年前需要大型主机的语音识别程序,现在可以在强大但便宜的桌面计算机上运行。
到目前为止,最大的市场是替代手动输入数据的系统。在俄克拉荷马城的美国邮政局分支机构,邮件分拣员从大型袋子中读取邮政编码——每天大约有10,000个——并将数字通过麦克风说出。每个袋子随后被送往正确的地区。因为他们不再需要放下袋子并输入数据,所以他们的分拣速度是以前的四倍。
机器人操作员。虽然替代手动数据输入是目前语音识别的主要用途,但根据马萨诸塞州列克星敦的市场研究公司Voice Information Associates Inc.的说法,另外两种形式将在两年内变得更加流行。第一种是自动化电话任务,例如提供目录帮助或允许消费者直接通过电话订购商品。第二种是听写:将一个人的声音即时转换为计算机文本。
电话公司预计将迎来一场繁荣,无论是在新业务还是成本削减方面。“语音识别对我们来说每年可能价值数亿美元,”Nynex Corp.的科学与技术副总裁Casmir Skrzypczak说。他表示,一些节省将来自通过存储每个电话卡客户的“声音印记”来减少欺诈。由于声音和指纹一样独特,电话欺诈者将会被挫败。
电话公司还计划通过自动化一些人类操作员的工作来节省开支。许多电话公司已经拥有能够理解您在被问及是否支付电话费时的“是”或“否”的计算机。机器人操作员的幽灵让电话公司工会感到愤怒。
尽管如此,电话公司仍在继续前进。1992年,Nynex计划推出语音激活拨号,现在在一些车载电话上可用。在Nynex的计算机经过您的声音训练后,您将能够拿起电话说“妈妈”或“鲍勃”,计算机将拨打他们的电话。
语音识别也预计将提升整体电话使用率。电话公司认为,消费者很快将通过直接营销商拥有的语音识别计算机来下订单,而不是填写邮购表格。安利公司现在为其数千名经销商使用这样的系统,以便全天候下订单。
虽然电话应用可能很快成为最普遍的语音识别形式,但引起最多兴奋的技术涉及将语音转换为文本。圣杯是一个系统,允许人们将他们的个人电脑视为人类秘书,口头告诉它进行听写,然后打印文档的副本。
暂停频繁。两家波士顿地区的公司,Dragon Systems Inc.和Kurzweil Applied Intelligence Inc.,在这一领域走得最远。DragonDictate系统能够识别30,000个单词,可以将几乎您所说的任何内容转换为文本。但它仍然无法处理连续的语音,因此说话者必须在每个单词之间不自然地暂停。这将速度限制在每分钟最多40个单词,慢于熟练的打字员。“它并不是为健全的秘书或记者设计的,”Dragon Systems的总裁珍妮特·M·贝克说。
但是这个9000美元的系统对残疾人来说是个天赐之物。一位顾客是一位名叫大卫·布里斯托的政府律师。尽管他有脑瘫,龙系统使布里斯托能够自己撰写法律文件和其他文档。这个系统在残疾人中反响热烈,以至于IBM不再将自己的技术从实验室中推出,而是基于龙的技术推出了首款商业化的听写产品。
库兹韦尔的细分市场是医疗保健。它的系统在医院中变得流行,医生们忙碌的双手和臭名昭著的糟糕字迹使他们发现,与计算机对话比记笔记更省时且更准确,而后者必须由秘书进行转录。例如,在马萨诸塞州斯普林菲尔德的慈善医院,生成一份急诊室报告曾经需要五天时间。现在,使用库兹韦尔系统,同样的报告可以在不到五分钟的时间内创建和打印。
但是这些大词汇量的系统也有其缺点。除了无法识别连续的语音外,它们还必须经过训练以“学习”每位说话者声音的细微差别。通常需要数小时的时间来收集每位说话者的足够语音样本。在大多数电话任务中,这是不可接受的,因为这些任务要求“说话者独立”。事实上,目前市面上可用的十几种语音系统中,没有一种能够立即理解来自任何人的自然语速的大词汇量语音。
词汇识别。新技术有望克服这些限制。例如,语言学程序可以通过预测名词或动词在句子中可能出现的位置来提高准确性。“词汇识别”通过过滤掉无关的单词或短语,使小词汇量系统变得更加实用。因此,如果你对一个只需要简单是或否的问题回答:“嗯,好吧,是的,谢谢”,计算机能够忽略掉除了关键词以外的所有内容。
尽管最近取得了进展,世界各地的研究人员仍在争相取得新的突破。例如,在日本,几乎每家高科技公司都在疯狂工作。日立有限公司正在实验所谓的神经网络系统,这些系统模拟人脑的学习能力。与此同时,竞争对手NEC公司则试图将语音识别与机器翻译相结合。今年早些时候发布的原型能够理解用日语说出的单词,并将其转换为计算机合成的英语。
专家预测,具有HAL类似能力的系统确实会到来——但可能要到2001年之后。直到那时,斗争仍在继续。“机器应该以人类的方式与人类打交道,而不是以它们自己的方式,”Nynex的Skrzypczak说。如果那样的话,当人们抱怨计算机恐惧症时,至少计算机将能够倾听。
作者:Evan I. Schwartz,来自纽约,Keith Hammonds在波士顿,以及其他报道
有关本特别报告的重印信息,请致电609 426-5494联系《商业周刊》重印部,或写信至《商业周刊》重印部,P.O. Box 457, Hightstown, N.J. 08520。