如何“毁掉一个美丽的海滩” - 彭博社
bloomberg
人声可以表示为变化的音频频率模式(如上所示)。语音识别系统将人声与存储在计算机中的已知音节和单词的声音模式进行比较。计算机进行比较——有时是成千上万次——直到找到最接近的模式。
但这种方法有其局限性。例如,单词“wreck”与“recognize”的第一个音节非常相似。当模式如此接近时,计算机必须做出最佳猜测。而且,正如人类听觉的情况一样,正确的选择通常取决于句子或短语的上下文。这就是语言学方法进步的帮助所在。这些方法涉及统计模型,以猜测一个人说“recognize”的可能性与说“wreck a nice”相比有多大。
最终的选择通常取决于应用。例如,如果计算机经过培训用于酒店预订,它会理解顾客说“我想办理入住”。但是,如果它被编程用于接受快餐订单,它可能会将其理解为“我想要两个鸡肉”。