外语专业学生会被机器抢走饭碗吗?_风闻
一然-别人笑我太疯癫,我笑他人看不穿2018-09-25 16:22
前几天,科大讯飞被指AI同传造假一事在网上闹得沸沸扬扬。
同传Bell Wang在社交媒体上发文称,其所负责传译的活动现场大屏上展示的实时双语字幕的中文部分,是人工翻译+语音识别的结果,但现场布置会令观众误以为字幕是讯飞产品的机器翻译结果。
除了这次的争议之外,会议AI同传表现不佳的新闻也时常见诸报端。几个月前腾讯的AI同传就在博鳌亚洲论坛2018年年会上出尽洋相。
熬夜观看iPhone XS发布会的网友也被由搜狗同传翻译的实时字幕逗得乐不可支:
对这类AI翻车新闻最喜闻乐见的,莫过于外语专业的学生了——一天到晚担心被AI抢了饭碗,结果一看,你这AI水平根本不怎么样嘛,最后还是得靠我们“人脑智慧”。
可是这次笑过之后,下次再有其它AI机翻产品推出时,我们又要怀疑一次人生,思考自己学习外语专业到底有没有意义。
我们下面以英译中为例。
给出一个外语句子f(你可以联想f代表foreign),机器翻译要找到一个中文句子 e 从而使P(e|f)最大。利用贝叶斯定理,此处P(e|f)可以转换为P(f|e) × P(e)。
其中,P(f|e)由翻译模型负责,对应“信”;P(e)由语言模型负责,对应“达“。
达:P(e)
“达”指通顺流畅。中文语言模型需要让P(通顺的中文句子)大于P(不通顺的中文句子)。此处可以用的语言模型有很多种,我们以最简单的N元(n-gram)模型为例。
如果我们想让P(“我吃饭”)大于P(“我饭吃”),那在我们的一元语言模型中,P(“饭”|“吃”)需要大于P(“吃”|“饭”)。以上操作都只需要中文数据即可完成,还不需要加入英文的数据。
信:P(f|e)
“信”指忠实准确。准确的翻译是由具有高概率的句子组成的。翻译模型由大型双语平行语料库(parallel corpus)训练而成。
一个日英对照的平行语料库
模型会学习中文“吃”在语料库里有多少次被翻译成了英文“eat”。此时我们需要将中文语料与英文语料中相应的词汇对齐(alignment)。

有时一个中文词可能需要对应多个英文词:

有的英文词可能并没有对应的中文词,这类词被称为伪词(spurious words):
这些都是词汇对齐算法需要处理的情况。
“信”不会在乎语序和通顺的问题,它只负责找到两种语言中词汇的对应关系,而把这些对应出来的词语组成通顺的话便是P(e)“达”的任务了。
机器翻译关心的不是语言,是数据
当今机器翻译最大的一个特点是它并不理解文本的意思。
自然语言数据和其他数据对机器来说没有本质上的区别。统计机器翻译只关心概率,而神经机器翻译为什么能用就是一个谜,连研发者自己也解释不清,可以理解为是变魔术。
语言的句法、语义、语篇结构、呼应(如:小明很胖,因为他很能吃)等语言学家关心的角度在机器翻译中没有任何应用。
虽然忽略语言结构目前不影响语言技术的使用,但这也意味着机器翻译并不能通过对语境的语义理解来改善自己的输出,所以也就不能根据文本的领域来选择对应的术语以处理歧义,也就自然没有那个奢侈谈论“雅”的境界了。这也是机器翻译和人工翻译区别最显著的地方。
由于没有语言结构做支持,机器翻译的开发非常依赖语料数据,尤其是内容非常丰富的双语平行语料库。如果我们想要为缺乏丰富的双语平行语料、只有单语语料、甚至缺乏语料库的小语种开发机器翻译要怎么办呢?
既然机器翻译还差得这么远,我们是不是完全无需担心语言科技发展带来的挑战呢?AI翻车,我们是不是应该幸灾乐祸呢?
科大讯飞在回应此次事件的声明中指,发展AI无意用来取代任何职业,所谓”人机耦合”才是未来的方向。
无论我们对讯飞的回应怎么看,“人机耦合”这个概念我们是应当予以肯定的。语言科技的发展对我们每个人的生活都是有益的。不知道各位还记不记得在搜狗拼音输入法诞生前用智能ABC打字的日子。我们早已不习惯那种候选词和想打的词不一样的日子。
机器翻译的发展本身可以帮助翻译工作者更好地完成翻译工作。就像我们从来没有担心过字典会抢了翻译的饭碗一样,机器翻译也可以是同传和译员的得力助手:机器先完成基础的翻译,译员再在它的基础上进行润色和修正,人机互补,合作完成更高质量的翻译。
Google Translator Toolkit 就是一个实用的机器辅助人工翻译的工具
同时,我相信不少语言类学生也有这样一个疑问:既然科技公司开发的是语言科技,难道我们不能参与其中,贡献自己的语言专长吗?
首先,当今的自然语言处理研究融合了统计学、概率学、计算机科学、甚至认知科学领域的知识,但唯独没有语言学。这听起来很不合理,但的确是行业和学界的普遍实践。
所以,语言技术的开发和语言学家的关系还是比较小的。它们仍主要是工程师的任务。而成为自然语言处理工程师要求我们必须有很强的计算机背景,对于广大的文科生来说还是比较难。
但语言学家是可以帮助科技公司处理训练模型所需的语言数据的。为了获得高质量的训练数据,科技公司还是需要语言学家和外语生来协助他们进行审查的。因此,我们可以看到不少创业公司和科技巨头都是热切欢迎语言生的。
不过,如果有意进入科技业,语言类专业学生也需要主动接受编程和算法的训练,这样才有机会从事计算语言学相关的工作。否则即使进入了科技公司,也只能对着Excel表格检查数据,十分枯燥。
语言科技的应用虽然看上去很唬人,但它们仍处于快速成长阶段。不管它最终能否发展成媲美人工的水平,当下语言类专业学生都无需紧张,且应当积极利用语言技术来帮助我们学习和工作。
但同样重要的是,在目前AI热和重视STEM的大环境下,即使我们语言生不会马上失业,也应当警醒。要不断随着科技的发展提升自己,才是应对快速变化的社会的万全之道。