帮机器学会中文分词和词性标注——新模型旨在提升科研效率和工业场景应用_风闻
一洗闲愁十五年-2020-07-15 12:51
来源: 科学网 中国科学报 作者:郑金武 时间:2020-7-15
原文网址:http://news.sciencenet.cn/sbhtmlnews/2020/7/356488.shtm
转者按:今天早上有件好玩的事。我开车时习惯让阅读软件给我读书听,今天的内容是关于“八王之乱”那段。其中就有分词问题,譬如:该软件老把“东瀛公/司马腾”断句成“东瀛公司/马腾”,还有“平昌公司/马模”,听着就像俩公司业务代表在那跟着掺合八王之乱似的。今早才笑了一回,这会就看见本文。加强这方面研究与应用,确实有必要啊。
■本报记者 郑金武
“部分居民生活水平”这样的中文短语,人们理解起来没有太大困难。但把这个短语交给机器,是理解成“部分/居民/生活/水平”,还是“部/分居/民生/活水/平”,却是个问题。

封面用图 图文无关
在近日于线上举行的自然语言处理(NLP)领域学术会议ACL 2020上,创新工场大湾区人工智能研究院的两篇入选论文,正是针对中文自然语言处理的类似问题提出新模型,将外部知识(信息)创造性融入分词及词性标注模型,有效剔除了分词“噪声”误导,大幅度提升了分词及词性标注效果。
“中文的分词和词性标注是自然语言处理的基本任务,对于后续的应用和任务处理非常重要。”两篇论文的作者之一、创新工场大湾区人工智能研究院执行院长宋彦告诉《中国科学报》,对于文本分类、情感分析、文本摘要、机器翻译等,分词和词性标注是不可或缺的基本“元件”。
刷新中文分词新高度
中文分词目的是在中文语句的字序列中插入分隔符,将其切分为词。例如,“我喜欢音乐”,在机器中将被切分为“我/喜欢/音乐”。
宋彦介绍,在工业场景中,对中文的分词和词性标注有非常直接的诉求,但当前没有比较好的一体化解决方案,而且中文分词普遍存在歧义和未登录词的难题。
“由于中文存在大量歧义,一般的分词工具在切分句子时可能会出错。”宋彦说。例如机器对前文“部分居民生活水平”的理解;再如“他从小学电脑”,正确分词是“他/从小/学/电脑”,但在机器里会划分出“小学”这种歧义词。
未登录词指的是不在词表,或者是模型在训练的过程中没有遇见过的词,例如经济、医疗、科技等领域的专业术语或者社交媒体上的新词,或者是人名。“这类问题在跨领域分词任务中尤其明显。”宋彦表示。
在论文中,宋彦等人提出了“基于键—值记忆神经网络的中文分词模型”。该模型利用“n元组”提供的每个字的构词能力,通过加(降)权重实现特定语境下的歧义消解,并通过非监督方法构建词表,实现对特定领域的未标注文本的利用,进而提升对未登录词的识别。
在“部分居民生活水平”这一短语中,该模型通过神经网络,学习哪些词对于最后完整表达语意的帮助更大,进而分配不同的权重。像“部分”“居民”“生活”“水平”这些词都会被突出,但“分居”“民生”这些词会被降权处理,从而预测出正确结果。
为了检验该模型的分词效果,论文进行了严格的标准实验和跨领域实验。实验结果显示,该模型在5个数据集上均达到了最好的成绩。
剔除“噪声”误导
宋彦指出,中文分词和词性标注是两个不同的任务。词性标注是在已经切分好的文本中,给每一个词标注其所属的词类,例如动词、名词、代词、形容词。词性标注对后续的句子理解有重要的作用。
在词性标注中,歧义仍然是个老大难问题。在以往的标注工作中,使用外部自动工具获取句法知识是主流方法。在这种情况下,如果模型不能识别并正确处理带有“噪声”的句法知识,很可能会被不准确的句法知识误导,做出错误预测。
针对这一问题,宋彦等人在论文中提出了一个“基于双通道注意力机制的分词及词性标注模型”。该模型将中文分词和词性标注视作联合任务,可一体化完成。
模型分别对自动获取的上下文特征和句法知识加权,预测每个字的分词和词性标签,不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权,从而识别特定语境下不同上下文特征和句法知识的贡献。
例如对“他马上功夫很好”这句话,该模型通过识别这句话的语境和上下文特征,对“马上”二字分开识别成“马/上”,而不是识别成“马上”。
“这样一来,那些不准确的、对模型预测贡献小的上下文特征和句法知识就能被识别出来,并被分配小的权重,从而避免模型被这些有‘噪声’的信息误导。”宋彦说。
该模型在5个数据集的表现也都超过前人的工作,得到了较好的效果。
推动技术开源
中文分词在中国科研领域已经有几十年的历史。最初的中文分词是基于词典构建,词典的好坏会直接影响到最后分析的效果。“这意味着,词典和分词两件事情中间始终有一条鸿沟,尽管词典可以编撰得非常全面,但在分词的时候,因为每一句话都有上下文语境,往往会产生多种不同的切分方法,从而无法有效地在当前语境下对分词结构进行恰当的指导。”宋彦说。
从2003年开始,分词方法出现了新的突破。研究人员提出了打标签的方式,通过给每一个字打词首、词尾、词中的标签,不再需要构建词典,大幅度提升了机器对未登录词的理解效果。
近两年,学界开始研究怎么在打标签的过程中加入外部知识和信息。“我们的两篇文章就是沿着这个路径,将分词结果和自动获得的知识衔接起来,既发挥了神经网络的优势,也利用了知识优势,实现了分词技术上小而有效的改进和突破。”宋彦说。
宋彦表示,研究的主要目的是为了拓展其工业场景的应用,正确分词能够平衡应用开发的效率和性能,同时方便人工干预及后续处理。
目前,这两篇论文的分词和词性标注工具都已经开源,对应的代码和模型向公众开放,以方便学者提升相关领域科研效率和场景应用。
相关论文信息:https://www.aclweb.org/anthology/2020.acl-main.734/
https://www.aclweb.org/anthology/2020.acl-main.735/
《中国科学报》 (2020-07-15 第4版 综合)