百度TextMind跨模态文档模型ERNIE-Layout刷新4项任务纪录
*【环球网科技综合报道】*近日,百度提出跨模态文档理解模型ERNIE-Layout,首次将布局知识增强技术融入跨模态文档预训练,在4项文档理解任务上刷新了记录。

据了解,对多模态文档(如文档图片、PDF文件、扫描件等)的深度理解和分析,是文档智能的核心能力。文档智能应用行业包括金融、保险、能源、物流、医疗等,常见的应用场景包括财务报销、招聘简历、企业财报、合同文书、动产登记证、法律判决书、物流单据等。针对不同行业和应用场景的需求,文档智能的技术方向囊括文档抽取、文档解析、文档比对等。
文档视觉问答DocVQA是跨模态的文档抽取任务,要求文档智能模型在文档中抽取能够回答文档相关问题的答案,需要模型在抽取和理解文档中文本信息的同时,还能充分利用文档的布局、字体、颜色等视觉信息,这比单一模态的信息抽取任务更具挑战性。
正是由于文档视觉问答任务需要结合视觉解析、布局分析、语义理解、信息抽取等一系列AI技术,是综合AI能力的集大成者,其技术挑战与实用价值正得到越来越多的重视。
ERNIE-Layout以世界领先的语义理解模型ERNIE为底座,创新提出布局知识增强技术,对文本、图像、布局等信息进行联合建模,创新了该任务的世界记录,缩小了机器在文档理解能力上与人类的差距。
对文档理解来说,文档中的文字阅读顺序至关重要,目前主流的基于OCR(Optical Character Recognition,文字识别)技术的模型大多遵循“从左到右、从上到下”的原则,然而对于文档中分栏、文本图片表格混杂的复杂布局,根据OCR结果获取的阅读顺序多数情况下都是错误的,从而导致模型无法准确地进行文档内容的理解。
据介绍,人类通常会根据文档结构和布局进行层次化分块阅读,受此启发,百度研究者提出在文档预训模型中对阅读顺序进行校正的布局知识增强创新思路。TextMind平台上业界领先的文档解析工具(Document Parser)能够准确识别文档中的分块信息,产出正确的文档阅读顺序,将阅读顺序信号融合到模型的训练中,从而增强对布局信息的有效利用,提升模型对于复杂文档的理解能力。
基于布局知识增强技术,同时依托文心ERNIE,百度研究者提出了融合文本、图像、布局等信息进行联合建模的跨模态通用文档预训练模型ERNIE-Layout。如下图所示,ERNIE-Layout创新性地提出了阅读顺序预测和细粒度图文匹配两个自监督预训练任务,有效提升模型在文档任务上跨模态语义对齐能力和布局理解能力。