多才多艺的“虚拟主播”，你了解多少？丨智言智语_风闻

中科院之声-中国科学院官方账号-2020-06-24 15:27

2020-06-24

编者按: 智显未来，洞见新知。中科院之声与中国科学院自动化研究所联合开设“智言智语”科普专栏，为你介绍人工智能相关知识与故事，从最新成果到背后趣闻，带你徜徉AI空间，看人工智能如何唤醒万物，让世界变得更美好。

随着近年来音视频生成技术的不断发展，“虚拟主播”逐渐走入人们视野。虚拟主播使用视频生成技术和虚拟现实技术，实现2D/3D虚拟形象代替真人主播，并因其在虚拟客服、远程会议、电影剪辑等现实应用场景中的重要作用而获得了社会各界的广泛关注。

目前，虚拟主播背后的音视频生成技术能够将文稿或者音频自动转化为播音视频，实现了虚拟形象的多语种自动播报，并可以通过虚拟现实等技术展现出来，其中最广为人所知的形象莫过于虚拟Youtuber。据不完全统计, 2018年末在YouTube网站上有超过8000名虚拟主播开展线上活动。

现实需求与技术挑战

虚拟主播技术的关键在于如何控制虚拟形象的面部表情、嘴唇运动与播报声音一致，且动作姿态符合场景，过程高效。从观众的直观感受而言，一个好的虚拟主播，需要口型符合发音习惯，动作姿态符合场景，情绪表达符合说话语境。如果视频或虚拟现实呈现的人表情僵硬、口型也无法与音频对应，那么观众就很难获得舒适的观看体验。而从技术攻关角度而言，研究人员在直观感受之外更加关注整体视频或虚拟现实影像的清晰度以及衔接的连贯程度。这一直以来都是视频生成以及虚拟现实任务中的挑战和难点，亟需科研人员不断探索更好的解决方案。

我国应用现状及前景预测

我国在相关技术上的研究和应用进程启动较早，2017年8月国内市场即出现了首批虚拟主播的身影，近两年也呈现了较好的发展态势。如今，在国内部分网站上活跃的虚拟主播粉丝数量已经达到几十万甚至百万数量级。2018年11月, 搜狗与新华社联合发布了以新华社新闻主播邱浩为原型的全球首个“AI合成主播”；2019年与2020年，升级的站立式虚拟主播“新小萌”、“新小薇”，连续在2019年和2020年全国两会上岗担播。

随着技术的不断发展，在未来“虚拟主播”不仅能在文化娱乐方向全面产能，在服务行业方面也能实现高效交互。除了目前应用较多的娱乐场景，虚拟主播的技术也可以在其他的场景得以应用，如电影配音编辑、抖音对口型视频、全民K歌、虚拟客户服务、虚拟形象视频会议等。

随着其应用场景的不断丰富，一个优秀的虚拟主播需要展现出“多才多艺”：不仅是语音播报，还需要实现自然交互，以替代线上人工客服以及线下的智能终端产品，实现可视化数字人客服产品。同时，该技术未来也可与其他实现方式相结合，如虚拟现实、增强现实等，给用户提供更沉浸的全方位体验、更具有冲击力的感官体验、更加真实的人机交互体验。

图1 新华社“新小萌”

相关技术进展

虚拟主播的实现流程一般包括：视频采集，数据处理，模型训练，形象输出，集成使用等。其具体环节涉及人脸关键点检测、人脸特征提取、人脸重建、深度学习、音视频协同等技术，从而生成如同真实的播音员主持人一样的虚拟形象。在该技术的萌芽阶段，整个流程非常耗时耗力，并且只适用于特定单一任务，无法实现任意形象的调换。比如，如果希望得到一个奥巴马形象的虚拟主播，那么首先是需要采集大量奥巴马演讲数据，之后再进行数据清洗、数据处理、网络训练、性能调优等一系列流程，十分耗时耗力。

目前，该技术主要依赖三维模型或者生成对抗网络实现。三维模型渲染方法一般需要较长时间模型渲染，且此类方法往往存在着生成视频逼真程度低、嘴型不合理、数据丰富性差等问题，并不适宜大规模应用场景。基于生成对抗网络的方法需要经过数据采集、网络训练、性能调优等流程。该过程不仅需要耗费大量计算与人力资源，而且还存在着学习样本不足等问题，最终影响人工智能合成视频的真实程度。

近期，为了满足更加广泛和通用的需求，科研人员将虚拟主播技术更进一步地推向任意人物协同生成技术。这项技术旨在利用一段音频与任意人物的形象生成该人物的说话视频。该过程需要考虑从语音到嘴部运动的一到多映射问题，即同样的说话内容对不同的人物会有不尽相同的嘴部运动，这取决于不同人的口腔结构差异、说话的习惯等。另外，低维度音频与高维度视频之间的数据差异也是该技术无法回避的难点之一。

为解决上述问题，中科院自动化所智能感知与计算研究中心设计了一个非对称式互信息估计器（图2）。如果希望从音频与一张静态图像就能够生成自然、连贯、准确的虚拟主播视频，那么音频在向视频转换的过程中的损耗应该尽可能的小、转换的映射应该尽可能的准确，模型对不同人物说话方式也应该具有一定的想象力。为此，该方法提出了非对称式的互信息估计模块，以构建音视频模态间的约束，最终使得合成视频中人物的虚拟口型更加准确自然。

图2 模型基本流程与结构

结语：

虚拟形象的优势在于它比自然人状态更加稳定，且无需休息，不会出现口误。因此，虚拟主播可以把真人主播从较为简单的（如固定文字的语音播报等）主持活动中解脱出来，使其能够更加专注于对临场应对能力要求较高或需要真人情感的复杂主持任务。由于目前虚拟主播技术缺乏语音情感化、内容理解语义化和个性化，其发展依然受到一定程度限制。相信随着神经科学、心理学、计算机科学和人工智能技术的发展和融合，未来虚拟主播一定可以为广播电视事业和播音主持行业的发展注入新的活力，带来新的变革。

作者：朱昊、宋林森、赫然

来源：中国科学院自动化研究所