特斯联首席科学家邵岭提出基于多级表征学习的RVOS新框架
【环球网科技综合报道】图像分割技术是计算机视觉领域的重要研究方向,也是该领域其他应用的一个重要前期步骤。近些年来,随着深度学习技术的逐步深入,图像分割技术有了突飞猛进的发展,尤其在场景物体分割、人体背景分割、三维重建等技术在无人驾驶、增强现实等城市数字化领域得到了广泛应用。
近日,特斯联科技集团首席科学家兼特斯联国际总裁邵岭博士及团队提出具有语义对齐的多级表征学习框架解决指定视频目标分割(Referring Video Object Segmentation, RVOS)中存在的问题,在该领域形成科研突破,且相关研究成果(标题为: Multi-Level Representation Learning with Semantic Alignment for Referring Video Object Segmentation)已被2022年的人工智能领域顶级会议CVPR(国际计算机视觉与模式识别会议)收录。
据介绍,该项研究突破可概括为三个方面:首先,提出了一个基于多级表征学习的RVOS新框架。它通过更丰富、更结构化的视频表征,排除了单帧建模的局限性,保证了更加精准的语言-视觉语义对齐;第二,引入了动态语义对齐(DSA),它在匹配语言语义与不同级别的视觉表征时采用了更有效的自适应对齐;第三,该方法在两个具有挑战性的数据集上实现了引人注目的表现,包括Refer-DAVIS17和Refer-YouTube-VOS。值得注意的是,对于Refer-DAVIS17上的J,该方法比最好的单帧建模方法获得了6.6%的显著提升,同时在两个数据集上实现了53.2FPS的高推理速度。
总体而言,在这项最新研究中,邵岭博士团队提出了一种新颖的多级表征学习框架来处理RVOS任务,通过编码视频、单帧和目标级语义,提供了一个强大且信息丰富的视觉表征;通过引入动态语义对齐机制,对不同模态可以进行自适应融合。这一研究突破可以进一步提升视频目标分割的精确度及效率,使相应技术得以高效应用于城市中包括安防、应急等场景。