字节跳动新AI模型因能实现照片动画化的深度伪造技术走红 | 南华早报
Ben Jiang
字节跳动,这家科技巨头是抖音的母公司,近日推出了一款人工智能(AI)模型,因其能够将照片和音频片段转化为逼真视频的能力而广受关注,凸显了中国在该领域日益增长的实力。研发团队在论文中表示,该公司的OmniHuman-1多模态模型能生成人物说话、唱歌和动作的生动视频,其质量“显著优于现有的基于音频条件的人类视频生成方法”。AI生成的真人图像、视频和音频常被称为深度伪造技术,这项技术在欺诈案件中愈发常见,同时也被用于娱乐等相对无害的用途。
字节跳动已成为中国最炙手可热的AI公司之一。其豆包应用目前是国内最受欢迎的面向消费者的AI应用。虽然OmniHuman-1尚未向公众开放,但样本视频片段已引发病毒式传播。
一个引人注目的演示是23秒的爱因斯坦演讲视频。TechCrunch的凯尔·威格斯评价该应用的输出效果“好到令人震惊”,并称这可能是“迄今为止最逼真的深度伪造视频”。
该模型凸显了中国开发者在华盛顿试图遏制中国AI发展的背景下仍取得的技术进步。此前,OpenAI刚刚扩大了其视频生成工具Sora的开放范围,该工具于去年12月向ChatGPT Plus和Pro用户开放。