字节跳动新AI模型因能实现照片动画化的深度伪造技术走红 | 南华早报

Ben Jiang

2025-02-06

字节跳动，这家科技巨头是抖音的母公司，近日推出了一款人工智能（AI）模型，因其能够将照片和音频片段转化为逼真视频的能力而广受关注，凸显了中国在该领域日益增长的实力。研发团队在论文中表示，该公司的OmniHuman-1多模态模型能生成人物说话、唱歌和动作的生动视频，其质量“显著优于现有的基于音频条件的人类视频生成方法”。AI生成的真人图像、视频和音频常被称为深度伪造技术，这项技术在欺诈案件中愈发常见，同时也被用于娱乐等相对无害的用途。

字节跳动已成为中国最炙手可热的AI公司之一。其豆包应用目前是国内最受欢迎的面向消费者的AI应用。虽然OmniHuman-1尚未向公众开放，但样本视频片段已引发病毒式传播。

一个引人注目的演示是23秒的爱因斯坦演讲视频。TechCrunch的凯尔·威格斯评价该应用的输出效果“好到令人震惊”，并称这可能是“迄今为止最逼真的深度伪造视频”。

该模型凸显了中国开发者在华盛顿试图遏制中国AI发展的背景下仍取得的技术进步。此前，OpenAI刚刚扩大了其视频生成工具Sora的开放范围，该工具于去年12月向ChatGPT Plus和Pro用户开放。