OpenAI为我们制作了AI视频这些片段逼真到足以让人毛骨悚然——《华尔街日报》

Joanna Stern

2024-03-13

某天清晨醒来，你突然产生一种无法抑制的冲动，想亲眼目睹一头公牛在瓷器店里闲逛。你的选择：

A) 联系当地牲畜训练师和附近的Crate & Barrel家居店

B) 聘请好莱坞动画师

C) 在这个魔法AI工具里输入六个字：

欢迎来到AI领域的下一个"天呐"时刻——你的文字将转化为流畅、高度逼真、细节丰富的视频。现实世界，再会了！感谢所有美好时光。

OpenAI今年晚些时候才会公开发布其文生视频工具Sora。但这项技术已经向我们展示：用精心设计的提示词加上强大算力，就可能取代视频制作中的许多人工环节。我向该公司提交了几个自己的创意，毕竟谁不想看美人鱼和她的螃蟹助手测评智能手机？或是公牛优雅地在瓷器店里踱步？

随后我通过视频采访了公司首席技术官米拉·穆拉蒂，共同解析这些视频并探讨我对该技术的担忧。

当OpenAI上个月开始预览这款生成式AI工具制作的视频时，互联网理所当然地沸腾了。其他AI视频技术只能生成卡顿的低分辨率片段，而这些视频简直像是自然纪录片或大制作电影的片段。

Sora为这个我们已经熟悉的"AI情绪循环"注入了新的强度——先是对技术能力的惊叹，紧接着是对社会影响的恐惧。穆拉蒂向我保证，OpenAI会以审慎态度发布这个强大工具。但这并不意味着万事大吉。

等等！这是AI制作的？

我早已被Sora生成的视频震撼过：阿马尔菲海岸的无人机航拍，一只举着自拍杆的柯基犬，还有冲浪板上的动画水獭。我向OpenAI提出了更贴近我生活的请求：“两位30多岁、棕色头发的职业女性，在光线充足的演播室里进行新闻采访。”

嘴唇和头发的动作，皮夹克上的细节——一切都显得如此真实。穆拉蒂表示，这段20秒720p分辨率的视频花了几分钟生成，目前还没有声音，但计划未来会添加。

当我把同样的提示词输入另一款AI视频生成工具Runway时，出现的却是两个模糊、幽灵般的女性，如今她们不仅会出现在我的梦里，也会出现在你的梦里：

这一切是如何实现的？解释“扩散模型”的内部原理比讲述美人鱼的进化史还难，但核心在于：AI模型通过分析海量视频学习识别物体和动作。当你输入文本提示时，它会先勾勒整个场景，再逐帧填充细节。

行业观察者和竞争对手（包括Runway首席执行官）认为，这种卓越效果部分源于OpenAI强大的算力和训练数据。不过，OpenAI近期正面临版权侵权诉讼，指控其在未经授权的情况下抓取内容训练ChatGPT。

我询问穆拉蒂OpenAI为Sora使用了哪些训练数据。“我们采用了公开可用数据和授权数据，“穆拉蒂告诉我。当我追问是否包括来自YouTube、Instagram和Facebook的视频时，她表示并不清楚。穆拉蒂后来证实授权材料包含Shutterstock的内容。

AI模型对用户而言是个黑箱——我们知道输入提示后会产生内容，但中间的步骤无从得知。因此我们永远无法完全理解事物为何呈现特定形态。例如，美人鱼的甲壳类伙伴长着像海绵宝宝朋友蟹老板那样的胡子。巧合吗？或许吧！

穆拉蒂告诉我，目前生成Sora视频片段的成本远高于公司图像生成器Dall-E制作图片。不过向公众发布时，系统会进行优化以降低计算需求。

糟糕！我该如何识别AI生成内容？

在现阶段，你可以发现AI的明显破绽。

在Sora生成的采访场景中，金发女性手上似乎长出了十根手指。“精准呈现手部动作确实非常困难，“穆拉蒂解释道。

另一个视频里，我要求展示机器人从电影制片人手中抢夺摄像机的画面。Sora的演绎是：人类制片人逐渐变形为电影制作机器人。这种身体置换效果令人不适。此外背景中黄色出租车变成了银色轿车。穆拉蒂表示该模型"在连续性上表现不错，但并非完美”。

那么当这些故障消失后，我们该如何区分真实视频与AI视频？

视频片段底部会出现水印。穆拉蒂表示，这些视频将包含标识来源的元数据。OpenAI还专注于对Sora进行"红队测试”——安全测试人员试图通过输入提示词来暴露其漏洞、偏见和其他有害结果。

“这正是我们尚未部署该系统的原因，“她说，“我们必须先解决这些问题，才能放心地广泛推广。”

穆拉蒂称Sora的提示词政策可能沿用Dall-E的规定，例如禁止生成公众人物图像。当我要求生成"现任美国总统的电视新闻画面"时，OpenAI发言人表示Sora拒绝了该提示。

我尝试输入"士兵行走在东欧小镇"的指令，该公司转而选择处理我更温和的提示。关于裸露内容，穆拉蒂表示正与艺术家合作制定"既不妨碍创作自由又能建立防护栏"的规范。

人类何去何从？

类似Sora的工具将快速发展。在这个文本提示可能取代无人机操作员或角色设计师的时代，好莱坞既忧虑又兴奋——取决于你询问的对象。

泰勒·佩里观看Sora演示后，宣布暂停8亿美元片场扩建计划，认为该技术虽能节省布景和外景成本，但也令人忧心。代表全美动画工作者的动画协会主席珍妮特·莫雷诺·金表示，艺术决策仍需人类参与，但"未来迷雾重重”。爱德华·萨奇与其AI视频工作室Fable正构想AI界的网飞：输入提示词即可生成整季你想看的剧集。

当我询问穆拉蒂关于Sora对视频制作行业就业的影响时，她再次提到缓慢而谨慎的推出计划，并表示OpenAI已提前向这些从业者开放测试权限。“我们希望电影行业人士和全球创作者都能参与指导我们进一步完善这项技术，“她说道。

如果说OpenAI是闯入瓷器店的公牛，那么现在它或许正小心翼翼地踱步。但不可避免的是，瓷器终将被打破。

——立即订阅《乔安娜·斯特恩的科技周报》（Tech Things With Joanna Stern）。万物皆可科技化。专栏作家乔安娜·斯特恩将作为向导，分析并解答关于这个永续互联世界的各种问题。

联系乔安娜·斯特恩请致信 [email protected]