人工智能视频直接取代现实世界？OpenAI发布视频生成大模型Sora！_风闻

军武次位面-军武次位面官方账号-专注于高品质的趣味军事科普，打造男人最爱看的频道1小时前

2024-02-18

昨天上午，我刚拿起手机刷社交媒体，就被一则消息震惊得差点一口水全喷出来。美国著名AI初创企业、去年刚发布了ChatGPT的OpenAI，宣布他们发布了自己全新的文生视频大模型Sora，同时还附带发布了一些使用AI生成的连续视频，视频的精细程度令人瞠目结舌。根据OpenAI的说法，他们发布的视频，包括60秒长度、单视频多角度镜头、世界模型等三大特点，总而言之在视频生成效果上，实现了质的飞跃，与先前的视频大模型不可同日而语。

那么，已经贡献出了ChatGPT的OpenAI，此次是通过何种方式，做到了AI视频生成，而且几乎做到了以假乱真；此类AI视频生成，在技术上具备怎样的优势，又可能会对我们的生活、乃至人类社会产生怎样的影响呢？

Sora的技术

先讨论第一个问题，目前OpenAI对于自己的AI连续视频大模型，其底层逻辑与算法还是讳莫如深，只是在社交媒体上宣布，OpenAI解决了一个关键性的“为模型提供多帧预测”的问题。以大伊万的个人理解，这似乎意味着Sora已经具备了通过自我学习，对人类所发出的通用指令语言进行深刻、带有一定情感的理解和建构的能力。

这里我们使用的词语，包括“通用”、“深刻”、“情感”和“建构”，这四个词语可谓是完美地形容出了Sora在人工智能方面所能达到的高度：

“通用语言”，按照OpenAI的演示模式，Sora生成视频的方式非常简单，使用英语（当然也可以用其它语言）对你要生成的场景进行描述即可，完全省略了传统3D视频生成需要复杂的计算机编程过程；

“深刻”，Sora能够理解的人类语言，以及在理解人类语言的基础上对视频进行建构的能力完全超乎想象。毕竟一段视频所要达成的细节和景深，要远远超过文字描述，如果说ChatGPT可以凭借文字描述达成一定的细节，那么要在视频上将这些描述完整地演示出来，复杂和深刻程度呈现出几何级数增长；

“情感”，AI生成的图片和视频在人类情感上一直有巨大的问题，比如目前使用AI制造的妹子图，几乎都存在着面无情感的问题，只有程式化的微笑，以至于被一些AI视频的反对者、认为AI图片不如真人的LSP们称之为“尸块”。而Sora模型呈现出的人物，均带有极其自然的、可以与所处客观环境相适应的、符合逻辑的情感，用《普罗米修斯》里的台词来说，仿佛这些视频中的假人“有了灵魂”，比真人更像真人。

在这几个特征里，大伊万认为最重要的一个特点是“建构”，也就是OpenAI所特别提出的“世界模型”。我们都知道，真实世界是需要符合一定的物理规律的，物体落下来会受到重力的影响落地，风吹拂人的头发，会把人的头发吹起来，我们往地上摔一个易碎物品，物品会摔碎、碎片严格按照牛一定律惯性飞散，碎片的空间分布也要符合物理定律的要求。在这一方面，传统的3D建模，或者AI模型，大伊万到目前为止没有看到一家做的好的，或多或少存在一定的问题，也就是它在“建构”我们的现实世界上依然存在比较大的困难。

而Sora在这一方面，做到了近乎以假乱真，比如从它放出的一段雪地金毛小狗玩耍的AI视频，从它放出的一段小怪兽玩蜡烛的视频，从它放出的一段樱花季漫步日本街头的视频看，几乎完美契合了现实世界物理定律的要求，视频前后的顺序完美地契合了因果论这一定律，具备了堪称完美的逻辑联系，从而做到了对我们所处的这个世界的完美“建构”。且这一“建构”能力根据OpenAI的说法是可以做到类似现实世界的无限细节的，毕竟传统的3D建模再显得真实，也必然受帧数的影响，无法做到无限细节，同时它不仅有近乎真实的观感，还有近乎真实的听觉，这种对世界的建构能力是异常可怕的。

所以总体来看，大伊万的观点，Sora这一AI视频“程序”（很难说它是“程序”，大伊万怎么看都觉得它具备了一定人类的思维和图形建构能力），在进化和学习的能力上近乎恐怖。它不仅学习了“人类一切所能提供的知识”，从底层的物理定律，到现实生活中的客观规律，再到一般的生活场景和细节，还进化到了尝试模仿人类的情感，并能通过“世界建构”这一能力，将以上所有的知识——客观知识，主观情感以恰到好处的方式表现出来，而且表现的近乎完美。因此，它到底是一个弱人工智能还是一个已经初步成型了的强人工智能，如果它的自我学习能力在硬件的支持下迭代进化下去，在极短的时间内，会进化到何等地步？

Sora的影响

因此，和ChatGPT一样，Sora必将会对我们的日常生活产生巨大影响。前者对我们日常生活的影响已经远远不是生成一堆文字垃圾，或者吹牛聊天打屁这么简单了，一些公司已经开始了使用ChatGPT进行计划拟制，极大地节约了文牍工作时间，提高了公司的运转效率，还有比如一些政府机关（就大伊万知道的），已经开始使用ChatGPT、文心一言或类似的AI模型撰写稿件，也同样极大地提高了工作效率。

但是和Sora相比，ChatGPT对人类社会的影响简直就不值一提，Sora出现之后，接下来面临的必然是推广，随着时间的推移，它的成本降低速度会越来越快，普及的速度会以前所未有的速度往前推进。首先影响到的就是目前短视频的创作者，有了Sora的辅助，目前的短视频创作几乎可以做到零成本，只需要一个编辑负责撰写脚本，根本不需要真人出镜即可；而紧随其后的是，Sora后续必然会持续完善，包括延长时间等等，如果能够延长到10分钟，那么现存的中长视频创作者也会受到影响，延长到一个小时以上，那么连电影和电视剧都可以使用Sora进行拍摄，比如《流浪地球3》，原本的制作周期需要四年时间，现在用这种大视频AI平台进行制作，在强大的算力加持下，很有可能在极短的时间内就可以完成出片了。

很多人可能质疑，Sora只会制造虚拟世界和虚拟人物，其实完全不是如此。Sora在视频制作上，是可以将现实和虚拟无缝衔接起来的，毕竟连目前尚不算成熟的AI视频平台，都可以通过吃真人数据，将真人的外貌特征变成AI生成的图片，Sora作为一个数据黑箱，做到这点完全没有问题。比如你可以把你女神的照片输入进去让Sora进行自我学习迭代，输入的数据越多，Sora形成的虚拟人物就越像你的女神，然后再进行动作描述，你就可以看到你的女神在屏幕上动起来了。比如现在的小鲜肉，完全可以通过人体数据采集，做到人体特征高度精细，再把数据输入Sora，自我迭代之后你的偶像就可以在上面演出了。

而且相比真人偶像，这种真人+虚拟的混合式偶像，可以完美地规避小鲜肉要演技没演技的问题，无它，Sora的情感能力和自我学习能力太强大。你可以看到小鲜肉在Sora制作的视频里表现出不亚于老戏骨的演技，无非是数据把小鲜肉的外貌和老戏骨的演出技巧合二为一了而已，当然了，在现实生活中比如粉丝见面会上，小鲜肉们还是要真人出镜的。毕竟，AI视频制作能力再强，它的背后也是需要一个真人的，否则，有可能会出现恐怖谷效应，“越像人的东西”在视频里面说话和行动，反而越会引起人的不安。

从这个角度上，Sora相比ChatGPT，会更快、更深刻地改变我们的生活和人类社会的形态，而接下来更大的改变还在后面，你想不想看到你制定的计划更快的、以图形化的方式表现出来，你想不想看到你的城市建设、道路建设、机场码头等大规模基础设施建设以最为直观的方式运行，对于军人来说，你制定的作战计划你难道不想看看在人工智能辅助下，它真正执行起来是什么样的吗？好办，你把数据喂给Sora，它就可以展现给你看，喂的数据越多它展现的越详尽。

当然这背后是需要算力和存储能力作为支撑的，如果算力足够巨大，我们迟早可以看到一副奇景，整个人类社会可以在超级计算机里，以Sora的形式，完全图形化地展现在我们的面前。那么，真实世界和虚拟世界，到底有怎样的区别，这两个世界到底哪个是真实的，哪个是虚拟的，或者更进一步，我们所处的世界，到底是真实世界，还是另一个文明模拟的Sora世界，我们的思维到底是独立的，还是只不过的从属于Sora的一堆算法和电信号，这就是一个堪称恐怖和细思恐极的问题了。对于这些更深层次的问题，我们现在没法深究，还是先走一步看一步吧，预计2024年，类似于Sora的这种AI视频生成工具会大量出现，大家静观其变。

更多有趣好玩的军事文章、视频、图片、电影、游戏，请关注“军武次位面”微信公众号。打开微信，公众号搜索“军武次位面”点击关注！