人工智能视频直接取代现实世界?OpenAI发布视频生成大模型Sora!_风闻
军武次位面-军武次位面官方账号-专注于高品质的趣味军事科普,打造男人最爱看的频道1小时前

昨天上午,我刚拿起手机刷社交媒体,就被一则消息震惊得差点一口水全喷出来。美国著名AI初创企业、去年刚发布了ChatGPT的OpenAI,宣布他们发布了自己全新的文生视频大模型Sora,同时还附带发布了一些使用AI生成的连续视频,视频的精细程度令人瞠目结舌。根据OpenAI的说法,他们发布的视频,包括60秒长度、单视频多角度镜头、世界模型等三大特点,总而言之在视频生成效果上,实现了质的飞跃,与先前的视频大模型不可同日而语。

那么,已经贡献出了ChatGPT的OpenAI,此次是通过何种方式,做到了AI视频生成,而且几乎做到了以假乱真;此类AI视频生成,在技术上具备怎样的优势,又可能会对我们的生活、乃至人类社会产生怎样的影响呢?
Sora的技术
先讨论第一个问题,目前OpenAI对于自己的AI连续视频大模型,其底层逻辑与算法还是讳莫如深,只是在社交媒体上宣布,OpenAI解决了一个关键性的“为模型提供多帧预测”的问题。以大伊万的个人理解,这似乎意味着Sora已经具备了通过自我学习,对人类所发出的通用指令语言进行深刻、带有一定情感的理解和建构的能力。

这里我们使用的词语,包括“通用”、“深刻”、“情感”和“建构”,这四个词语可谓是完美地形容出了Sora在人工智能方面所能达到的高度:
“通用语言”,按照OpenAI的演示模式,Sora生成视频的方式非常简单,使用英语(当然也可以用其它语言)对你要生成的场景进行描述即可,完全省略了传统3D视频生成需要复杂的计算机编程过程;
“深刻”,Sora能够理解的人类语言,以及在理解人类语言的基础上对视频进行建构的能力完全超乎想象。毕竟一段视频所要达成的细节和景深,要远远超过文字描述,如果说ChatGPT可以凭借文字描述达成一定的细节,那么要在视频上将这些描述完整地演示出来,复杂和深刻程度呈现出几何级数增长;
“情感”,AI生成的图片和视频在人类情感上一直有巨大的问题,比如目前使用AI制造的妹子图,几乎都存在着面无情感的问题,只有程式化的微笑,以至于被一些AI视频的反对者、认为AI图片不如真人的LSP们称之为“尸块”。而Sora模型呈现出的人物,均带有极其自然的、可以与所处客观环境相适应的、符合逻辑的情感,用《普罗米修斯》里的台词来说,仿佛这些视频中的假人“有了灵魂”,比真人更像真人。

在这几个特征里,大伊万认为最重要的一个特点是“建构”,也就是OpenAI所特别提出的“世界模型”。我们都知道,真实世界是需要符合一定的物理规律的,物体落下来会受到重力的影响落地,风吹拂人的头发,会把人的头发吹起来,我们往地上摔一个易碎物品,物品会摔碎、碎片严格按照牛一定律惯性飞散,碎片的空间分布也要符合物理定律的要求。在这一方面,传统的3D建模,或者AI模型,大伊万到目前为止没有看到一家做的好的,或多或少存在一定的问题,也就是它在“建构”我们的现实世界上依然存在比较大的困难。
而Sora在这一方面,做到了近乎以假乱真,比如从它放出的一段雪地金毛小狗玩耍的AI视频,从它放出的一段小怪兽玩蜡烛的视频,从它放出的一段樱花季漫步日本街头的视频看,几乎完美契合了现实世界物理定律的要求,视频前后的顺序完美地契合了因果论这一定律,具备了堪称完美的逻辑联系,从而做到了对我们所处的这个世界的完美“建构”。且这一“建构”能力根据OpenAI的说法是可以做到类似现实世界的无限细节的,毕竟传统的3D建模再显得真实,也必然受帧数的影响,无法做到无限细节,同时它不仅有近乎真实的观感,还有近乎真实的听觉,这种对世界的建构能力是异常可怕的。

所以总体来看,大伊万的观点,Sora这一AI视频“程序”(很难说它是“程序”,大伊万怎么看都觉得它具备了一定人类的思维和图形建构能力),在进化和学习的能力上近乎恐怖。它不仅学习了“人类一切所能提供的知识”,从底层的物理定律,到现实生活中的客观规律,再到一般的生活场景和细节,还进化到了尝试模仿人类的情感,并能通过“世界建构”这一能力,将以上所有的知识——客观知识,主观情感以恰到好处的方式表现出来,而且表现的近乎完美。因此,它到底是一个弱人工智能还是一个已经初步成型了的强人工智能,如果它的自我学习能力在硬件的支持下迭代进化下去,在极短的时间内,会进化到何等地步?
Sora的影响
因此,和ChatGPT一样,Sora必将会对我们的日常生活产生巨大影响。前者对我们日常生活的影响已经远远不是生成一堆文字垃圾,或者吹牛聊天打屁这么简单了,一些公司已经开始了使用ChatGPT进行计划拟制,极大地节约了文牍工作时间,提高了公司的运转效率,还有比如一些政府机关(就大伊万知道的),已经开始使用ChatGPT、文心一言或类似的AI模型撰写稿件,也同样极大地提高了工作效率。

但是和Sora相比,ChatGPT对人类社会的影响简直就不值一提,Sora出现之后,接下来面临的必然是推广,随着时间的推移,它的成本降低速度会越来越快,普及的速度会以前所未有的速度往前推进。首先影响到的就是目前短视频的创作者,有了Sora的辅助,目前的短视频创作几乎可以做到零成本,只需要一个编辑负责撰写脚本,根本不需要真人出镜即可;而紧随其后的是,Sora后续必然会持续完善,包括延长时间等等,如果能够延长到10分钟,那么现存的中长视频创作者也会受到影响,延长到一个小时以上,那么连电影和电视剧都可以使用Sora进行拍摄,比如《流浪地球3》,原本的制作周期需要四年时间,现在用这种大视频AI平台进行制作,在强大的算力加持下,很有可能在极短的时间内就可以完成出片了。

很多人可能质疑,Sora只会制造虚拟世界和虚拟人物,其实完全不是如此。Sora在视频制作上,是可以将现实和虚拟无缝衔接起来的,毕竟连目前尚不算成熟的AI视频平台,都可以通过吃真人数据,将真人的外貌特征变成AI生成的图片,Sora作为一个数据黑箱,做到这点完全没有问题。比如你可以把你女神的照片输入进去让Sora进行自我学习迭代,输入的数据越多,Sora形成的虚拟人物就越像你的女神,然后再进行动作描述,你就可以看到你的女神在屏幕上动起来了。比如现在的小鲜肉,完全可以通过人体数据采集,做到人体特征高度精细,再把数据输入Sora,自我迭代之后你的偶像就可以在上面演出了。

而且相比真人偶像,这种真人+虚拟的混合式偶像,可以完美地规避小鲜肉要演技没演技的问题,无它,Sora的情感能力和自我学习能力太强大。你可以看到小鲜肉在Sora制作的视频里表现出不亚于老戏骨的演技,无非是数据把小鲜肉的外貌和老戏骨的演出技巧合二为一了而已,当然了,在现实生活中比如粉丝见面会上,小鲜肉们还是要真人出镜的。毕竟,AI视频制作能力再强,它的背后也是需要一个真人的,否则,有可能会出现恐怖谷效应,“越像人的东西”在视频里面说话和行动,反而越会引起人的不安。

从这个角度上,Sora相比ChatGPT,会更快、更深刻地改变我们的生活和人类社会的形态,而接下来更大的改变还在后面,你想不想看到你制定的计划更快的、以图形化的方式表现出来,你想不想看到你的城市建设、道路建设、机场码头等大规模基础设施建设以最为直观的方式运行,对于军人来说,你制定的作战计划你难道不想看看在人工智能辅助下,它真正执行起来是什么样的吗?好办,你把数据喂给Sora,它就可以展现给你看,喂的数据越多它展现的越详尽。

当然这背后是需要算力和存储能力作为支撑的,如果算力足够巨大,我们迟早可以看到一副奇景,整个人类社会可以在超级计算机里,以Sora的形式,完全图形化地展现在我们的面前。那么,真实世界和虚拟世界,到底有怎样的区别,这两个世界到底哪个是真实的,哪个是虚拟的,或者更进一步,我们所处的世界,到底是真实世界,还是另一个文明模拟的Sora世界,我们的思维到底是独立的,还是只不过的从属于Sora的一堆算法和电信号,这就是一个堪称恐怖和细思恐极的问题了。对于这些更深层次的问题,我们现在没法深究,还是先走一步看一步吧,预计2024年,类似于Sora的这种AI视频生成工具会大量出现,大家静观其变。
更多有趣好玩的军事文章、视频、图片、电影、游戏,请关注“军武次位面”微信公众号。打开微信,公众号搜索“军武次位面”点击关注!