哪个模型把我说的这些问题/难点解决了,哪个模型就是天才_风闻
道澜-1小时前
【本文来自《AI竞赛已经到了最危险的时候》评论区,标题为小编添加】
- guan_15790495582221
- 别把所有ai混为一谈,视频生成ai有突破不等于所有ai都要突破。你的想法就像某所学校出了一个影视学科的天才,就马上觉得这所学校各个学科都要出天才一样
你误解了两点。
第一,按你自己的比方来,Sora其实不是一个“影视的天才”,而是“天才在搞影视”。OpenAI体系内真正贴合你这个比方的模型不是Sora,而是DALL·E。Sora的重点不是视频,而是作为底座大模型对物理规则的模拟能力。
搞不清底座模型的区别,把它等同于简单的AIGC,和你自己说的“别把所有ai混为一谈”直接矛盾。
大模型生成的内容开始遵循物理法则,意味着它真正生成的不是视频,而是带有物理效果的某种3D场景,然后把它化成了视频。当然,3D物理计算本来也是NVIDIA的拿手好戏。就像马斯克在X发布的那样,这种技术其实一直在用于自动驾驶,实际上相当于帮助车子在虚拟空间中计算可能的碰撞。
我们现在不知道OpenAI如何做到让任何生成内容都符合某种物理法则,比如那个“帆船玩具在咖啡杯里面冲浪”。但这不是简单的多模态。某种意义上说,让文本、视频、图像乃至音乐串起来,是一回事。让所有串起来的东西符合物理定律,是另一回事。这是两个维度的事情,Sora展现出结合这两个维度的能力,而且一次性达到了完成态。就算是在跑步机反向行走,其实也符合物理法则。
从内容生成的角度,这个能力的重要性就像是平面透视法第一次出现在绘画领域,是爆炸性的。它意味着多模态AIGC算法的基本框架已经完成了,可以说从此以后只剩下算力和样本量的差别。
如果这不算什么,那相当于人类所有的媒体和艺术行业都不算什么。
从生产力的角度,Sora既然可以按物理法则生成3D内容,那么Transformer的好处在于你也可以把它反过来利用,利用大量物联网传感器、VR等等一切现实交互设备采集到的3D内容,反过用于训练。如何利用3D空间的连续信息训练AI一直是老大难,一是缺乏数据,二是缺乏算法(因为大多数AI其实无法抓住其中的物理部分)。Sora把这个问题解决之后,机器人处理空间任务的训练,不再是实验室逻辑,而是平台对平台的逻辑。
第二,不是“马上觉得”,而是早就有一个判断标准在这里:哪个模型把我上面说的这些解决了,哪个模型就是天才。这个问题很早就有了,甚至处理物理效果的AI也早就在NVIDIA哪里,但一直没有人把这两者很好地拼接起来。马斯克说他在自动驾驶这个场景下早就实现了,但这恰恰符合你说的,只是“出了一个驾驶方面的天才”。Sora这个天才是全科的,因为它覆盖几乎所有内容生成场景。