sora的视频输出没什么好惊艳的，但sora“讲的故事”很有趣_风闻

天天看-有没有新鲜事…1小时前

2024-02-19

【本文由“加东123”推荐，来自《Sora视频生成是AIGC技术想象力的最后一次惊艳，之后的AGI是真正的困难》评论区，标题为小编添加】

Lawrenceglow
我最初也以为是简单的画1440副动画而已，类似用sd绘画，大不了慢一点（抖音有用sd做的视频），

但其实这么理解sora是错的。

Sora 和特斯拉 AI训练的思路是一致的：并不是训练 AI 如何生成视频，而是训练 AI 理解和生成一个真实的场景或者世界，视频只是从某一个视角观察这个场景的一段时空。

理解这个观点的核心，是理解 OpenAI 为 Sora 赋予的使命，并不只是替代视频生成的创作者，而是将视频生成作为帮助 AI 理解真实世界的「模拟器」。

如果说特斯拉数以百万计的车辆仍然需要用「肉身」感受这个世界，

那么 Sora 则是单纯依靠数据的输入，建立起对世界的认知。

虽然，这也是走的力大砖飞的路线（需要类似《西部世界》那种隐藏在水库下的巨大AI大脑阵列的运算）

但不是简单的绘制动画，其实更像先建立一个虚拟世界，然后再在里面运镜拍摄一样（想象一下：AI做的游戏3A大作）。

从这个意义上说，sora的厉害并不是在对视频产业的颠覆，可以应用分领域：

——自动驾驶，虚拟游戏，更智能的无人机，人形机器人……

实际上任何人类可以用眼睛然后做出决策的事情都可以做（当然能不能执行还要看执行自动化），甚至包括做梦（方案预演）

因此，这就是 AGI（通用人工智能），

甚至更具体一些，就是具身智能和智能体。

当然有个好大脑不等于有个好身体，目前AGI还只是像云天明的大脑。

——能盗取天书，但能不能让人类进步到超光速纪元还要看其他方面的努力，

至少不能促成制造业回流美国……

这位朋友提到了一个很好的点。不过，似乎不完全是sora官方报告表达的意思。sora的视频输出本身其实没什么好惊艳的，但sora“讲的故事”很有趣。不过，目前看来如有些评论提到的：sora的官方报告“颇有售前工程师忽悠甲方的味道”。

那sora讲了什么故事呢？抛开一些技术点描述，sora在官方报告中表示，它生成给大家看到的连贯视频不是重点，重点是：sora实际创建了视频里看到的那个世界。按官方报告说法是sora创建出了“长期连续性和物体持久性”。直白一点说，sora表示它表面给人类看视频，实际上这个视频对应的世界它已经持久化创建出来了。所以，sora实际可以在保持角色和物体的一致性前提下，反复进入这个场景，各种视角出视频，各种角色上场，不会穿帮，就像这个场景的世界实际存在一样。

但问题一，sora当前尚未明确证明它真做到了。大家是看着OpenAI的名头，认为应该不会是假的吧。但行业里，这样的故事太多了。2020年UE5预告片出来时行业何等震动，至今还记得当时听说300亿三角面可同屏流畅互动时的兴奋。大家都在讨论，这也许会“改变世界”…到现在，2024年了，快4年了。基于UE5开发的《黑悟空》还是没有发版…那UE5吹的真做到了吗？也许吧。但就如同实验室产品和量产的差别。基于它量产的东西，开发了3年多还在路上…至于改变世界嘛…

问题二，sora如果做到了，是否算革命性的？实际上，这要看实际做到什么程度？可用性有多强？如果是概念多过可介入的实用性工具，不能轻松应用，那实际意义不大，至少其意义还在路上。因为单以构建持久化场景而言，一个优秀的文字作家都可以算“做到了”，他们可以用清晰传神的笔触描述一个世界，做得好的也可以有强烈的画面感。

最后，说sora没那么翻天覆地的意思，是从其目前输出来看只是60秒视频，等效于1800或3600张图。这谈不上多了不得。至于其背后的模式故事，则还需要进一步证明和发展。也许未来真有用，但短时间说会革谁命，完全谈不上。IT行业，中道崩殂的系统或概念，俯拾皆是。