sora的视频输出没什么好惊艳的,但sora“讲的故事”很有趣_风闻
天天看-有没有新鲜事…1小时前
【本文由“加东123”推荐,来自《Sora视频生成是AIGC技术想象力的最后一次惊艳,之后的AGI是真正的困难》评论区,标题为小编添加】
- Lawrenceglow
- 我最初也以为是简单的画1440副动画而已,类似用sd绘画,大不了慢一点(抖音有用sd做的视频),
但其实这么理解sora是错的。
Sora 和特斯拉 AI训练的思路是一致的:并不是训练 AI 如何生成视频,而是训练 AI 理解和生成一个真实的场景或者世界,视频只是从某一个视角观察这个场景的一段时空。
理解这个观点的核心,是理解 OpenAI 为 Sora 赋予的使命,并不只是替代视频生成的创作者,而是将视频生成作为帮助 AI 理解真实世界的「模拟器」。
如果说特斯拉数以百万计的车辆仍然需要用「肉身」感受这个世界,
那么 Sora 则是单纯依靠数据的输入,建立起对世界的认知。
虽然,这也是走的力大砖飞的路线(需要类似《西部世界》那种隐藏在水库下的巨大AI大脑阵列的运算)
但不是简单的绘制动画,其实更像先建立一个虚拟世界,然后再在里面运镜拍摄一样(想象一下:AI做的游戏3A大作)。
从这个意义上说,sora的厉害并不是在对视频产业的颠覆,可以应用分领域:
——自动驾驶,虚拟游戏,更智能的无人机,人形机器人……
实际上任何人类可以用眼睛然后做出决策的事情都可以做(当然能不能执行还要看执行自动化),甚至包括做梦(方案预演)
因此,这就是 AGI(通用人工智能),
甚至更具体一些,就是具身智能和智能体。
~
当然有个好大脑不等于有个好身体,目前AGI还只是像云天明的大脑。
——能盗取天书,但能不能让人类进步到超光速纪元还要看其他方面的努力,
至少不能促成制造业回流美国……
这位朋友提到了一个很好的点。不过,似乎不完全是sora官方报告表达的意思。sora的视频输出本身其实没什么好惊艳的,但sora“讲的故事”很有趣。不过,目前看来如有些评论提到的:sora的官方报告“颇有售前工程师忽悠甲方的味道”。
那sora讲了什么故事呢?抛开一些技术点描述,sora在官方报告中表示,它生成给大家看到的连贯视频不是重点,重点是:sora实际创建了视频里看到的那个世界。按官方报告说法是sora创建出了“长期连续性和物体持久性”。直白一点说,sora表示它表面给人类看视频,实际上这个视频对应的世界它已经持久化创建出来了。所以,sora实际可以在保持角色和物体的一致性前提下,反复进入这个场景,各种视角出视频,各种角色上场,不会穿帮,就像这个场景的世界实际存在一样。
但问题一,sora当前尚未明确证明它真做到了。大家是看着OpenAI的名头,认为应该不会是假的吧。但行业里,这样的故事太多了。2020年UE5预告片出来时行业何等震动,至今还记得当时听说300亿三角面可同屏流畅互动时的兴奋。大家都在讨论,这也许会“改变世界”…到现在,2024年了,快4年了。基于UE5开发的《黑悟空》还是没有发版…那UE5吹的真做到了吗?也许吧。但就如同实验室产品和量产的差别。基于它量产的东西,开发了3年多还在路上…至于改变世界嘛…
问题二,sora如果做到了,是否算革命性的?实际上,这要看实际做到什么程度?可用性有多强?如果是概念多过可介入的实用性工具,不能轻松应用,那实际意义不大,至少其意义还在路上。因为单以构建持久化场景而言,一个优秀的文字作家都可以算“做到了”,他们可以用清晰传神的笔触描述一个世界,做得好的也可以有强烈的画面感。
最后,说sora没那么翻天覆地的意思,是从其目前输出来看只是60秒视频,等效于1800或3600张图。这谈不上多了不得。至于其背后的模式故事,则还需要进一步证明和发展。也许未来真有用,但短时间说会革谁命,完全谈不上。IT行业,中道崩殂的系统或概念,俯拾皆是。