Sora未成曲调先有声？_风闻

何鲸洛-文字可以流氓，初心不敢或忘；公众号：一笔封禅1小时前

2024-02-20

出品©一笔封禅

作者@何鲸洛

如果说2022年末。

OpenAI聊天机器人ChatGPT的面世是为AI技术张开了“嘴巴”。

那么2024年2月16日。

OpenAI宣布推出全新的生成式人工智能模型“Sora”，则是为AI技术打开了“眼睛”。

①Sora一出谁与争锋？▽

2月16日。

OpenAI宣布推出全新的生成式人工智能模型“Sora”。

据了解。

通过文本指令。

Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。

例如一个Prompt（大语言模型中的提示词）的描述是：

在东京街头。

一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。

在Sora生成的视频里。

黑衣红裙女子走在霓虹街头。

不仅动作连贯、镜头的移动，周遭，以及水面的反射效果都相当自然。

一眼看去。

甚至有种电影的质感。

也难怪有网友表示Sora要颠覆电影业。

更早之前。

2023年8月。

Runway将Gen-2生成视频的最大长度从4秒提升到了18秒。

9月。

Runway又官宣Gen-2新增了导演模式，可以控制“镜头”的位置和移动速度。

11月。

Runway家标志性的AI视频生成工具Gen-2，迎来了“iPhone时刻”般的史诗级更新。

依旧是简单一句话输入。

但视频效果却可以拉到4K超逼真的高度！

此后不久。

Gen-2又新增了“Motion Slider”的功能，可以调节视频中的动作幅度。

与此同时。

2023年11月。

美国AI初创公司Pika labs发布了第一个产品Pika 1.0。

Pika 1.0的新功能主要有以下几个方面：

一是用文本和图像生成视频，只需要输入几行文本或上传图像，就可以创建简短、高质量的视频；

二是编辑更改视频，输入相关文本，实现对背景环境、衣着道具等元素的增减或者更改；

三是切换视频风格，例如在黑白、动画等不同风格中转化；

四是更改视频的宽高比。

专注于开发人工智能AI产品的初创公司Stability AI发布了其最新的 AI 模型 ——Stable Video Diffusion。

这款模型能够通过现有图片生成视频，是基于之前发布的 Stable Diffusion 文本转图片模型的延伸，也是目前为止市面上少有的能够生成视频的 AI 模型之一。

2024年1月。

字节跳动发布文生视频大模型MagicVideo-V2。

MagicVideo-V2是一个视频生成流水线，通过集成多个模块，包括文本到图像模型、视频运动生成器、参考图像嵌入模块和插值模块，实现从文字到视频的自动化生成。

首先，T2I模块将文本转化为1024×1024的图像；

然后，I2V模块将其转化为动画，生成600×600×32的帧序列。

接着，V2V模块增强并完善视频内容，最后通过插值模块将帧数扩展到94个，从而在保证高保真度的同时，也保证了时间上的连续性。

②Sora的星辰大海？▽

此前。

Sora其实OpenAI研发GPT深度学习模型中的一种“副产物”。

GPT（Generative Pre-trained Transformer）是一系列由OpenAI提出的非常强大的预训练语言模型，这一系列的模型基于Transformer算法，可以在非常复杂的NLP任务中取得非常惊艳的效果，例如文章生成，代码生成，机器翻译，Q&A等，而完成这些任务并不需要有监督学习进行模型微调。

2018年6月。

初代GPT上线。

2019年2月。

GPT-2上线。

2020年5月。

在训练约2000亿个单词、烧掉几千万美元后，史上最强大AI模型GPT-3一炮而红。

从初代GPT到GPT-3。

从技术的角度。

算法模型基本没有变化，但通过堆人、堆算力来进行训练后的结果就是GPT-3已经初步能够“理解”人类语言。

2021年1月。

OpenAI发布DALL·E模型，人工智能根据一段话就可直接生成图像。

2022年4月。

OpenAI发布DALL·E 2.0版，允许对图像输出进行简单修改。

9月。

OpenAI发布自动语音识别ASR系统Whisper。

11月底。

基于GPT-3.5模型的ChatGPT上线之后迅速火爆全网。

2023年3月。

GPT-4上线。

2024年2月14日。

OpenAI官宣ChatGPT新增记忆功能。

2月16日。

Sora上线。

它建立在过去对DALL · E和GPT模型的综合研究之上，提出了一种新的模型可能。

不仅可以理解用户在提示中提出的要求，还能理解它们在物理世界中的存在方式。

更重要的是：

Sora作为一种扩散模型（diffusion models）。

除了能够根据文本指令生成视频之外。

还能够获取现有的静态图像并从中生成视频，准确地动画图像的内容并关注小细节，获取现有视频并对其进行扩展或填充缺失的画面。

但Sora也不是没有缺陷。

虽然其产出的视频运镜自然，物体运动符合规律，镜头间逻辑一致性好。

但其视频逻辑性较差。

如一分钟的东京街头女郎漫步，女郎走路过程中存在腿部变形、腿部交叉换位时错乱、右腿连续两次在前方迈步等错误；

一段提示词为 " 一个人跑步的场景 " 中，主角在跑步机上反向奔跑；

提示词为 " 考古学家在沙漠发现塑料椅子 " 的视频中，椅子呈现悬浮状态。

提示词为“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”的视频中，狼的数量会变化，一些凭空出现或消失。

对此。

OpenAI表示：

Sora可能难以准确模拟复杂场景的物理原理，可能无法理解因果关系，可能混淆提示的空间细节，可能难以精确描述随着时间推移发生的事件，如遵循特定的相机轨迹等。

但是相比于同类产品Gen-2和Pika 1.0。

Sora已经走出很成功的一步。

而且。

考虑到GPT深度学习模型是OpenAI AI技术的“大脑”。

Whisper作为“耳朵”；

ChatGPT作为“嘴巴”；

Sora作为“眼睛”。

OpenAI的每一次技术迭代。

都有可能带来系统性的革新。

Sora将有可能成为虚拟与现实之间交互的主流算法。

当AI能够真正的“理解”文字、图像和视频之后。

就已经越来越接近通用人工智能AGI了。

③Sora隐患难除？▽

与此同时。

近日。

博主@AI 疯人院在网络上发布了一部利用 AI 技术生成的《西游记》动画短片。

这段3分56秒的动画短片以《西游记》原著第一集为蓝本，通过 AI 技术将石猴降生到拜师学艺的故事生动地呈现在观众面前。

除了《西游记》外。

@AI 疯人院还用 AI 生成了丝绸之路、龙生九子、克鲁苏神话等视频动画，目前他在抖音上有超过十万粉丝，收获了超过百万点赞。

而其步骤：

1、构思；

2、用文字生成静态图片；

3、让图片动起来；

4、整理剪辑。

由此可见。

用AI技术生成视频几乎没有门槛。

尤其是Sora类产品的出现。

个人以及小规模团队生成AI视频将会大规模“涌现”。

但在AI生成视频涌现创意变现之前。

AI滥用带来的伦理问题必将是最大的障碍。

1月27日。

#泰勒斯威夫特AI不雅照疯传#

《纽约时报》称。

该图片在禁封之前被浏览了4700万次。

而这。

还不是霉霉第一次被AI造假。

此前。

由人工智能生成的假泰勒·斯威夫特（Taylor Swift）带货广告在社交媒体Facebook上传播。

广告词主要为：

“嘿你们好，我是泰勒·斯威夫特。由于包装出错，有3000套Le Creuset炊具套装无法正常线下销售，转向线上出售。有一个好消息分享给你们，我与Le Creuset联手进行促销——有20位忠实粉丝将免费获得赠送的炊具套装。”

事情发生后。

涉事公司对此迅速做出回应称。

Taylor Swift没有参与任何消费者赠品活动，所有关于产品促销的活动均来自官方社交活动。AI“深度造假”技术合成了她的声音，并将声音与她的形象和Le Creuset广告片段拼凑在一起。

更早之前。

2018年。

加蓬总统Ali Bongo因中风在公共视野中消失了数月。

政府为了安抚民心。

在新年时公开了一段总统录制的新年致辞。

这段新年致辞使用了Deepfake技术进行生成，但这个视频非但没有起到安抚民心的作用，反而让军方的资深大佬发现异常，最终导致了兵变。

在这个事件中。

“AI换脸”技术成为干扰政治选举，降低政府公信力的一大推手。

早在2017年年底。

Deepfake第一次亮相就引起了轰动。

这是一个社区里面一位名叫Deepfakes的用户，将《神奇女侠》盖尔·加朵的脸，嫁接到了一部成人电影女主角身上，还将视频上传至该网站。

可以预见。

Sora类产品上市后。

由于门槛更低；

还有技术加持；

一些似是而非的东西将会更加难以辨别。

这还仅仅只是民用市场。

放在国际关系中。

某国用来栽赃就不用“洗衣粉”那么低级了。

最后。

我们再聊几句。

虽然Sora真的很有想象力。

但至少当前还依旧稚嫩。