Sora未成曲调先有声?_风闻
何鲸洛-文字可以流氓,初心不敢或忘;公众号:一笔封禅1小时前

出品©一笔封禅
作者@何鲸洛
如果说2022年末。
OpenAI聊天机器人ChatGPT的面世是为AI技术张开了“嘴巴”。
那么2024年2月16日。
OpenAI宣布推出全新的生成式人工智能模型“Sora”,则是为AI技术打开了“眼睛”。
①Sora一出谁与争锋?▽
2月16日。
OpenAI宣布推出全新的生成式人工智能模型“Sora”。
据了解。
通过文本指令。
Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。
例如一个Prompt(大语言模型中的提示词)的描述是:
在东京街头。
一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。

在Sora生成的视频里。
黑衣红裙女子走在霓虹街头。
不仅动作连贯、镜头的移动,周遭,以及水面的反射效果都相当自然。
一眼看去。
甚至有种电影的质感。
也难怪有网友表示Sora要颠覆电影业。

更早之前。
2023年8月。
Runway将Gen-2生成视频的最大长度从4秒提升到了18秒。
9月。
Runway又官宣Gen-2新增了导演模式,可以控制“镜头”的位置和移动速度。
11月。
Runway家标志性的AI视频生成工具Gen-2,迎来了“iPhone时刻”般的史诗级更新。
依旧是简单一句话输入。
但视频效果却可以拉到4K超逼真的高度!
此后不久。
Gen-2又新增了“Motion Slider”的功能,可以调节视频中的动作幅度。
与此同时。
2023年11月。
美国AI初创公司Pika labs发布了第一个产品Pika 1.0。
Pika 1.0的新功能主要有以下几个方面:
一是用文本和图像生成视频,只需要输入几行文本或上传图像,就可以创建简短、高质量的视频;
二是编辑更改视频,输入相关文本,实现对背景环境、衣着道具等元素的增减或者更改;
三是切换视频风格,例如在黑白、动画等不同风格中转化;
四是更改视频的宽高比。

专注于开发人工智能AI产品的初创公司Stability AI发布了其最新的 AI 模型 ——Stable Video Diffusion。
这款模型能够通过现有图片生成视频,是基于之前发布的 Stable Diffusion 文本转图片模型的延伸,也是目前为止市面上少有的能够生成视频的 AI 模型之一。
2024年1月。
字节跳动发布文生视频大模型MagicVideo-V2。
MagicVideo-V2是一个视频生成流水线,通过集成多个模块,包括文本到图像模型、视频运动生成器、参考图像嵌入模块和插值模块,实现从文字到视频的自动化生成。
首先,T2I模块将文本转化为1024×1024的图像;
然后,I2V模块将其转化为动画,生成600×600×32的帧序列。
接着,V2V模块增强并完善视频内容,最后通过插值模块将帧数扩展到94个,从而在保证高保真度的同时,也保证了时间上的连续性。
②Sora的星辰大海?▽
此前。
Sora其实OpenAI研发GPT深度学习模型中的一种“副产物”。
GPT(Generative Pre-trained Transformer)是一系列由OpenAI提出的非常强大的预训练语言模型,这一系列的模型基于Transformer算法,可以在非常复杂的NLP任务中取得非常惊艳的效果,例如文章生成,代码生成,机器翻译,Q&A等,而完成这些任务并不需要有监督学习进行模型微调。
2018年6月。
初代GPT上线。
2019年2月。
GPT-2上线。
2020年5月。
在训练约2000亿个单词、烧掉几千万美元后,史上最强大AI模型GPT-3一炮而红。
从初代GPT到GPT-3。
从技术的角度。
算法模型基本没有变化,但通过堆人、堆算力来进行训练后的结果就是GPT-3已经初步能够“理解”人类语言。
2021年1月。
OpenAI发布DALL·E模型,人工智能根据一段话就可直接生成图像。
2022年4月。
OpenAI发布DALL·E 2.0版,允许对图像输出进行简单修改。
9月。
OpenAI发布自动语音识别ASR系统Whisper。

11月底。
基于GPT-3.5模型的ChatGPT上线之后迅速火爆全网。
2023年3月。
GPT-4上线。
2024年2月14日。
OpenAI官宣ChatGPT新增记忆功能。
2月16日。
Sora上线。
它建立在过去对DALL · E和GPT模型的综合研究之上,提出了一种新的模型可能。
不仅可以理解用户在提示中提出的要求,还能理解它们在物理世界中的存在方式。

更重要的是:
Sora作为一种扩散模型(diffusion models)。
除了能够根据文本指令生成视频之外。
还能够获取现有的静态图像并从中生成视频,准确地动画图像的内容并关注小细节,获取现有视频并对其进行扩展或填充缺失的画面。
但Sora也不是没有缺陷。
虽然其产出的视频运镜自然,物体运动符合规律,镜头间逻辑一致性好。
但其视频逻辑性较差。
如一分钟的东京街头女郎漫步,女郎走路过程中存在腿部变形、腿部交叉换位时错乱、右腿连续两次在前方迈步等错误;
一段提示词为 " 一个人跑步的场景 " 中,主角在跑步机上反向奔跑;
提示词为 " 考古学家在沙漠发现塑料椅子 " 的视频中,椅子呈现悬浮状态。
提示词为“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”的视频中,狼的数量会变化,一些凭空出现或消失。
对此。
OpenAI表示:
Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。
但是相比于同类产品Gen-2和Pika 1.0。
Sora已经走出很成功的一步。

而且。
考虑到GPT深度学习模型是OpenAI AI技术的“大脑”。
Whisper作为“耳朵”;
ChatGPT作为“嘴巴”;
Sora作为“眼睛”。
OpenAI的每一次技术迭代。
都有可能带来系统性的革新。
Sora将有可能成为虚拟与现实之间交互的主流算法。
当AI能够真正的“理解”文字、图像和视频之后。
就已经越来越接近通用人工智能AGI了。
③Sora隐患难除?▽
与此同时。
近日。
博主@AI 疯人院 在网络上发布了一部利用 AI 技术生成的《西游记》动画短片。

这段3分56秒的动画短片以《西游记》原著第一集为蓝本,通过 AI 技术将石猴降生到拜师学艺的故事生动地呈现在观众面前。
除了《西游记》外。
@AI 疯人院 还用 AI 生成了丝绸之路、龙生九子、克鲁苏神话等视频动画,目前他在抖音上有超过十万粉丝,收获了超过百万点赞。

而其步骤:
1、构思;
2、用文字生成静态图片;
3、让图片动起来;
4、整理剪辑。
由此可见。
用AI技术生成视频几乎没有门槛。
尤其是Sora类产品的出现。
个人以及小规模团队生成AI视频将会大规模“涌现”。
但在AI生成视频涌现创意变现之前。
AI滥用带来的伦理问题必将是最大的障碍。
1月27日。
#泰勒斯威夫特AI不雅照疯传#

《纽约时报》称。
该图片在禁封之前被浏览了4700万次。
而这。
还不是霉霉第一次被AI造假。
此前。
由人工智能生成的假泰勒·斯威夫特(Taylor Swift)带货广告在社交媒体Facebook上传播。

广告词主要为:
“嘿你们好,我是泰勒·斯威夫特。由于包装出错,有3000套Le Creuset炊具套装无法正常线下销售,转向线上出售。有一个好消息分享给你们,我与Le Creuset联手进行促销——有20位忠实粉丝将免费获得赠送的炊具套装。”
事情发生后。
涉事公司对此迅速做出回应称。
Taylor Swift没有参与任何消费者赠品活动,所有关于产品促销的活动均来自官方社交活动。AI“深度造假”技术合成了她的声音,并将声音与她的形象和Le Creuset广告片段拼凑在一起。
更早之前。
2018年。
加蓬总统Ali Bongo因中风在公共视野中消失了数月。
政府为了安抚民心。
在新年时公开了一段总统录制的新年致辞。
这段新年致辞使用了Deepfake技术进行生成,但这个视频非但没有起到安抚民心的作用,反而让军方的资深大佬发现异常,最终导致了兵变。
在这个事件中。
“AI换脸”技术成为干扰政治选举,降低政府公信力的一大推手。

早在2017年年底。
Deepfake第一次亮相就引起了轰动。
这是一个社区里面一位名叫Deepfakes的用户,将《神奇女侠》盖尔·加朵的脸,嫁接到了一部成人电影女主角身上,还将视频上传至该网站。
可以预见。
Sora类产品上市后。
由于门槛更低;
还有技术加持;
一些似是而非的东西将会更加难以辨别。

这还仅仅只是民用市场。
放在国际关系中。
某国用来栽赃就不用“洗衣粉”那么低级了。

最后。
我们再聊几句。
虽然Sora真的很有想象力。
但至少当前还依旧稚嫩。