2024年2月16日,Open AI在X(原Twitter)上发布消息,隆重介绍其新的文本转视频模型——Sora。
该模型可以生成长达60秒的视频,在此过程中,它还可以自行切换镜头,甚至给出特写镜头。
一位时尚女性走在霓虹灯和广告牌照亮的东京街道上。她穿着黑色皮夹克、红色裙子和黑色靴子,背着一个黑色包。她戴着太阳镜,涂着红色口红。她走路自信而轻松。街道湿漉漉的,地上的水可以像镜子一样反射出七彩的灯光,路上来来往往的行人很多。
3D 动画展示了一个小而圆的毛茸茸的生物探索充满活力的神奇森林。这种生物是兔子和松鼠的杂交体,拥有柔软的蓝色皮毛和蓬松的条纹尾巴。它沿着波光粼粼的小溪跳跃,眼睛里充满了好奇。森林里充满了神奇的元素:会发光、变色的花朵、长着紫色和银色叶子的树木,以及类似萤火虫的漂浮光点。该生物最终停下来与一群围绕着蘑菇跳舞的仙女一起玩耍。这个生物敬畏地抬头看着一棵发光的大树,这棵树似乎是森林的中心。
乍一看,你可能会认为这些视频是专业拍摄团队或动画公司制作的短视频。在OpenAI社区中,也有网友有同样的感受,并评论称担心Sora会抢走动画师的饭碗。
图片是机器翻译并取自:community.openai.com
其他人担心这种技术可能被用来伪造视频,甚至被用来在法庭上作伪证。
图片为机器翻译,取自:X
那么Sora是如何生成这样的视频的呢?它真的无所不能,会抢走人类的工作吗?
Sora 如何生成视频?
从2022年下半年开始,Midjourney、Stable Diffusion等应用已经可以根据文本提示词生成相应的图像。 2023 年9 月,GPT 4.0 和DALLE 3 的结合也让我们能够以基于聊天的方式生成和修改图像。
人工智能生成的视频并不是什么新鲜事。此次Sora发布之前,已经有一些视频生成AI,比如Pika、Stable video、RunwayML等。不过与Sora相比,其他模型生成的视频时长相对较短,而且也多了很多。在相机移动和镜头切换等方面较弱。
那么,Sora 是如何生成视频的呢?
Open AI发布了一份关于Sora的技术报告,其中提到“Sora是一种扩散模型”。
Sora 是一个扩散模型。图片来源:Open AI官网
扩散模型本身非常复杂。具体细节我们不再赘述。我们仅通过一个简单的例子来大致了解扩散模型的思想。
如果我们现在有一张狗的照片,我们可以一步步给照片添加噪点,让它越来越模糊,最终变成一堆杂乱的噪点。
添加噪声和去除噪声,图片来源:参考文献[3]
如果我们逆向这个过程,我们也可以从一堆杂乱的噪声点中一步步去除噪声,恢复到目标图像。扩散模型的关键是学会反向去除噪声点。
当然,扩散模型不仅可以用来生成图像,还可以用来生成视频。比如Sora的技术报告中提到,Open AI对视频数据进行一些转换处理,使得视频数据可以直接用来训练模型,让Sora可以直接根据提示词生成视频。
Sora 转换视频数据。图片来源:Open AI官网
Sora强大的视频创作能力
据Open AI介绍,Sora“继承”了Open AI理解文本的能力,可以根据提示文字生成高质量的图片和视频,并且可以向前或向后扩展视频。例如,您可以根据同一视频的开头继续扩展,并将其延伸到不同的结尾。或者它们从不同的起点引入,最终汇聚到相同的结局。
这三个视频的开头最终都会走向同一个结局。图片取自:Open AI官网
此外,Sora不仅可以基于文本生成视频,还可以直接输入图片或视频来编辑和调整图片和视频。
例如,你可以让这辆在普通道路上行驶的汽车变得更加“赛博朋克”。
图片取自:Open AI官网
除此之外,空还展现出了一些以前从未想到的能力。例如,它可以跟随物体移动相机,当移动相机改变角度时,仍然可以保持周围场景的合理和完整。
《强大的索拉》仍然存在一些缺陷
虽然空展现出了强大的能力,但现阶段还不是完美的。
并不是每次Sora都能制作出令人满意的视频。《麻省理工科技评论(MIT Technology Review)》 主要作者Will Douglas Heaven 写道:“Sora 发布的视频已经是从大量结果中选出的最好的了。”但即使是这些“精选的最佳”也并不完美。
Sora的技术报告中也承认,Sora现阶段生成的视频存在一些缺陷。比如下面的视频片段“考古学家挖出了一把塑料椅子”,这把塑料椅子显然不符合客观物理定律。
另外,打破下面玻璃的过程也不是很“科学”。在玻璃破裂之前,玻璃里的液体就已经流出来了。
因此,Sora还有很多需要改进的地方。但毫无疑问,索拉目前的能力已经表明,这是一条非常有前途的道路。
索拉安全吗?它会取代人类吗?
这几天,Sora生成的视频充斥了很多人的微信朋友圈。人们除了感叹空的强大之外,也表达了担忧。这些担忧集中在两个方面。
第一个担心是:Sora生成视频的能力太强大了。如果利用这样的技术进行诈骗,那不是很可怕吗?未来我们如何知道所看到的视频是真是假?
另一个担忧主要来自于视频行业的从业者。如果像Sora这样的模特走红的话,视频行业的从业者会不会全部失业呢?
我们先来说说安全问题。事实上,Open AI也考虑到了Sora可能带来的安全问题。目前,Sora仅对少数人开放,在确保不会被用于不良目的之前不会向公众开放。
那么Sora会取代人类视频工作者吗?
可以肯定的是,Sora的出现可能会威胁到一些动画素材的制作者。
例如,今年1月,《好莱坞报道》对300名娱乐行业领导者进行了调查。四分之三的受访者表示,人工智能将减少未来的就业岗位,未来三年将有超过20万个就业岗位。职位受到影响。空的出色表现将会加剧这种影响。
但换个角度思考,每一次新兴技术的出现,既带来威胁,也带来新机遇。
包括Sora在内的视频生成AI只是一个工具,视频的创作源泉仍然需要人类提供。 Sora或许能够帮助人类更高效地制作视频,同时也让每个普通人有机会制作自己的创意视频。
参考
[1]https://openai.com/research/video- Generation-models-as-world-simulators
[2]https://openai.com/Sora[3]https://scholar.harvard.edu/binxuw/classes/machine-learning-scratch/materials/foundation-diffusion-generative-models
[4]https://www.hollywoodreporter.com/business/business-news/ai-hollywood-workers-job-cuts-1235811009/
策划及制作
本文为科普中国-星空计划作品
中国科协科普部出品
出品中国科学技术出版社有限公司、北京中科银河文化传媒有限公司
作者丨小伟科普创作者
评论|秦增昌,北京航空航天大学自动化科学与电气工程学院副教授
策划丨徐来