Sora是OpenAI在2023年2月发布的一款文本到视频生成模型。它能够根据描述性提示生成长达一分钟的视频,同时保持视觉品质并遵循用户提示。视频可以包含多个角色、特定类型的运动,以及主题和背景的准确细节。
文生视频(Text-to-Video)技术是指根据给定的文本描述自动生成视频的技术。这种技术可以创造出复杂的场景、生动的角色表情以及复杂的镜头运动。
OpenAI开发Sora的目的是为了教人工智能理解和模拟运动中的物理世界,并训练其帮助人们解决需要现实世界互动的问题。这意味着Sora不仅可以生成视频,还可以模拟物理世界中的运动,从而生成更加真实和有用的视频内容。
这就是OpenAI称它为“世界模拟器”的原因。
首先简单概括一下Sora技术原理。
Sora是一种先进的视频生成模型,它能够根据文本提示生成相应的视频。它的工作原理可以简单地理解为两个主要步骤:编码和生成。
首先,Sora会将输入的视频数据进行压缩,将其转化为一种低维的潜在表示形式。这个过程有点像我们把一个复杂的物体分解成简单的零件,方便我们后续处理。然后,这些被压缩的数据会被进一步分解成时空区块,你可以把它们想象成视频的“基因”,包含了视频的所有基本信息。
接下来就是生成阶段。Sora利用扩散模型的思想,从简单的噪声信号出发,逐步添加细节和模式,最终生成复杂的新数据。这就像我们根据零件重新组装出一个新的物体,只不过Sora的版本更加复杂和高级。
在这个过程中,Sora还利用了变换器(Transformer)的技术,这是一种非常擅长处理序列数据的模型。无论是语言还是视频,都可以看作是由一系列高维向量组成的序列,而变换器则能够很好地预测下一个向量应该是什么。
总的来说,Sora的工作原理就是先将视频数据进行压缩和分解,然后利用扩散模型和变换器技术逐步生成新的视频内容。
Sora是能够理解和模拟现实世界的模型的基础,相信这一功能将成为实现AGI的重要里程碑。
Sora的能力到底多厉害?根据OpenAI披露的技术文档,盘点了14条之多,本文将针对每一条做更加深入的分析和理解,并且用通俗易懂的语言进行解释说明,并会增加该能力在可能的领域将有什么样的应用。看完本文,相信你一定会对Sora有更深刻的认识,并有可能结合自己的工作和生活,找到结合的场景,产生如何运用它的创意。
Sora能力清单:
接下来,让我们来看看每一个能力的具体情况吧。
首先要申明的是,这里的长视频,并不是电影电视剧级别的长视频,而是相比其他文生视频友商的5s、10s、15s相比的,可以连续生成1分钟的长视频。
这个1分钟在大模型生成视频领域是什么概念呢?Sora之于视频生成领域有多大的进步呢?单单从生成长度这个维度来看,就已经是吊打之前所有的模型了。
可以看下图:
之前大火的Pika、Runway等模型只能生成3秒上下的视频,最长的例如Kaiber也是只能生成16s的长度。而Sora可以实现1分钟的视频生成。
虽然1min对于抖音来说,也就是平常的短视频,但是对于学界来说已经是突破的进展了。
视频的多机位是指使用两台或两台以上摄影机,对同一场面同时作多角度、多方位的拍摄。
多机位拍摄可使观众能够从多个不同的角度观看画面,给人以身临其境的感觉。它展现空间更全面、视点更细腻、角度更开放、长度更自由,给观众带来全方位、多角度的观赏体验。
Sora可以在单个生成的视频中创建多个镜头,准确地保留角色和视觉风格。从Sora生成的这个视频可以看出,画面在不停地切换转场,似乎有一种电影画面镜头的感觉。
Sora能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。文生视频中的多角色指的是在由文本生成的视频中,能够展现出多个具有不同特点和情感表达的角色。
多角色的存在意味着模型能够理解和描绘出文本中提到的不同人物,并为他们设计合适的视觉形象和动作,使得视频内容更加丰富和真实。具体来说:
例如下面的视频例子:
大家可以看一下视频,体会一下多角色的效果。
提示语:一位白发梳得整整齐齐的老奶奶站在木制餐桌上的彩色生日蛋糕后面,蛋糕上插着无数蜡烛,脸上的表情是纯粹的喜悦和幸福,眼中闪烁着幸福的光芒。她倾身向前,轻轻地吹灭蜡烛,蛋糕上有粉红色的糖霜和糖珠,蜡烛不再闪烁,祖母穿着一件饰有花卉图案的浅蓝色衬衫,几个幸福的朋友和家人坐在桌边。看到庆祝,失去焦点。该场景拍摄精美,具有电影般的效果,展示了祖母和餐厅的3/4视图。温暖的色调和柔和的灯光增强了情绪。
从提示语和生成的视频,我们来分析一下。
提示语说到需要有“白发梳得整整齐齐的老奶奶”、“几个幸福的朋友和家人”等多个人物角色。视频中都体现了,而且主次分明,有男有女,有老有少,层次丰富。
提示语也说到老奶奶就是祖母,祖母的表情是“纯粹的喜悦和幸福,眼中闪烁着幸福的光芒”,从视频中祖母表现出的笑容,我们确实能感受到她的喜悦和幸福,很有感染力。
这个视频很好地说明了,Sora可以完成多角色的视频任务生成。但是,我们也看到了它对物理世界交互处理上的不足,因为老奶奶用力一吹,蜡烛并没有熄灭。而提示词也说了“蜡烛不再闪烁”,这一点,有待Sora继续进化升级。
其他友商或者过去的视频训练方法是,通常会将用于训练的视频调整大小、裁剪或修剪为标准尺寸,例如,分辨率为256×256(正方形)的4秒视频。也就是说,视频尺寸是固定的,这种方式,可能导致主角不在画面的中间或者合适的位置,可能会出现偏差。
Sora采取的是保留原始视频的大小和分辨率,用原始长宽比对视频进行训练。这样训练出的Sora模型,可以在输出和生成视频的时候,改善视频画面的构图和取景。
也就是说,Sora可以直接以其原生宽高比为不同设备创建内容。例如宽屏1920x1080p视频、垂直1080×1920视频,以及介于两者之间的所有视频尺寸。
不同尺寸的视频对比播放效果:
原生宽高比为不同设备创建内容视频效果展示:
画面效果对比:
Sora之所以能根据语音指令生成高质量的视频,主要和他的训练模式有关,并且可以通过改变描述语言的局部信息,可以输出不同风格的高质量视频。
首先,他们训练了一个能够生成详细描述的字幕生成器模型,然后使用这个模型为所有的视频生成相应的文本字幕。这样做的好处是可以提高视频的文字准确性和整体质量。
想象一下,我们要教一台电脑如何自己制作视频。首先,我们需要给它很多有文字说明的视频,好让它学习怎么根据这些文字来制作相应的画面。但是,找到这么多正好配有详细文字的视频并不容易。
那我们怎么办呢?我们先用一个特殊的软件,这个软件就像是一个超级聪明的作家,这个软件就是Open的DALL·E3中引入的重新字幕技术。
它能够看视频然后写下非常详尽的描述,就好像是在给视频写剧本一样。我们把整个视频库都让这个软件过一遍,这样每个视频就有了一个详细的文字版“剧本”。
接着,我们还用了一个像聊天机器人一样的工具,这个工具能把我们给出的一些简单提示或者想法,扩展成更长、更具体的故事。这就好比你给出一个故事的大纲,然后这个工具帮你把它填充成一个详细的故事。
有了这些工具后,我们就可以告诉电脑:“嘿,我想看一段山间清晨的视频”,然后电脑就会根据这个想法,利用之前生成的那些详细的故事(也就是文字字幕),来创造出一段美丽的山景早晨视频给你看。
总的来说,我们就是教了一台电脑,通过阅读详细的文字描述来制作和这些描述匹配的视频,而且还能用我们简单的提示来制作符合我们要求的视频。
描述视频的提示语中有4个变量,通过修改变量的描述,组合后就生成不同的视频。而且,Sora能准确理解描述的文字语言,在视频中非常好的体现。不管改变的是主体角色,还是穿着打扮,或者是事情发生的地点和周围环境。
例如OpenAI给出的效果示例。
第一个变量有4种情况,而后三个变量每个都有3种情况,那么总共可以组成的场景数量是4乘以3的3次方。
所以总的视频场景数为:4*3^3=4*27=108
因此,Sora可以生成并输出108个不同的视频。
示例1:主角是一个女人
示例2:主角是一个老人
示例3:主角是一个玩具机器人
示例4:主角是一只可爱的袋鼠
除了提示语文字生成视频外,Sora也可以通过其他输入进行提示,例如预先存在的图像或视频。通过一张静态的图片+一段文字描述,Sora可以生成一段视频。
输入:图像+提示语
输出:视频
我们可以看一下OpenAI提供的示例效果展示:
展示基于DALL·E2生成的示例视频和达尔·E3图片。
示例1:一只戴着贝雷帽和黑色高领毛衣的柴犬。
示例2:不同家族怪物的平面设计风格的怪物插图。该群体包括一个毛茸茸的棕色怪物、一个带有天线的光滑黑色怪物、一个有斑点的绿色怪物和一个小圆点怪物,所有怪物都在一个有趣的环境中互动。
示例3:写有“SORA”的现实云的图像。
示例4:在一座华丽的历史大厅里,巨大的浪潮达到顶峰并开始崩塌。两名冲浪者抓住时机,熟练地驾驭海浪。
扩展功能的进一步解释:
什么是无限循环视频?
无限循环视频是一种视频格式,它能够在播放结束后自动重新开始播放,形成一个看似无休止的循环。这种视频通常用于展示连续的动作或者场景,比如动态背景、滚动图片展示、动画角色行走等。
在视频编辑和动画制作中,,非大模型生成的做法是,专业人士通过特定软件如AdobePremierePro(PR)、AfterEffects(AE)等来创建无限循环视频。有学习成本和一定的门槛,也比较费时费力。
Sora生成无限循环视频的方法:
Sora从一段现有的视频片段出发,通过所谓的“视频到视频编辑”技术,实现视频内容的前后扩展,从而创造出一个可以不断重复播放的视频流,这就是无限循环视频。
以下是OpenAI给出的效果示例视频:
具体来说,无限循环视频有以下特点:
Sora生成的无限循环视频是一种创新的视觉媒体形式,它不仅展示了生成型AI模型的强大能力,也为视频内容创作提供了新的可能性。Sora的这个能力,后续在落地应用的时候,或许是有具体场景的。
Sora利用了先进的深度学习模型,特别是扩散模型的视频编辑技术,能够根据文本提示零镜头地改变视频的风格和环境。这种方法使得视频编辑变得更加灵活和高效,用户可以通过简单的文本描述来实现复杂的视觉效果。
以下是SDEdit技术的一些关键特点:
Sora的视频编辑带来了革命性的变化,它不仅提高了编辑的效率和准确性,还为用户创造了无限的可能性,使他们能够在不需要专业视频编辑技能的情况下,实现复杂和创意的视频效果。
随着技术的不断进步,未来我们可以期待更多类似SDEdit的创新应用,进一步推动多媒体内容创作和消费的边界。
Sora能够通过插值技术,在两个不同主题和场景的视频之间创建无缝过渡。这种能力得益于Sora的高级插值技术,它可以在不同的视频内容之间进行有效的混合和融合。
这项功能的特点和价值有:
示例效果解析:
Sora的这些功能极大地扩展了视频编辑的可能性,使得创作者能够更加自由地表达自己的创意,同时也为视频编辑领域带来了新的技术和方法。
效果示例1:秋季女性特写肖像照,极其细节,浅景深
官方示例图片:
具体来说,Sora的图像生成过程包括以下几个关键步骤:
总的来说,Sora的图像生成能力展示了其在视觉创作领域的强大潜力,在落地应用方面可满足不同场景和需求。
Sora能够生成具有3D一致性的视频,确保了在动态摄像机运动中人物和场景元素在三维空间中的一致性。
Sora的这一能力体现在其能够模拟现实世界中的动态摄像机运动。无论是摄像机的平移、倾斜还是旋转,Sora生成的视频都能保持物体和场景元素的连贯性和稳定性,就像在真实的三维环境中一样。这种3D一致性不仅增强了视频的真实感,也是对视频生成模型在理解和模拟现实世界方面能力的体现。
具体来说,Sora的3D一致性包括以下几个方面:
总的来说,Sora的3D一致性是其在视频生成领域的一个重要突破,它不仅提升了视频的真实感,也为未来视频内容的创作和编辑提供了更多的可能性。通过深度学习和大规模训练,Sora展现了人工智能在理解和生成复杂视觉场景方面的显著进步。
Sora展现出了在视频生成中的远程相干性和物体持久性,这体现在其能够在长视频中有效地对短期和长期依赖关系进行建模。
在这上面这个例子中,窗台上的狗,即便被多次遮挡,还是会展示原本的样子,并没有改变主题的样式,持久存在。
通俗的理解如下:
而物体持久性意味着即使东西暂时消失了,比如被其他物体遮挡,我们也能在心中记住它的存在,并且在它再次出现时,我们知道那还是同一个物体。
简单来说,Sora在制作视频时能够记住之前发生的事情,并且确保事情的连贯性。如果视频中有个人走进门后不见了,Sora可以做出这个人是继续走路,而不是突然在别的地方出现或者消失不见。这就像是在讲故事时保持故事线一致,让听众不会感到困惑。
此外,如果视频中有多个场景显示同一个人,Sora能确保这些场景中的人的外观和行为是一致的,就好像是在拍摄电影时从不同的角度拍摄同一个演员一样。
这样的能力对于制作看起来真实且连贯的视频非常重要,尤其是在视频很长或者包含许多复杂场景的时候。Sora通过复杂的计算和学习大量的数据来做到这点,使得它能生成高质量的视频,即使那些视频中有很多动作和变化。
Sora能够模仿一些我们在日常生活中的行为和动作。比如说,就像一个画家在画布上画画,他每画一笔,画布上就会留下痕迹,这些痕迹会一直保持在那里;或者一个人在吃汉堡时,每咬一口,汉堡上就会留下咬过的痕迹。
OpenAI提到的“索拉有时可以用简单的方式模拟影响世界状况的动作”里面的“世界状况”可以理解为周围环境的样子或状态。Sora能模拟出我们对这个世界做出的一些改变,比如添加新的东西(就像画家的笔触)或者改变已有东西的状态(就像被咬过的汉堡)。
这些动作改变了原本的状况,并且这种改变是持久的。这就像是在一个视频游戏中,你做出的行动(比如移动角色或建造东西)会改变游戏世界,并且这些改变会被记住,不是暂时的。
所以,简单来说,就是Sora可以模仿我们在现实世界中的某些行为,并且让这些行为在虚拟的世界里留下来,看起来就像是真的发生了一样。
当我们说Sora可以模拟数字世界时,我们是在说它可以模仿像视频游戏这样的虚拟环境里发生的事情。比如,想象一下流行的视频游戏《我的世界》(Minecraft),这是一个玩家可以在里面建造东西、探险的游戏世界。
Sora能做到的酷事包括:
所以,用更容易理解的话来说,Sora就像一个超级电脑玩家,能够同时玩很多《我的世界》,并且让这些游戏看起来和运行得都非常棒,而且它还能很快地开始做这些事情,只需要给它一个简单的提示。
这些功能表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有前途的道路。
当前的Sora模型存在弱点。它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕。
Sora官网po出了5个有缺陷的视频,包含了比较典型的复杂屋里场景。包括:人体姿态处理错误、多实体场景处理难、不准确的物理建模和不自然的物体“变形”、物理交互不准确、多个角色之间的复杂交互等。
不仅让我们看到了大模型文生视频目前存在的能力缺陷,也看到了更多创意的空间。一些对物理世界的扭曲变形,空间奇幻的情节,可以利用在更多具有创意的视屏中。
5个视频截图预览:
Sora是一个能够生成视频的高科技模型,它可以用在很多不同的行业里。
如果你是老师,想给学生们制作有趣的教学视频,Sora也能帮忙。你只要输入教学内容的文字,Sora就能根据这些文字生成视频。这样的视频能让学习变得更有趣,也更容易吸引学生的注意力。而且,如果学生觉得太难或太简单,Sora还能调整视频内容,让每个学生都能跟得上。
电影和电视剧制作人现在也可以利用Sora来制作视频。比如说,如果你想做一个特效很棒的科幻电影,Sora可以帮助你生成一些看起来很真实的场景和角色动画,这样你就不需要花大价钱请特效公司了。
对于产品经理来说,Sora的发布可能意味着新的机会和挑战。
Sora就像是一个神奇的视频制作机器人,产品经理们可以考虑怎么把这个机器人的能力用到自己的产品上去。下面就是一些关于这个机器人能给我们带来的点子和需要注意的地方,以在线教育产品为例:
如果咱们的产品涉及到视频推荐,比如新闻APP或者视频网站,Sora可以根据用户的观看历史和喜好来生成他们可能感兴趣的视频内容。
例子:基于学生的学习进度和兴趣,Sora可以生成适合他们当前水平的视频内容。比如,如果一个学生在数学上遇到了困难,系统可以自动生成更多关于基础数学概念的视频来帮助他。
看着Sora这么厉害,咱们也得想想,将来这技术还能怎么发展。对于产品经理,抓住这个机会,用好了Sora,那产品绝对能火。希望Sora能越来越棒,做出更多酷炫的视频,同时也得保证合法合规,让用户用得放心。