Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘AI.xAIGC专属社区|vidu生成视频教程_宠物剪毛

本文引入了Vidu，一个高性能的文本到视频生成器，能够在单次生成中生成长达16秒的1080p视频。Vidu是一个扩散模型，其骨干是U-ViT，这使其具备了处理长视频的可扩展性和能力。Vidu具有很强的连贯性和动态性，并且能够生成逼真和富有想象力的视频，以及理解一些专业摄影技术，与Sora——最强大的报告过的文本到视频生成器相当。最后，对其他可控视频生成进行了初步实验，包括边缘检测到视频生成、视频预测和主体驱动生成，展示了有希望的结果。

此外，Vidu具有很强的连贯性和动态性，能够生成逼真和富有想象力的视频。Vidu还初步理解了一些专业摄影技术，如过渡效果、摄像机移动、光影效果和情感表现。在某种程度上，Vidu的生成性能与目前最强大的文本到视频生成器Sora相当，远远优于其他文本到视频生成器。最后，对其他可控视频生成进行了初步实验，包括边缘检测到视频生成、视频预测和主体驱动生成。所有这些都展示出了有希望的结果。

Vidu在大量的文本-视频对上进行训练，但是由人类标注所有视频是不可行的。为了解决这个问题，首先训练了一个针对理解视频中动态信息进行优化的高性能视频标题生成器，然后使用这个标题生成器自动标注所有的训练视频。在推断过程中，应用了重新标题技术将用户输入重新表述为更适合模型的形式。

由于Vidu是在各种长度的视频上进行训练的，因此它可以生成长达16秒的所有长度的1080p视频，包括单帧图像作为视频。在下图2中呈现了示例。

Vidu生成的视频展现出强大的3D一致性。随着摄像机的旋转，视频呈现出同一对象在不同角度的投影。例如，如下图3所示，随着摄像机的旋转，生成的猫的头发自然地被遮挡。

Vidu能够生成包含切换的视频。如下图4所示，这些视频通过切换摄像机角度呈现同一场景的不同视角，同时保持场景中主题的一致性。

Vidu能够在单次生成中生成带有过渡效果的视频。如下图5所示，这些过渡效果可以以引人入胜的方式连接两个不同的场景。

摄像机运动涉及在拍摄过程中对摄像机的物理调整或移动，增强了视觉叙事，传达了场景内不同的视角和情感。Vidu从数据中学习了这些技术，增强了观众的视觉体验。例如，如图6所示，Vidu能够生成包括变焦、平移和摄影机在内的摄像机运动的视频。

Vidu能够生成带有令人印象深刻的光影效果的视频，这有助于增强整体氛围。例如，如下图7所示，生成的视频可以唤起神秘和宁静的氛围。因此，除了视频内容中的实体外，Vidu还具有传达一些抽象情感的初步能力。

Vidu能够有效地描绘角色的情感。例如，如下图8所示，Vidu能够表达诸如快乐、孤独、尴尬和喜悦等情感。

除了生成现实世界的场景外，Vidu还具有丰富的想象力。如下图9所示，Vidu能够生成在现实世界中不存在的场景。

Sora目前是最强大的文本到视频生成器，能够生成高清晰度的视频，并具有很高的一致性。然而，由于Sora不是公开可访问的，通过直接将Sora发布的示例提示插入到Vidu中来进行比较。下图10和图11描述了Vidu和Sora之间的比较，表明在某种程度上，Vidu的生成性能与Sora相当。

还在512分辨率上进行了其他可控视频生成的几个初步实验，包括边缘检测到视频生成、视频预测和主体驱动生成。所有这些都展示了有希望的结果。

Vidu可以通过使用类似于ControlNet的技术来添加额外的控制，如下图12所示。

如下图13所示，Vidu可以根据输入图像或几个输入帧（用红色框标记）生成后续帧。

令人惊讶的是，我们发现Vidu可以通过仅在图像而非视频上进行微调来执行主体驱动的视频生成。例如，我们使用DreamBooth技术将学到的主题指定为特殊符号进行微调。如下图14所示，生成的视频忠实地再现了学到的主题。

THE END

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘AI.xAIGC专属社区

AI生成视频技术的最佳实践与探讨低温仓储

vidu视频下载vidu视频手机版(视频生成编辑)官网版下载v1.1

免费生成电影级的视频，支持中文提示词！AI视频工具中终于出现了宝藏！ViduAI教程哔哩哔哩

ViduAI视频生成工具AI视频工具

ViduAI视频生成器：快速逼真，引领视频创作新潮流附使用地址

Vidu官方论文来了！媲美Sora的国产视频生成器背后技术探秘AI.xAIGC专属社区

AI视频生成一键创作视频内容随着AI生成视频技术的日益成熟目前市场上较为流行的AI视频生成平台有从快手可灵字节即梦

AI视频生成工具Vidu试用：细节处理还需加强

全球首发！Vidu让任意主体保持一致，视频生成进入新阶段！

一键生成16秒高清视频中国首个国产自研视频大模型Vidu发布新闻频道