Vidu官方论文来了!媲美Sora的国产视频生成器背后技术探秘AI.xAIGC专属社区

本文引入了Vidu,一个高性能的文本到视频生成器,能够在单次生成中生成长达16秒的1080p视频。Vidu是一个扩散模型,其骨干是U-ViT,这使其具备了处理长视频的可扩展性和能力。Vidu具有很强的连贯性和动态性,并且能够生成逼真和富有想象力的视频,以及理解一些专业摄影技术,与Sora——最强大的报告过的文本到视频生成器相当。最后,对其他可控视频生成进行了初步实验,包括边缘检测到视频生成、视频预测和主体驱动生成,展示了有希望的结果。

此外,Vidu具有很强的连贯性和动态性,能够生成逼真和富有想象力的视频。Vidu还初步理解了一些专业摄影技术,如过渡效果、摄像机移动、光影效果和情感表现。在某种程度上,Vidu的生成性能与目前最强大的文本到视频生成器Sora相当,远远优于其他文本到视频生成器。最后,对其他可控视频生成进行了初步实验,包括边缘检测到视频生成、视频预测和主体驱动生成。所有这些都展示出了有希望的结果。

Vidu在大量的文本-视频对上进行训练,但是由人类标注所有视频是不可行的。为了解决这个问题,首先训练了一个针对理解视频中动态信息进行优化的高性能视频标题生成器,然后使用这个标题生成器自动标注所有的训练视频。在推断过程中,应用了重新标题技术将用户输入重新表述为更适合模型的形式。

由于Vidu是在各种长度的视频上进行训练的,因此它可以生成长达16秒的所有长度的1080p视频,包括单帧图像作为视频。在下图2中呈现了示例。

Vidu生成的视频展现出强大的3D一致性。随着摄像机的旋转,视频呈现出同一对象在不同角度的投影。例如,如下图3所示,随着摄像机的旋转,生成的猫的头发自然地被遮挡。

Vidu能够生成包含切换的视频。如下图4所示,这些视频通过切换摄像机角度呈现同一场景的不同视角,同时保持场景中主题的一致性。

Vidu能够在单次生成中生成带有过渡效果的视频。如下图5所示,这些过渡效果可以以引人入胜的方式连接两个不同的场景。

摄像机运动涉及在拍摄过程中对摄像机的物理调整或移动,增强了视觉叙事,传达了场景内不同的视角和情感。Vidu从数据中学习了这些技术,增强了观众的视觉体验。例如,如图6所示,Vidu能够生成包括变焦、平移和摄影机在内的摄像机运动的视频。

Vidu能够生成带有令人印象深刻的光影效果的视频,这有助于增强整体氛围。例如,如下图7所示,生成的视频可以唤起神秘和宁静的氛围。因此,除了视频内容中的实体外,Vidu还具有传达一些抽象情感的初步能力。

Vidu能够有效地描绘角色的情感。例如,如下图8所示,Vidu能够表达诸如快乐、孤独、尴尬和喜悦等情感。

除了生成现实世界的场景外,Vidu还具有丰富的想象力。如下图9所示,Vidu能够生成在现实世界中不存在的场景。

Sora目前是最强大的文本到视频生成器,能够生成高清晰度的视频,并具有很高的一致性。然而,由于Sora不是公开可访问的,通过直接将Sora发布的示例提示插入到Vidu中来进行比较。下图10和图11描述了Vidu和Sora之间的比较,表明在某种程度上,Vidu的生成性能与Sora相当。

还在512分辨率上进行了其他可控视频生成的几个初步实验,包括边缘检测到视频生成、视频预测和主体驱动生成。所有这些都展示了有希望的结果。

Vidu可以通过使用类似于ControlNet的技术来添加额外的控制,如下图12所示。

如下图13所示,Vidu可以根据输入图像或几个输入帧(用红色框标记)生成后续帧。

令人惊讶的是,我们发现Vidu可以通过仅在图像而非视频上进行微调来执行主体驱动的视频生成。例如,我们使用DreamBooth技术将学到的主题指定为特殊符号进行微调。如下图14所示,生成的视频忠实地再现了学到的主题。

THE END
1.AI视频生成入门教程&软件盘点:图生视频转绘二创拥抱整活...一口气入门AI视频:3大主流路径+30个工具 【AI视频生成入门教程&软件盘点:图生视频、转绘、二创拥抱整活、数字人 … 】网上的AI视频这么火,到底都是怎么做出来的?如果你对这个领域感兴趣,却不知道该从哪里开始探索,这期视频,就是你最好的“敲门砖! 用AI做视频有哪几种基本方式?三大主流实现路径:文生视频...https://t.cj.sina.com.cn/articles/view/6605861464/m189bd725803301i3xq
2.ViduAI视频生成平台文生视频大模型Vidu Vidu是一个可以通过文本或者图片生成视频的AI模型,是由生数科技推出的创新视频生成平台,为用户提供快速、高效、易用的视频创作体验。通过Vidu,用户可以在极短的时间内创建出具有电影质感的视频内容,无论是现实风格还是动画风格,都能轻松实现。 网址标签: #AI视频生成平台 #文生视频大模型 立即访问 添加收藏...https://0mo.com/sites/8569.html
3.[转]转:一款免费AI视频工具,可将2000字内文案,转成有声原创视频!时长近4分钟,全程精彩,AI视频已能创作完整故事。半年前制作此类长视频, 还需撰写剧本,绘制分镜头,生成视频,后期剪辑配音,至少需3种AI工具协同作业。如今借助白日梦AI,单工具即可轻松实现。 下面是详细使用教程 白日梦官网:https://brmgo.com/signup?code=gz_tank ...https://pj.zjer.cn/index.php?r=space/person/blog/view&sid=51542&id=39524342
4.ViduVidu是什么 Vidu是由生数科技与清华大学联合发布的中国首个长时长、高一致性、高动态性AI视频生成大模型。基于原创U-ViT架构,支持一键生成长达16秒、1080P分辨率的高清视频。Vidu能模拟真实物理世界,具有丰富想象力,可创作逼真或超现实内容,广泛应用于影视、广告、游戏等行业。 https://ai-bot.cn/sites/14695.html
5.生数科技视频生成模型Vidu1.5版发布AI大模型工场 11月13日消息,在Vidu上线逾百日之际,生数科技宣布推出Vidu1.5新版本,该版本实现了世界领先水平的突破,特别是在理解多样化输入和突破“一致性”难题方面。 据了解,Vidu1.5具备多模态视频大模型,支持参考生视频、图生视频和文生视频,确保角色、物体、场景的一致性。Vidu 1.5能在30秒内生成高清视频,具有...http://www.algcpost.com/sys-nd/1355.html
6.AI初创企业生数科技宣布,旗下AI视频生成工具Vidu全球AI 初创企业生数科技宣布,旗下 AI 视频生成工具 Vidu 全球上线。 Vidu 介绍,模型最快推理速度为 30 秒,提供两大核心功能:文生视频、图生视频,分辨率最高达 1080P。免费版可生成 4 秒视频,支持超清和一个并行任务;收费版可生成 4 秒和 8 秒视频,支持超清、商用、超清后去除水印,支持两个并行任务。 https://tech.ifeng.com/c/8bf9lrIWTfk
1.AI智能制作视频:快速生成,轻松上手创业仆素材库丰富:海量的素材库,包括图片、视频、音乐等,任你选择,快速找到合适的素材。 模板多样:各种类型的视频模板,从介绍类到宣传类,从营销类到教育类,总有一款适合你。 智能配音:支持多种语言的智能配音,让你轻松打造专业配音,告别单调的文字讲解。 自动剪辑:AI智能剪辑,自动调整视频节奏,快速生成流畅的视频作品。 https://cyepu.com/57327.html
2.AI视频的世纪难题被解决了,我愿称Vidu为一致性的新王我可以上传人物的正面、侧面、背面三张图,来固定人物各个角度的细节,然后给个提示词,点击生成。 图中的人物,就这样水灵灵的动了起来。同样的操作,我们可以生成更多不同风格的效果。 再尝试几组不同风格的人物,看看vidu的展现: 辣评一下:我尝试生成了不同风格的人物图片,生成的视频都能近乎完美的复刻原图的风格、...https://www.163.com/dy/article/JIBVD19P0553TKEZ.html
3.Vidu有哪些功能免费吗?AI视频生成平台怎么使用方法详细教程指南AI视频生成平台怎么使用方法详细教程指南 蓝天采集器-开源免费无限制云端爬虫系统 Vidu 是什么? Vidu是一个创新的视频生成平台,允许用户在极短的时间内创建出具有电影质感的个性化视频。它结合了真实与动画风格,提供了丰富的视频创作工具,让用户能够轻松化身导演,创作出令人印象深刻的视频作品。https://www.skycaiji.com/aigc/ai20791.html
4.Vidu创新的视频生成平台有哪些功能?AI视频生成平台怎么使用Vidu结合先进的视频处理技术,允许用户选择视频风格和模板,并通过简单的操作调整视频元素,包括画面、音乐和文字等,最终生成高质量的个性化视频作品。 以自然段形式强调产品或技术的主要优点。 Vidu 的主要特点 Vidu 使用教程 访问Vidu网站并注册账户。 选择视频风格和模板,开始视频创作。 https://m.cy211.cn/aizixun/3529.html
5.即梦AI视频生成V1.2全站教程即梦AI | 视频生成V1.2 全站教程? 6月27日修改 前言? ? 即梦AI 是一款具备强大视频生成功能的工具,它可以根据用户提供的图片(首帧/首尾帧)、 prompt(文字指令),和各种参数设置生成高质量、稳定且高动态的视频。? ? 本次V1.2模型全面提升模型质量,并更新以下内容:? ? ?...https://waytoagi.feishu.cn/wiki/TDWUwTxSyiiICLkWW5CcqGasnfd?table=tblLHTHp29ZqKMO0
6.ViduStudio教育:制作教育视频和教程,增强学习体验。娱乐:生成短视频和动画,丰富娱乐内容。社交媒体:快速生成社交媒体内容,提升互动率。企业培训:制作培训视频,提高员工技能和知识。 “Vidu Studio”如何使用? 使用Video Studio生成您想要的视频非常简单,以下是详细步骤: 描述您理想的视频:输入您想象中的视频的详细描述,包括具体...https://openi.cn/sites/259945.html
7.中国版Sora来了!一键生成16秒1080P的AI视频,直面对标OpenAI追赶OpenAI 文生视频模型 Sora 需要多久?在中关村论坛未来人工智能先锋论坛上,中国首个长时长、高一致性、高动态视频大模型 Vidu 正式发布,支持一键生成长达 16 秒、分辨率为 1080P 的高清视频内容。 Vidu 生成的视频 demo 甫一发布,便迅速在各大社交平台的热搜榜上「攻城略地」,被誉为效果层面最接近 Sora 的...https://www.niuxuezhang.cn/news-information/china-sora.html
8.Vidu:首个国产自研Sora级视频大模型,一键生成16秒1080P高清视频...Vidu 是中国首个长时长、高一致性、高动态性的视频大模型,由生数科技联合清华大学发布。这个模型采用了原创的 U-ViT 架构,融合了 Diffusion(扩散) 与 Transformer 技术,能够一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。Vidu 不仅能够模拟真实物理世界,还拥https://pidoutv.com/sites/18253.html
9.ViduAI视频大模型,vidu.studio官网AI神器大全类似Vidu的软件 Olm AI视频生成,轻松创作 Audiolabs 将你的播客变成短视频 Sora Prompting 视频创作,文字驱动,创意无限。 BibiGPT 文字和音视频总结 FlowSora Sora视频与教程分享 stable-video-diffusion.cc 图像转视频,创意无限https://aishenqi.net/tool/vidu
10.媲美Sora!可生成16s1080视频!清华联合生数提出视频生成新模型Vidu!项目链接:https://www.shengshu-ai.com/vidu 导读 扩散模型(diffusion models)在生成高质量图像、视频和其他类型数据方面取得了突破性进 展,超越了自动回归网络(auto-regressivenetworks)等替代方法。之前,视频生成模型主要 依靠具有U-Net背骨(U-Netbackbone)的扩散模型,并专注于4秒等单个有限时长的视频生成。我们的...https://aijishu.com/a/1060000000462854
11.视频生成模型“Vidu”发布满足长视频内容的生成需求视频生成模型“Vidu”发布 满足长视频内容的生成需求,视频内容,生成模型,本报讯 记者宋婧报道:4月27日,在2024中关村论坛年会未来人工智能先锋论坛上,生数科技与清华大学联合发布了视频生成模型“Vidu...https://read.cnki.net/web/Newspaper/Article/CDZB202404300071.html
12.AI视频生成工具Vidu试用:细节处理还需加强看过了 AI 视频生成工具清影的试用体验,今次我们来测试什么产品呢?就是此前上线的号称 " 首个国产纯自研视频大模型 " 的 Vidu (https://www.vidu.studio/)。该平台目前开放了文生视频、图生视频两大核心功能,提供 4 秒和 8 秒两种时长选择。 http://www.myzaker.com/article/66daaf3a8e9f0955997e9bd2
13.AI早知道Vidu视频生成模型上线;京东发布言犀智能体平台等八大...3.清华系创企生数科技推出的视频生成模型Vidu全球上线,具备高动态性、逼真度和一致性,支持动漫风格和角色一致性,能快速生成4秒和8秒的1080P视频,提供多种订阅服务,并开放API内测申请。 4.Runway宣布其AI视频模型Gen-3 Alpha上线图生视频功能,允许用户使用任何图像作为视频生成的起点,结合文本提示创造视频内容。 https://www.shangyexinzhi.com/article/21298806.html
14.国产大模型Vidu再升级,实现多角度一致性,视频生成更自然!【ITBEAR】国产视频大模型厂商Vidu近日宣布,其全新版本Vidu 1.5已正式上线。该版本在技术上取得了重大突破,被誉为达到“世界领先水平”,尤其在处理多样化输入及解决“一致性”难题上表现卓越。 Vidu自上线以来,便以其出色的角色一致性生成能力受到关注。通过精准锁定人物面部特征,Vidu成功解决了视频生成中的关键痛点,确保...http://baike.ceden.cn/?developer/news/1916969
15.清华出品!AI视频神器Vidu横空出世,效果直追Sora!这两天一款名为 Vidu 的视频生成模型火爆网络,它由北京生数科技与清华大学联合发布,能直接通过文本生成 16 秒 1080P 的高清视频,且视频质量与 OpenAI Sora 不相上下, 因此被认为是 Sora 目前最有力的竞争对手。 Vidu 内测名额申请: shengshu.feishu.cn 相关推荐: AI 视频新王者诞生!一文盘点 Sora 模型 14 ...https://www.uisdc.com/vidu
16.钛媒体独家“中国版Sora”视频大模型Vidu重大更新:时长延至32秒...1、目前Vidu可以一键生成32s视频; 2、支持音视频合成,即Vidu视频生成有声音了(Text-2-Audio) 3、支持4D生成,可以从单一视频生成时空一致的4D内容。 首先,在32s视频技术中,清华大学人工智能研究院副院长、生数科技首席科学家朱军教授6号下午现场展示了一段Vidu生成的画面。 https://www.tmtpost.com/7119655.html