4月底,由生数科技和清华大学联合研发的国内*纯自研原创视频大模型Vidu面向全球发布,7月底正式上线,全面开放使用,凭借在快速推理、精确语义理解、高动态性和*动漫风格等方面的优势,Vidu产品表现位列全球视频大模型的“*梯队”。
一、全球*!仅需一张图片实现主体可控
所谓“主体参照”,就是允许用户上传任意主体的一张图片,Vidu就能够锁定该主体的形象,通过描述词任意切换场景,输出主体一致的视频。
该功能不局限于单一对象,而是面向“任意主体”,无论是人物、动物、商品,还是动漫角色、虚构主体,都能确保其在视频生成中的一致性和可控性,这是视频生成领域的一大创新。Vidu也是全球*支持该能力的视频大模型。
比如进行人物角色的“主体参照”,无论是真实人物还是虚构角色,Vidu都能保持其在不同环境中、不同镜头下的形象连贯一致。比如动物,Vidu可以实现其在不同环境下、大幅运动状态中细节特征保持一致。比如商品,商品的外观和细节在不同场景中保持高度一致。
上传的主体也不限于写实风格,比如针对动漫角色或者虚构的主体等,Vidu也可以保持其高度一致。
在视频大模型领域,尽管已有如“图生视频”和“角色一致性”等能力,但Vidu的“主体参照”功能在一致性方面实现了质的飞跃。具体对比看:
图生视频(ImagetoVideo):基于首帧画面的连续生成,无法直接输出目标场景,限制了视频内容的多样性和场景的自由度;
角色一致性(CharactertoVideo):只限于人物面部特征的一致性,难以保证人物整体形象的稳定;
主体参照(SubjectConsistency):不局限于人物,面向任意主体,其次在人物主体下,可选择保持面部一致,也可选择保持人物整体形象的高度一致,通过输入文字描述灵活输出目标场景;
我们以具体案例来看,输入一张林黛玉的角色照,输入同样的“在现代咖啡厅喝咖啡”的描述,能直观看到,在Vidu“主体参照”功能下,林黛玉的形象在现代场景中得到了*保留,场景输出也自然而真实。
二、改变视频创作“游戏规则”
视频大模型领域的竞争日益激烈,尽管众多模型层出不穷,但它们普遍存在着一个核心问题——可控性不足,或者叫一致性的不足。
在实际的视频创作中,视频内容往往围绕特定的对象展开,可以是角色或特定物体,这些对象在视频中的形象需要保持连续一致。然而现有的视频模型往往难以实现这一点,常常是主体在生成过程中容易崩坏。
尤其在涉及复杂动作和交互的情况下,保持主体的一致性更是一项挑战。此外,视频模型的输出结果具有较大的随机性,对于镜头运用、光影效果等细节的控制也不够精细。所以现阶段的视频模型虽然在画面表现力、物理规律、想象力等方面实现了一定程度的突破,但可控性的不足限制了它们在创作连贯、完整视频内容方面的应用。目前,大多数的AI视频内容还是基于独立视频素材的拼接,情节的连贯性不足。
为了解决这一问题,业界曾尝试采用“先AI生图、再图生视频”的方法,通过AI绘图工具如Midjourney生成分镜头画面,先在图片层面保持主体一致,然后再将这些画面转化为视频片段并进行剪辑合成。
但问题在于,AI绘图的一致性并不*,往往需要通过反复修改和局部重绘来解决。更重要的是,实际的视频制作过程中涉及众多场景和镜头,这种方法在处理多组分镜头的场景时,生图的工作量巨大,能占到全流程的一半以上,且最终的视频内容也会因为过分依赖分镜头画面而缺乏创造性和灵活性。
Vidu的“主体参照”功能彻底改变了这一局面。它摒弃了传统的分镜头画面生成步骤,通过“上传主体图+输入场景描述词”的方式,直接生成视频素材。这一创新方法不仅大幅减少了工作量,还打破了分镜头画面对视频内容的限制,让创作者能够基于文本描述,发挥更大的想象力,创造出画面丰富、灵活多变的视频内容。这一突破将为视频创作带来了前所未有的自由度和创新空间。
(图为AI视频制作流程的重塑)
这一功能也确实得到了众多一线创作者的“高度评价”。
仅需三张定妆照,完成短片创作
“主体参照”功能通过锁定角色或物体的形象,一方面让故事情节更具连贯性,另一方面让创作者能够更自由地探索故事的深度和广度。
四、“主体参照”是AI完整叙事的开端
面向专业创作领域,Vidu也牵手海内外多位AI艺术家,探索AI赋能下的全新创作模式。比如与北京电影节AIGC短片单元*影片得主、AinimateLab合作打造的动画短片《一路向南》,画面质量接近传统动画制作标准,但成本仅为传统流程的1/40。AinimateLabAI负责人陈刘芳表示,该短片的创作团队仅由三人构成:一名导演、一名故事版艺术家和一名AIGC技术应用专家,制作周期约为1周,而传统流程需要20人,包含导演、美术、建模、灯光、渲染等不同“工种”,周期在一个月左右。由此可见,Vidu大大缩短了制作周期并显著降低了成本。
因此,视频模型要达到叙事的完整性,就必须在这些核心元素上实现全面可控。“主体参照”功能是Vidu在一致性方面迈出的重要一步,但这仅仅是开始。未来,Vidu将继续探索如何精确控制多主体交互、风格统一、多变场景稳定切换等复杂元素,以满足更高层次的叙事需求。
从更长远的视角来看,一旦实现了全面的可控性,视频创作行业将经历一场颠覆性的变革。届时,角色、场景、风格,甚至镜头运用、光影效果等元素,都将转化为可灵活调整的参数。用户只需要动动手指、调调参,就可以完成一部影像作品的创作,而每一个作品的背后,也将是用户基于AI构建出的独特世界观和自我表达。