随着AI技术的飞速发展,图像生成与编辑的门槛不断降低,尤其在人像视频生成领域取得了令人瞩目的成就。快手可灵大模型团队开源的LivePortrait框架,以其出色的性能与创新的设计,引领了AI生成的新浪潮。LivePortrait不仅能够将静态图像转换为动态视频,还能精确控制面部细节,如眼睛和嘴唇的运动,实现前所未有的表现力。
相比当前主流的基于扩散模型的方法,LivePortrait采用了全新的基于隐式关键点的框架。这样的设计不仅大幅提高了模型的计算效率,还提升了其对生成视频的可控性。通过69M高质量的训练帧与视频-图片混合训练策略,LivePortrait能够更好地泛化,适应各种输入数据。
其核心亮点在于隐式关键点的运用,类似于面部混合变形(Blendshape)的有效隐式表示。贴合(stitching)和重定向(retargeting)模块的引入,更使得生成视频过程中的每一帧都能无缝过渡,确保动作流畅自然,尤其是当驱动多个角色时,模型的表现尤为出色。
在实际应用中,LivePortrait的速度令人惊艳。即便在RTX4090GPU上,单帧生成仅需12.8毫秒,未来通过TensorRT优化,预计能缩短至10毫秒以下,这样的速度远超现有的许多基于扩散模型的方案。这使得LivePortrait能够用于实时应用场景,如直播、虚拟偶像等领域,满足高效且灵活的需求。
除了生成人像,LivePortrait还能处理更多复杂场景,如多人合照的无缝动作驱动,甚至可以让动物模仿人类的表情,拓宽了其在娱乐、教育、影视等多个领域的应用空间。
LivePortrait的训练过程分为两个阶段。第一阶段是基础模型的训练,通过大规模高质量的数据集(如Voxceleb、MEAD、RAVDESS)进行改进,结合风格化图片数据集的应用,模型在各种输入场景下表现优异。第二阶段则是贴合与重定向模块的训练。通过轻量MLP网络,LivePortrait能够将隐式关键点映射到实际动作中,确保动作的自然过渡和极高的生成控制力。
发送“LP”即可获取一键整合包。
cuda版本查询cmd指令
nvcc–version
或:
nvidia-smi
(注意:在Windows系统上,某些较高版本的CUDA(例如12.4、12.6等)可能会导致未知问题。您可以考虑将CUDA降级到版本11.8以确保稳定性。)