专访VideoPoet作者：视频模型技术会收敛，LLM将取代diffusion带来真正的视觉智能|做视频需要哪些技术_宠物造型

在AI领域，近年来各个子领域都逐渐向transformer架构靠拢，只有文生图和文生视频一直以diffusion+u-net结构作为主流方向。diffusion有更公开可用的开源模型，消耗的计算资源也更少。

不过，最近视频生成领域也出现了效果惊艳、基于大语言模型架构的成果——VideoPoet，让大众看到了transformer和LLM在视频生成领域的强大可能性。

蒋路认为，视频生成领域的「ChatGPT时刻」预计会在24年底或25年中实现，到那个时候视频生成已经可以达到好莱坞样片级别的效果。放眼更长远的未来，视频生成研究更加终极的目标是追求「visualintellegence」，人工通用智能也会在视频生成中实现。

海外独角兽：在视频生成领域，最合适的技术路线还没有收敛。你会怎么给已有的技术路线分类？

LuJiang：现在的技术路线大致可以分为两大类（这里不包括GAN延续的工作）：一类是基于diffusion的技术，另一类则是基于languagemodel的技术。举例来说，我们最近发布的VideoPoet是典型的基于languagemodel的路线，我们组的另一个工作WALT则是基于diffusion。也有人用token-based来区分基于语言模型的技术和基于diffusion的技术，但我认为这种说法不太准确，因为diffusion里面也有token的概念。

基于VideoPoet制作的短片RookietheRaccoon

Diffusion技术迭代过几次了，从最早的的pixeldiffusion发展到第二代latentdiffusion，再到第三代latentdiffusionwithtransformerbackbone，diffusion路线现在是绝对主流，大约90%的研究者都在这个领域探索。

基于languagemodel的技术其实比diffusion出现得更早，2020年的ImageGPT和后来的DALL-E都是引入这个概念的，但到DALL-E2就换成了diffusion。Google的Parti模型也是利用语言模型实现文生图。

基于语言模型的工作又可以分为两类：一类是以masklanguagemodel（例如BERT）为主，比如Google的MaskGIT，属于奠基性的工作，后面比较出名的是Muse文生图模型；另一类是基于自回归（auto-regressive）的语言模型，这个更接近于现在LLM的逻辑。

MaskGIT：GoogleResearch在2022年2月发布的图像生成模型（对应论文为MaskGIT：MaskedImageGenerativetransformers），MaskGIT改进了VQGAN的串行序列生成模式，通过并行解码（paralleldecoding）提升生成效率，最高加速64倍，MaskGIT还进一步提升了图像生成质量，可以支持类别条件输入，也可以用于图像编辑和扩展。不过MaskGIT不支持文本引导图片生成。

Muse：Google在2023年1月发布的文生图模型（对应论文：Muse：Generationviamaskedgenerativetransformers）。不同于diffusion或自回归模型的方案，Muse是在离散的token空间上基于Mask方式进行训练，在当时获得SOTA水平，并且生成效率更高。

海外独角兽：为什么说diffusion也在不断学习语言模型的东西？怎么体现在diffusion的发展和迭代中？

LuJiang：第一代diffusionmodel是pixeldiffusion，这种方法处理速度较慢，尤其是在处理大量像素，比如高分辨率图像时。所以，如果直接在视频任务上应用pixeldiffusion就会相当挑战，因为视频是一个三维空间。为了解决这个问题，行业早期采用的是级联（Cascade）的方法，先使用一个小型模型进行渐进式生成，然后逐渐扩大模型规模，再把四到五个模型串联在一起。

Tokenizer：将文本或序列转化为标记（tokens）的工具或算法。在自然语言处理（NLP）领域，tokenizer通常用于将文本分割成单独的单词、短语或符号，这些单元被称为标记。在生成模型中，tokenizer的作用是将连续的输入序列转换为离散的标记，这些标记可以被模型理解和处理。上述的diffusionmodel采用的是tokenizer转化为连续的标记。

第二个比较大的里程碑是将U-Net架构逐渐转换成transformer上，这里的代表研究是DiT，这是个比较自然而然的过程，因为transformer架构能力更强、更能做生成。

对于基于transformer的工作，不管是latentdiffusion还是languagemodel，它们之间的区别很小，都是token-based，最大的区别在于基于diffusion的生成是连续的token，languagemodel处理的是离散的token。

海外独角兽：你提到目前有90%的视频生成研究者都做的是diffusion路线，为什么diffusion会是主流？

LuJiang：我们要把「研究成果」和「真正avaliable」分开看。现在之所以这么多人用diffusion，最大的原因是stablediffusion是一个最好的开源模型，它完整影响了整个生态圈。因为99%的论文不可能重新训基础模型，都是找一个已有模型再在它的基础上做一些尝试。

在理解生成模型时，可以分两个层次：基础模型和应用。基础模型的目标是实现整体的最佳性能，但可能不关心某个具体应用场景。根据（Bommasani等人2021）定义，foundationmodel有两个特性，第一可以赋能sampleefficientlearning，如果训练出这个foundationmodel，用户在解决具体问题时可能只需使用1%的数据或更少，第二个就是所谓的coverage，模型可以用来做任何事，只要微调都能用起来，现在的NLP基本上就是这样，拿我们的工作举例，VideoPoet、WALT和Muse等这些模型都是foundationmodel。

相对于foundationmodel的就是下游的applicationmodel，从foundationmodel出发，针对特定任务优化，比如大家现在看到的跳舞、Control-Net以及各种视频编辑、风格化（stylization）等等，都属于下游应用。

很现实地说，绝大部分高校很多研究者都没有能力做foundationmodel，需要的资源太多。在stablediffusion之前，DALL-E的出现极大地激发了研究社区的兴趣，DALL-E相比GAN在生成、计算和多样性等方面都有本质的提升。社区中有很多人尝试重现DALL-E，比如，有网友做了miniDALL-E，但质量惨不忍睹，社区很缺一个「可用」的模型。开源模型stablediffusion的出现填补了这个空缺。

在2022年那时候，Stablediffusion和DALL-E、GoogleImagen、GoogleMuse相比，不一定是最强的模型，但确实是最公开可用的模型，后续工作都是在它的基础上构建的，对社区有本质的影响。

这也是为什么视频生成领域也受到stablediffusion路线限制，因为现阶段的视频生成研究通常先从图像出发，把「帧」先生成出来，然后尝试减少一些不一致性、再播放成为一个视频，目前阶段的视频生成更像是「幻灯片生成」，我相信市场上都不认为这是最佳方法，但如果要生成一些可看的内容，这是唯一能做的方法，开源社区上的资源在很大程度上限制了我们能做什么。

海外独角兽：随着基于diffusion和大语言模型的技术之间的界限变得模糊，是否意味着越来越多的研究者会转向使用transformer架构？

LuJiang：我觉得即使在基于diffusion的路线中，使用transformer也会是个趋势，因为transformer更scalable，这是大家的共识。我了解到diffusion最大的模型也就7到8个billion参数规模，但transformer模型最大可能已经达到trillion级，他们是完全两个量级。

所以对于diffusion来说，我不觉得没有scale的可能，只不过从U-Net转到transformer的话，可能就能利用之前的学习配方（learningrecipes），大大降低搜索这种架构的成本。

海外独角兽：用LLM的架构做视频生成模型，和给一个LLM比如ChatGPT加上多模态能力，这两者有什么区别？

LuJiang：本质上说，基于languagemodel的视频模型仍是一个语言模型，因为训练和模型框架没有改变。只是输入的「语言」扩展到了视觉等其他模态，这些模态也可以离散化表示为符号。对模型来说，理解其他模态就像理解一种外语。我认为当前难点在于让LLM理解多模态任务，只要表示方式设计得当，LLM模型可以无缝理解和生成。

海外独角兽：最近发布的VideoPoet和WALT都用了transformer架构，效果也都很惊艳，大家也都觉得看到了diffusion路线之外的新趋势。这些研究的背景是什么，对视频生成领域的主要贡献是什么？

LuJiang：VideoPoet和WALT是我们最近发布的工作，VideoPoet是一个基于languagemodel的videofoundationmodel，它的目的就是想做一个模型，把所有关于视频的功能囊括到里面。WALT是与李飞飞老师和其学生合作的项目，WALT基于diffusion，但也使用了transformer。有意思的是，这两个模型其实用的是同一个tokenizer架构叫MAGVIT-v2，它们之间的关系其实非常紧密。WALT和VideoPoet使用的tokenizer层不同，WALT用的是连续层（微调后），VideoPoet采用离散层。

VideoPoetOverview

VideoPoet的贡献在于，它提出的视频生成方法在生成动作时能保持很好的一致性，尤其是大范围motion的连贯性，这是很强的贡献，另一个贡献是实现多种任务的一站式处理，和生成长度10秒视频。技术上的贡献或许没有多么复杂，这篇工作的主要意义是让社区重新认识LLM在视频生成上会扮演很重要的角色，它可能比人们当前的认知要强很多。

海外独角兽：大动作、一致性等问题是视频生成的难点，LLM能更好地解决这些难点吗？

LuJiang：我个人觉得视频生成的难点是motion部分，现在图片生成的方向是高清细节，但在视频里，人对动作是很敏感，一些奇怪的行为一下就能发现。目前市场上大部分视频生成的公司基本上做的都是运镜、非常小的动作，再加上camera的不同模式，很少有大动作，这对于现有的diffusion来说非常吃力。我的理解是因为它们没有很好的能建模运动的tokenizer，这也是为什么WALT的motion能做的比它们好。

我认为motionmodeling属于很头部的问题，尤其是复杂动作的连贯性。

2019年时我就见识了transformer的强大。那时通过合作，我也在做NLP方面的研究，和当时大多数视觉领域的人相比，我特别相信transformer，当时我的研究小组有个明确的目标，就是必须采用transformer，所以在GAN时期我们已经逐步把GAN架构替换为transformer，当然后面GAN也逐渐退出历史舞台了。

后来我们研究MaskLanguageModel，为什么做这个呢？Mask首先这是个transformer，当时解决的是速度问题，因为auto-aggressive太慢了，diffusion当时会更慢，但Mask可以很快生成，在2022年diffusion需要1000步的时候，它可能就只需要8步了。

做Mask的过程中我们提出了MaskGIT，认为可以用MaskLanguageModel的方式做图像生成，是把这件事做到了text-to-Image上。

我一直很坚信languagemodel的方法，从我内心来说，我不认为languagemodel比diffusion差，所以我一直主张坚持这一路线，比如后面包括用auto-aggressive与LLM结合。

做完image之后，我们就转向了视频。对于视频，我的信念是一定要使用transformer，虽然在视觉领域中使用U-Net依然是主流，这也是为什么WALT即使是用diffusion，我们仍然要使用transformer的原因。

海外独角兽：为什么你这么早就坚信transformer路线，这会是未来视频生成技术收敛的方向吗？

LuJiang：我所说的transformer、languagemodel以及largelanguagemodel（LLM）是一样的意思，因为这两者在NLP中是几乎相同的概念。长远来看，比如未来3到5年，我个人认为diffusion可能会失去竞争力。

首先，LLM可能是人类历史上第一个能够窥探所谓AGI的模型，而且是通过非常简单的方法实现，只要持续增长模型和数据，模型就能带来惊喜。在这之前的AI，我们基本可以知道它能做什么、不能做什么，但整体上不会「besuprised」，但现在，就像OpenAI的Ilya说的，通过很简单的预测下一个token的操作，就能支持非常智能的应用，我觉得因为transformer，我们几乎已经敲开了通用人工智能AGI的大门。人类历史上提出了很多AI模型，这是唯一一个实现这件事的，我们为什么不把它的能力发挥到最大呢？

第二点，未来5-10年，几乎不太可能出现一个新的模型挑战LLM在文本的地位。然后现在越来越多的比如音乐生成、音频生成、机器人等领域主流仍然是languagemodel，最近vision领域也发生了变化比如GPT-V和Gemini，我看到的大概率languagemodel也会把绝大部分visualunderstanding囊括。

所以从大的格局上来看，如果所有领域的研究都进入到LLM，那么为什么视觉领域要被单独拿出来做？它到底难到多大程度需要我们单独处理呢？因为单独处理意味着很多，从工程角度，要同时引入两套模型，会增加成本和优化难度。当然未来可能会发明一种diffusion和LLM混合使用的方式，但生成仍然是要在languagemodel内原生的，diffusion更像是辅助的存在。从大的格局上，我认为没有什么不可抗的困难要把图像和视频生成任务从语言模型中单独剥离出来。

我深信LLM的第三个原因是：现在的图像生成模型解决的问题类比到NLP来说相当初级，例如，让模型生成一张「戴红色圣诞帽的狗的图片」这样的任务，这在NLP中相当于生成「dog」、「redhat」和「ontopofthedog」几个词语，人们不会觉得这是「智能」，只是换到图像模态，大家在视觉上觉得很惊艳，但这绝对不能代表是视觉领域的智能。

海外独角兽：如果把大模型类比成人，现在只是有了语言，还需要眼睛和其他模态。怎么定义视觉和多模态的智能？为什么现在还没能实现？

LuJiang：「智能」是一个整体思想，「模态」是人类智能的表现形式——语言是最抽象的，声音和视觉领域是语言的延伸。LLM已经展示了语言智能，但还不是全部，类似于一个人有想法，但没有手画出来，没有途径表达出来。这是暂时的制约，不是LLM的本质缺陷。

未来谁能打败Midjourney？一定不是在图像质量上竞争，现在的症结点已经不在这里了，大家现在说DALL-E比Midjourney好，我认为是说DALL-E的promptfollowing要更好，在visualintelligence语境下，promptfollowing可能是最基本的。

用一个例子说明什么是真正的visualintelligence，比如一个创业者想准备融资的pitchdeck，目标是能获得融资。这是个很任务导向的问题，把这个需求给模型，模型理解了问题后可能还会追问一些细节，例如投资人的背景等等，在这些信息基础上，输出一份满足需求的deck，最终融资结果可能比人做得还好，这才是视觉领域中隐藏的真正智能。

Visualintelligence是广泛存在于我们社会中的，甚至后面还可以接入VR、AR。

我觉得LLM是有这个能力的，现在的局限是新模态中的理解和表达。现在有两条路来解决这个问题，一种是重起一套新模型让它实现理解和表达，这就是diffusion的思路，还有一个思路是，能不能想办法让LLM模型自己学习理解和表达新的模态？如果能够实现第二点，那么我们就真正解决了这个问题。

海外独角兽：VideoPoet和WALT这两个项目效果为什么这么好？其中有什么关键工作吗？

LuJiang：WALT和VideoPoet的相似点在于都使用了transformer、使用了同一套tokenizer架构，就是MagvitV2，这是我个人很满意的一项工作。

Magvit：Maskedgenerativevideotransformer研究中引入了一个3D分词器，将视频量化为时空视觉token，并提出了一种掩码视频token建模的嵌入方法，以促进多任务学习。

我们之前做了Spae的项目，Spea的核心是做图像和文本语义的互联。我们发现，如果把这种东西接入到ChatGPT3.5、Bard这种LLM里面，即使这些模型之前从未接触过任何图像，也能通过极少量的图像示例实现图像生成和caption描述，只需要十几张例子就能完成。这个发现让我非常惊讶，一个之前完全没有接触过图像的语言模型，只需要少量的示例就能生成、理解图像。后来我们就沿着这个思路，继续探索如何让语言模型更好地理解和表达视觉世界。

这就是我们设计MagvitV2分词器（tokenizer）架构的初衷，也是VideoPoet效果好的最核心原因。使用分词器的方法有很多人尝试过，比如很早之前的VideoGPT等，但效果并不理想，我认为关键在于languagemodel虽然有足够潜力、但并不理解生成任务的具体目标是什么，tokenizer的存在就是通过建立token之间的互联让模型明确「我现在要做什么」，互联建立得越好、LLM模型越有机会发挥它的全部潜力。

所以，如果模型不理解当前的生成任务，问题并不在于语言模型本身，而是我们没有找到让它理解任务的方法。

这也是为什么我们的研究叫做：languagemodelBeatsdiffusion-tokenizeriskeytovisualgeneration，在这篇研究里面，我们和ImageNet这些项目在benchmark上相比证明了，一个好的tokenizer接入到语言模型后，能够立即可以获得比当时最好的diffusion还要好的效果。

我们的研究可能会让社区意识到tokenizer是被严重忽视的一个领域，值得发力去做，我也相信tokenizer会变得越来越好。

海外独角兽：除了让LLM更明确理解任务，tokenizer在视觉智能中还会起到什么重要作用？

LuJiang：text模态里面已经有tokenizer，在人类自然语言上万年的发展造就了现在「自然语言」系统。我们要构建的是视觉领域的语言系统。如果能把tokenizer做得更完善，随着能力进化，它连入LLM的能力就越强，我觉得是一个实现visualintellegence的方法。

如果想实现visualintellegence，能不能只是把LLM和diffusion桥接起来？我觉得这是个好的过度方法，但是最终可能性很低，因为这对桥的要求很高，要保证信息能够被准确传输，现在大多数桥是通过crossattention实现的，但真正的关键在于transformer的大计算量的self-attention，现在这个桥的带宽会限制LLM的发挥。但如果把tokenizer的这种能力集成到languagemodel，就能和其他模态互联，很轻松地做multi-task。

海外独角兽：要做出好的tokenizer最大的难点是什么？MagvitV2的成功主要突破了哪些难点？

LuJiang：难点主要是压缩问题，语言模型的逻辑是压缩器，但视频序列相比文本来说信息量太大，现在的LLM更适配于自然语言的处理，虽然现在很多模型说自己能处理更长的context，但这是建立在文本数据的前提上。文本中的依赖关系较弱，可能偶尔有些词汇存在依赖关系，但视频中依赖关系要强很多。

所以如果要让LLM表现好，需要把sequencelength压缩到一个合理的范围内，难点在于怎么设计压缩。有个领域叫NeuralCompression，专门研究怎么把视频压缩到一个很小的内存上。有一类观点是「压缩得越好，生成得越好」，其实不是，可能现在我们还没理解这两者的联系。压缩不仅要追求压缩率，还要保证压缩后能把高质量的信息准确传递给languagemodel，我们攻坚的也是这个问题。

我们花了3年半的积累才最终设计出现在的tokenizer，在2021年做图像生成的时候，我们就发现tokenizer就是很关键的环节，这里有很多技术细节，也包括一些GAN的东西、怎么评估压缩效果等，都是需要去攻克的，还有个难点是怎么判断压缩得好还是不好，我们团队也是做了上千组的实验才找到方向。

海外独角兽：和文字相比，视频数据体量很大、但信息密度低，模型处理起来也很困难，这个问题要如何解决？tokenizer也会在这个环节发挥作用吗？

LuJiang：如果做视频理解，只需把关键信息拆出来就可以压缩得很小，但问题在于如果要做生成，怎么把细节重构出来？只靠几个字是不够的。

这个方向很有趣、很值得进一步探索，因为任务对表示的细节有不同的需求。例如，对于高清视频压缩任务，压缩后的表示必须能很好地重构并展示所有细节，用于生成的表示也必须保留足够的细节，方便后续高质量地重建内容。

Spae：Google和CMU在2023年联合发布的基于LLM的多模态语义金字塔自编码生成模型，Spae实现了一种向量化的映射器，将图片这类非文本的多模态信息先编码映射到大语言模型的词汇空间中，实现图片到文本转译，再通过金字塔形逐层细化的图片文本转译，从而实现对图片的文本化精确理解。

Tokenizer的另外一个价值在端侧，现在大家都在提「未来是on-device的天下」，要真正做到这一点也需要tokenizer的加入。

用MagvitV2举例，如果不把它看成生成模型，看作是一个压缩模型，它把视频压缩成一系列离散的语义token，这些token再转换回视频，就完成了压缩和解压的过程。从压缩比来看，这种方法已经超过了当前主流的H265，接近下一代视频编解码标准H266的性能。

对于on-device来说，我认为这个特性相当重要。我们进行视频的修改，是从视频解码这个环节开始，再把解码后的code放在内存，再通过一套方法生成，链条会特别长。但如果从token开始，首先在存储上的要求变得更友好了，其次，节省了很多前序处理的环节和内存，直接拿到的就是模型需要的东西，然后再直接输出。

在这个模型里，生成和显示或许是同一件事，模型可以直接输出显示的视频，也可以直接用于生成新的内容，比如视频从横屏变成竖屏可以瞬间完成，因为对于生成来说，它在做渲染的时候也可以生成，而不是分成两个模型来做，所以接下来视频的修改会变得非常容易，在未来竞争中也会变成重要武器，因为tokenizer实现了本质上的速度提升。

海外独角兽：从token开始处理视频意味着在视频的解编码模式在未来也会被替代？

LuJiang：理论上可以，但需要长远的发展，模型越做越好肯定会超过，但受制于一些实际应用层面的问题，这些问题还需要再优化，比如token逻辑下neuralnetworkdecoding的速度是个瓶颈，还未涉及到CPU的优化等等，有很多类似技术上的考量。但我觉得社区能持续做优化，这件事就是非常有可能的。

另外当前是因为视频解码编码已经有一套固化的infra了，新东西如果想改变它，就必须比它好很多倍。可能到下一代，视频的生成和显示是一体的，这就是本质上的上升，人们在玩手机上编辑视频可以是瞬间的，就可以把一些显示出来、一些生成出来，或者混着去做，这是现在的解编码的压缩还是无法做到的。

海外独角兽：VideoPoet现在已经可以实现了一些可控性，如果想让可控性更强，比如通过对话就可以实现精准控制和生成、甚至具有前面提到的intelligence，还需要做哪些突破？

LuJiang：我一点也不担心精准控制的问题，因为这是典型的下游的问题，只要foundationmodel越好，下游研究和应用的效果就会更好，比如基于SVD做视频生成不再是基于每一帧残影的slidegeneration。我们开源社区的创造力非常令人赞叹，到后面各种各样有趣的应用都会实现（故事生成）。

也有人认为不同的foundationmodel有自己的特点，可能有的问题在新的foundationmodel上就不存在了。举个例子，StyleDrop作者在Muse模型和stablediffusion上都尝试StyleDrop的工作，Muse模型本身就能表现得非常好，但stablediffusion需要做进行大量调整，且最终效果也不够理想。

StyleDrop：Text-to-ImageGenerationinAnyStyle研究的核心结果，是一种通过文本到图像模型实现忠实地遵循特定风格的图像合成方法。StyleDrop能够捕捉用户提供的风格的微妙细节，如颜色方案、阴影、设计模式以及局部和全局效果。它通过微调极少量的可训练参数（占总模型参数的少于百分之几）并通过与人工或自动反馈的迭代训练来提高质量，高效地学习新的风格。即使用户只提供了一张指定所需风格的单一图像，StyleDrop也能够产生较好的结果。

海外独角兽：VideoPoet未来有什么产品方向的计划？

LuJiang：VideoPoet可能会选择以某种产品的方式跟大家见面，比如API或者集成到Google的现在现有产品的生态圈。

海外独角兽：视频生成的foundationmodel存在我们在语言模型中看到的scalinglaw吗？当架构和技术路线确定后，竞争的关键是否就成了数据、模型的scale问题？

LuJiang：我们论文有一些关于scalling的内容可以作为参考：

通常来说，大公司相比创业公司，在数据方面限制更多。但与此同时，数据规模和模型规模应该匹配。小模型配大数据集可以工作，但大模型配小数据集一般不行。最理想的情况还是大模型配大数据集。

所以stablediffusion其实还没有成功地scale，可能它的数据已经很多了，但如果能做到scale可能会发挥更多实力，相比起来，我们的观察是transformerscale起来更容易，而且transformer有很多现成的学习配方（learningrecipes）。

海外独角兽：在LLM路线上，视频生成要做到较高质量，需要的GPU是什么量级？

LuJiang：目前视频生成方案还不够稳定，仍需要继续探索一个不同的模型，还不到某个质量阶段化，具体的需求就很难去讲，现在这个阶段过早地做模型的scale可能也不是最合适的，但tokenize之后的视频其实是存储友好的，因为它实际上和文本一样都是token，不过压缩的长度更长，这可能是之后研究的一个核心。

海外独角兽：你会如何定义视频生成的「ChatGPT时刻」，什么时候会到来？

LuJiang：视频生成的「ChatGPT时刻」，我觉得大概是，哪怕模型生成的还是比较短的片段，比如2-5s，但这个生成是可控的，人类也很难分辨是AI生成还是人类制作。从用户角度，只需要几美分的代价，就能获得一个可以被送到好莱坞专业studio的样片。如果类比的话，可以类比到图像领域stablediffusion1.x或2.x版本，肯定还有再提升的空间，但已经到了能使用的程度，而且能激发很多应用。

现在市场上所有的视频生成都达不到这个标准，所以我认为视频生成的方法可能还需要进一步迭代，有可能要达到「ChatGPT时刻」需要新的模型和方法，它不一定是全新的模型或者架构，可能是现在市场上的某个技术路线或者方案再往前走一步。

海外独角兽：视频生成技术会和文生图一样commoditize吗？如果选择LLM的路线，是不是会更容易拉开差距？因为资源、能力、技术壁垒带来的差距会更大？

LuJiang：我觉得可能会和image很像，但取决于几点：

开源社区也有很好的LLM作为支持，如果想做也可以走这条路线，但重点还是要攻克tokenizer技术，我相信会慢慢赶上。

未来总会有部分人实现更先进的技术，并影响整个领域，可能会有一个提前量，几个月或者一年，但总会有人追赶上来，我觉得可能最终关键不是看技术，而是怎么把技术放到用户的手里。Midjourney就是一个典型，Midjourney已经做得很成功了，但是其实它可能不是一个很好的产品，因为其很容易被替代。所以更核心的是怎么把同一套技术更好地放到产品里。

海外独角兽：我们也经常讨论这个问题，视频生成其实相当于把拍摄和后期的很多过程省掉了，能够影响的产业很多。

LuJiang：降低视频制作成本还只是视频生成发展的起步阶段，接下来的方向可能会是所谓的「personalizedmovie」，模型根据每个人的背景、想法生成个性化的结果。

再比如现在大家看短视频是随着「下划」，推荐算法会帮忙「找」出更符合用户兴趣的内容，也许在生成技术足够成熟的时候，随着用户划动，系统会自动生成他们更想看的内容，这是一种真正意义上的变革。

海外独角兽：为什么最近半年视频生成领域成为热点、甚至有「井喷式的重复」的感觉？

海外独角兽：能够在技术上做到实质性突破的团队画像是什么样的？需要Ilya之于OpenAI这样方向领袖型的人？还是团队一起突破？

LuJiang：目前阶段如果要实现一些突破性只靠一两个人是不行的，但是也不需要很多人，可能核心人员4-5个左右、再加上一些支持性角色就可以实现。现在diffusion其实很大程度上都受益于JonathanHo等关键科学家的研究。

我非常钦佩早年推广diffusion的学者，比如Google内部的Imagen和DavidJ.Fleet的团队，他们diffusion这条一路走过来很艰难，他们从16年开始，当时大家都不看好，因为当时diffusion比GAN质量差非常远，又慢1000倍，但是他们就一直坚持做，直到真正把diffusion变成主流。我觉得有自己有信仰是科学家一个非常崇高的品质。

技术并不成熟的时候，是需要由领袖人物来做出重要突破的，但现在不一样的一点是资源分配很不公平，所以现在可能需要一个非常有能力的团队，以及充足的计算资源和support来不断创新。

另外，视频生成相对特殊的一点是，需要大量的计算资源。从事机器学习的人大多数是专注于图像领域，做text或image，而视频相对较少，因为视频领域的计算力门槛相对较高。但是视频有自己的一些逻辑和理论内在的东西。如果在这视频方面有经验，这些经验是可以大量迁移的，可能能用很少的计算资源找到一个好方向。如果计算资源有限，有经验的人能更合理地设计，把每件事都想到极致。

海外独角兽：你在研究过程中有遇到什么困难吗？

LuJiang：在2022年，我们在做Magvit的时候，当时Google有另外两个重点项目，Phenaki和ImagenVideo，我们的团队规模非常小，能够使用的Google计算资源也非常有限，可能和大学的lab一样，差不多是其他项目的1%左右。当时，这些团队都在做text-to-video，我们忍痛放弃，并且最终决定开发video-to-video也就是Magvit。最终，在条件非常有限的情况下，我们从benchmark上是显著高于Phenaki的，这个过程中我的压力很大，我的家人也给了我很多支持。

我认为这就是因为我们自己的经验和方法，在设计过程能节省很多计算资源。我已经在视频领域工作了十多年，我们也有一套自己的方法论，比如怎么提升性能，我们在视频处理上已经掌握了大量know-how，这些可以在不同的项目中迁移。

海外独角兽：你在视频领域做研究十多年，这种热情源自于哪里？

THE END

专访VideoPoet作者：视频模型技术会收敛，LLM将取代diffusion带来真正的视觉智能

抖音与短视频：两者的

视频直播平台开发怎么做？数商云在线直播系统搭建步骤全解析

小风羊管家新手做短视频会遇到的问题有哪些？

《灾害事故现场音视频采集和传输通用技术要求》解读政策解读

这里有100多条如何做youtube视频的想法。总有一个适合你邦阅网

音视频技术体系5GeMBMS对超高清的影响技术体系5G带宽新浪科技

专访VideoPoet作者：视频模型技术会收敛，LLM将取代diffusion带来真正的视觉智能

有图不一定有真相信视频？现在P视频神器也来了新闻频道

高清抠像背景视频怎么做，应用AI技术更简单

短视频内容理解与生成技术在美团的创新实践

基于5G网络的视频低延迟视频关键技术及应用场景移动通信

HDMI2.1有什么用？一文看懂HDMI2.1有哪些新特性

音视频技术入门课03如何做音视频的封装和转码miyan

AI视频生成的场景痛点及产品功能设想（7000字）@Seanai工作流