AI视频生成的场景痛点及产品功能设想（7000字）@Seanai工作流|做视频需要哪些技术_宠物造型

一、核心用户画像、场景及痛点需求分析

三、视频生成产品中，AI产品经理的价值及核心工作是什么

核心观点包括：

优先将常用功能做出差异：先开发、优化常用功能，做出差异化亮点（如对口型、人物一致性），再融入其他功能，最终覆盖完整视频创作流程。

AI视频新奇玩法模块化：封装AI视频新奇玩法为单个功能，如老照片动效功能、续写梗图剧情功能。用Agent工作流来增加视频成功的概率，并在功能上增加用户引导。

一、视频生成产品的用户、使用场景及需求1.1C端用户

普通用户

专业视频制作师

创意需要：对视频质量有较高要求，希望AI能激发创意。

提效需求：交付有截止日期，希望AI能在保证质量的前提下，加速视频制作。

用户需求：

预算限制：传统视频拍摄和制作成本高，视频制作有预算额度。

内容质量高：需能展示产品卖点、符合品牌营销策略，还需具备传播性和营销效果。

二、个人对AI视频产品形态的思考2.1针对C端普通用户

普通用户对AI视频的消费需求，可能带来AIGC内容平台型机会（类抖音），但现实情况是：针对短期猎奇需求，大部分用户没用起来。很多人更愿付费购买“老照片动效成品”，而不是自己使用即梦、Runway等工具。

长期来看，用户对AI视频容易失去新鲜感。当前AI视频更多像动态PPT，镜头间不够连贯，质量不如生活实拍效果，更难与影视类的作品相比。用户更想看的是优质的、记录生活的，能引起情感共鸣的内容。

如何破局？

第一阶段：让普通用户，方便的用起来AI新奇功能（类似老照片动效），对应功能P0-1、2、3。

第二阶段：激发、满足长期需求，让用AI辅助视频创作成为长期现状，对应功能P0-4。

普通用户难用起来的原因：

（1）缺乏基础了解：不清楚AI能力，觉得复杂高深，没有很强的尝试意愿。

（2）不了解AI本质是预测和概率：有的用户试了一次效果不理想，就觉得功能不行，不再使用。

（3）现有产品功能有使用门槛：视频生成Prompt撰写，AI精准生图，视频可控性功能（如首尾帧、动态笔刷）都有一定的学习成本。产品大多也要付费、申请内测等。

解决方案

核心是给予用户引导及例子。从Prompt扩写、功能模块化、给例子促灵感三个角度考虑。

整体思路优先开发技术较为成熟，但仍需改进的功能，做出差异化亮点（如对口型和人物一致性），再融入其他功能，最终覆盖完整视频创作流程。

P0级功能设想

P0-1：Prompt模板化、提供扩写

背景：不同产品推荐的Prompt格式和支持的内容不完全一致。例如，都支持风格描述，但支持的具体风格不同，这可能是由训练视频的文本描述格式不一致导致。

具体功能：在产品里内嵌Prompt模板或提供Prompt扩写功能。用户只需填空，例如【主体】+【动作描述】+【环境背景】+【风格】+【画面质量】。每项给出产品支持的种类及含义，如风格选项及效果演示。如下实例嵌入产品中：

AI对完成prompt扩写并生成视频后，用户如不满意，可选择让AI在保持用户输入主体上，多次随机生成完整prompt，并提供视频效果。用户可再做二次加工。

作用：降低用户使用门槛。用户有时只对于画面主体有想法，但怎样演绎效果更好，可能需要AI通过多次扩写prompt给到灵感，充分挖掘视频生成能力。

P0-2：AI视频新奇玩法功能化

背景：用户对文生视频、图生视频这样的功能名词，感知不如「老照片互动」、「我来设计梗图后续剧情」这类具体能做什么的名词强。目前，用户往往需要搜索教程才会使用。

具体功能：将AI视频新奇玩法封装为一个个功能。例如老照片动效、电视剧梗图（如容嬷嬷喂小燕子吃鸡腿）。用Agent工作流来增加视频成功的概率，并在功能上做用户引导，提醒用户可能需要多试几次、有合规风险等。

以老照片互动为例，通过人像抠图、背景融合等工作流节点，提升功能效果，给予用户操作教程指导，可能介绍哪些互动关键词，能让视频效果更好。

P0-3：灵感探索站

背景：仅有产品使用教程不够，用户需要更多案例来引导创作。

具体功能：提供大量新奇，好玩的素材样例。同时提供案例背后的模板，用户可直接套用，或在此基础上做二次创作。类似Morphstudio的功能（下图）。

作用：完整故事的制作依旧比较复杂，二创相对容易很多。同时灵感探索站本身也可以是AIGC视频内容消费平台。

P0-4：AI辅助视频剪辑

具体功能：AI制作动效或者视频图层，例如视频中的AI生成彩色蝴蝶。这些功能也可用于短剧，MV制作。

作用：实现目标用户的破圈，AI（虚拟）+现实视频的结合。既用到了AI视频能力，又满足了普通用户消费“真实生活内容”的需求。

P1级功能设想

P0的需求，核心目的是让普通用户能够用起来。而P1的需求，是能让普通用户觉得AI视频生成好用，实现可能还需技术进步。关于“好用”，我理解包括：功能多样明了（对应功能P1-1）、更简便的可控（对应功能P1-2）以及流程简化（对应功能P1-3）。

P1-1融合多种视频技术

背景：当下AI视频技术种类繁多，例如数字人、对口型、表情控制、图+人跳舞、换脸、视频生成等。不同的技术对应不同产品、模型。但对于普通用户来说，可能会觉得都是视频。

具体功能：将多种AI视频技术融合到同一产品内，统一整合，用户提出需求后，引导用户具体使用某个功能。

P1-2视频内容定向修改

通过输入Prompt调整视频内元素。每次用户输入修改指令后，跳出详细的Prompt让用户确认，类似视频中的图像重绘功能（或是Pika视频内容修改功能的升级版）。

除修改视频内人物、物体外，还可通过Prompt修改对话脚本，加上用克隆的原声重新配音及对口型等功能，类似Vozo

P1-3视频端到端全自动生成

用户只需输入几个关键词（如故事主题、风格、剧情特色等），系统就能生成一个故事脚本。用户调整或确认脚本内容后，扩写每一幕场景Prompt。再生成视频，视频默认风格、人脸一致，人物对话、旁白有音效，且对好口型等。真正做到山姆奥特曼所说“电影变成了游戏”，技术上可能还有距离。

2.2针对C端专业视频制作师P0级功能设想

专业设计师、剪辑师，已有成熟的视频生产、剪辑工具，因此需要解决"专业设计师为何要用AI视频产品"的问题，在AI生成质量尚未达到非常高水平的背景下，关键词是“提效和可控”。

P0-1更多细项常用功能：

其他常用功能有很多，例如视频内定向换脸，对口型功能，镜头平移但物体不变形等等，目的都是为了提效。

P0-2更多内容元素可控：

除了上面内容元素可控外，还包括视频风格、运镜、帧率、清晰度、表情、背景、光影、图层、音频等等也可控，最终不需绿幕就能实现近似专业影视效果。

当前AI视频一大痛点是对物理世界的规律和Prompt的理解不足。增强视频的可控性，可一定程度上解决这些问题。同时也能帮助提效，避免频繁抽卡。视频各项元素越精细化可控，制作效率越高，专业制作人更可能使用。

这些常用功能看起来已有很多产品在做，但核心是做出差异化，有不同实现方法或者更好模型效果。在完成亮点功能的MVP后，再考虑其他P1级功能，逐步完善产品。例如，可控性方面，Runway做横纵斜方向的运动笔刷，Pixverse功能上支持以箭头设定运动方向，寻梦则预告实现对图层的控制。

另外，这些功能或许应从海外专业用户开始付费推广。当前AI生成视频产品有算力成本，而海外用户付费意愿较高，类似Midjourney、Pixverse等产品，优先在Discord版推出并收集用户反馈。先向海外专业用户推广，再相应调整定价策略、产品功能，更有助于实现正向ROI。

覆盖AI视频生成全流程：包括生成剧本-生成分镜表-生成图片提示词-挑选图片-图生视频-挑选视频-剪辑视频等等，用户可对每个步骤做进一步修改，例如分镜表中调整某一幕的运镜，视频效果也相应调整。

支持功能协作：允许多人对一条工作流进行加工，并提供权限控制。

素材管理、剪辑功能：便于组织和管理各类素材。支持强大的剪辑功能，类似剪映、Pr。

此外，一个大的作品背后是大量素材（图片、短片），以及多人的协作（P1-1、2）和专业的剪辑，需要素材管理和剪辑功能。

ToB视频生成的核心内容包括“视频素材生成”以及“端到端视频生成”，核心都在于设计好Agent工作流，并针对不同产品类型训练和调优模型。

虽然视频生成技术还不成熟，但在tob领域也有应用，视频在吸引客户的效果上，很多时候比图片更好，但需要运动幅度小，时长短，效果可控。

动态微视频：将图生视频的能力固化为功能，用户可上传图片，生成动态微视频。例如在试衣视频中，用户可上传自己的照片或选择模特照片，生成试衣视频。

要实现这部分能力，需要更好的Prompt扩写功能及Agent工作流（融合好运动笔刷效果）。

端到端混剪视频生成：

通过用户提供的宣传关键点、图片、视频素材，生成相应的脚本文案、字幕、动效。工作流包括：产品亮点素材挖掘、配乐选择和模板选择等。例如试衣视频，涉及抠图、上身、更换背景、生成动效等步骤，根据商品类别提供多种混剪模板，生成凸显产品亮点的混剪视频。

需设计好Agent工作流，通过Agent来增加每个步骤的成功概率，可能需要对不同品类的商品，做定向模型训练。例如，介绍椅子时，先介绍面料、人体工学，从功能到整体，最后细节展示，而这套流程可能不适用于鞋类或衣服。

同时，需要根据用户反馈，持续迭代模型及产品。例如，针对衣服的宣传，如果褶皱飘动效果不自然，可能在调优模型时，需要补充优质的衣服褶皱、飘动数据。

后链路数据监控，记录不同视频内容带来的品牌增粉，下载，注册等。

产品能让视频附带营销关键信息，例如地理位置、留资链接等。

视频多账号管理，批量分发视频功能。

后链路数据的效果监控，以及让视频附带营销关键信息对转化非常重要。此外，商家和公司往往有多个自媒体账号，可能由不同员工负责，需有效管理这些账号，确保视频内容符合品牌调性。

三、在视频生成产品中，AI产品经理的价值及核心工作是什么

我认为核心工作是：找到在当前AI技术能力下，以前满足不了（或不够好），但今天能满足（或能更好）的功能点。具体包括：

找到限制条件下最优解

当前的一些视频功能，需要同时兼顾算力消耗、质量、用时三个维度，用户希望生成用时少的基础上，保持高质量。这需要产品经理做出取舍。

需求挖掘和功能设计

模型能力的提升

具体包括：（1）针对目标场景，清楚模型哪里还不够好（2）清楚可以给技术侧，怎样的支持帮助调优

识别到问题后，除和开发沟通算法架构的提升外，也需考虑训练数据的质量问题。比如训练数据里的Prompt没有描述清视频里的多主体，才导致多主体表现效果不佳。增补优质训练数据的同时，也考虑调优数据造、挖、洗这整一条数据加工流程。

这些产品的详细信息，笔者已整理成表格Excel

根据这些产品的核心功能，主要对以下4类：视频大模型、数字人、多种类AI视频组合、端到端解决方案，挑了部分产品在本文做简要介绍。

4.1视频大模型

以Sora为典型代表，仅输入简单文字提示或者图片，就可通过模型生成视频，以下选取了在各项评测中，排名较高的产品。

4.1.1Pixverse

核心功能包括：

动态笔刷：通过在图片上画箭头，用户可自定义物体移动方向。图生视频凭借类似功能，能实现比文生视频更好的稳定性。

风格设置：用户可选择视频风格，包括写实风格、动漫风格、3D风格等。

4.1.2Pixeling千象

一款全中文、易上手的AIGC创作平台和社区。注重用户友好和简单操作，帮助用户零基础轻松使用一站式功能。核心功能包括：

文生视频、图生视频、运动幅度设置、视频横纵比设置、镜头控制等。

电商百宝箱（E象）：提供了专门为电商设计功能组，包括商品视频模板和多种实用的电商图片处理工具。

优秀视频效果

4.2多种类AI视频组合4.2.1布尔向量（BOOLV）

将出海、海外电商用户可能用到的许多功能，都集成到同一个产品上，提供从商品链接到视频生成，再到效果分析的全链路支持。

多种视频生成方式：支持从图片、脚本、博客内容和模板生成视频，并提供视频增强功能。这里与视觉大模型不同点在于，布尔向量的成品更像是各类模板视频、移动相册图的排列组合。

提供方便简洁的视频剪辑工具。

提供视频效果分析工具，商家可凭借效果数据，更好的调整和优化视频内容。

官方功能介绍

产品优势

场景适配度高：BOOLV专门面向电商用户。模型本身对电商场景和品类做了微调，在功能上，覆盖了许多海外电商用户“生成营销内容场景”。

稳定性高：由于视频依赖于模板和图片轻微移动、镜头平移，布尔向量的视频稳定性和一致性更高。

形式多样：布尔向量和广州美院合作，制作了大量针对各类场景，有艺术气息的模板，并支持多种元素（如音乐、字幕、特效、贴纸）的组合，使得视频内容更加丰富有趣，效果不单一。

4.2.2其他同类产品

Creatify：能够自动分析产品信息，并生成脚本。提供了多样化的语音选项和数字人。

这类产品由于功能更加丰富，不局限于某一种技术路线。且覆盖了出海电商视频制作中各场景需求，使得电商视频制作效率大大提升。

4.3数字人Heygen

数字人克隆：用户可上传自己的声音和画面，来克隆一个数字化的自己。这使得个人和企业能快速生成与自身形象相符的数字人。

允许用户通过上传照片，或选择预设模板来生成数字人。支持语言翻译，保持口型一致。

优势：

操作简单快捷：技术相比视觉大模型来说更成熟，不需要许多后期剪辑技巧，用户可轻松创建适用各种场景的商业视频。

多语言支持和本地化：提供换语言及调整口型功能，有非常大的用户群体。本地化的内容对营销效果来说，可以极大的增加可信度和营销效果。

劣势：

产品价格高：生成1分钟的视频需要2美金。与传统拍摄方案相比，价格不算高。但由于算力消耗方面的考虑，HeyGen编辑视频的过程无法预览效果，用户在制作过程中需要反复调整，会重复支付费用。

4.4端到端解决方案FancyTech

与其他同类产品的不同点在于，不提供视频生成工具，而是转向提供结果。FancyTech联合创始人Morgan表示，传统SaaS订阅费并不能免除提供商与客户持续互动的责任，这使得服务交付成为业务的重要组成部分，避免过多的产品定制化。

根据布尔向量CEO王庆描述：

“现有电商商家主要分为两类，一类用户是研发能力很弱，相对比较传统，但他们业务体量可能很大；第二类客户的话相对比较年轻，然后他们有比较好的研发能力。这两类客户商业模式不太一样。

针对第一类客户来说，他们更多是希望你能做交付。因为缺乏研发能力，做部署化SaaS和交付就会比较好。第二类客户会更加希望做共创。比如给到API，在业务流的某一个环节给到支撑。

FancyTech类的服务，可以满足第一类客户的需求。我相信随着技术的不断升级，用户结合相应产品制作视频的成本不断降低，会有越来越多的第二类客户。

五、个人介绍及联系方式

3年工作经验（含2年车企数据产品运营、1年车企管培），公司2023团队内最佳（前10%），2022管培项目结业S评级（前20%）。

熟悉NLP、ML、AIGC，能与技术团队顺畅沟通。可用各类数据分析软件及方法，独立产出数据洞察报告。

海外硕士，英语能作为工作语言，托福阅读满分（30），听力29分。

本文作者sean，来自咱们社群“”。

【Onemorething】

最近，池建强老师团队的墨问西东平台，上线了hanniman的专栏「黄钊的AI产品内参」

每天5条AI内容点，日更3个月，现价90元，仅需1元/天，3天内无理由退款（联系墨问客服同学）；订阅入口和详细介绍在——

注：星球“AI产品经理大本营”会员、小报童“黄钊的AI日报”用户，无需重复购买。

引申阅读：《》。

黄钊hanniman，前腾讯PM，前图灵机器人-人才战略官/AI产品经理，12年AI、15年互联网经验；社群“”（7年）和自媒体“”（10年）；作品有「」。

THE END

AI视频生成的场景痛点及产品功能设想（7000字）@Seanai工作流

抖音与短视频：两者的

视频直播平台开发怎么做？数商云在线直播系统搭建步骤全解析

小风羊管家新手做短视频会遇到的问题有哪些？

《灾害事故现场音视频采集和传输通用技术要求》解读政策解读

这里有100多条如何做youtube视频的想法。总有一个适合你邦阅网

音视频技术体系5GeMBMS对超高清的影响技术体系5G带宽新浪科技

专访VideoPoet作者：视频模型技术会收敛，LLM将取代diffusion带来真正的视觉智能

有图不一定有真相信视频？现在P视频神器也来了新闻频道

高清抠像背景视频怎么做，应用AI技术更简单

短视频内容理解与生成技术在美团的创新实践

基于5G网络的视频低延迟视频关键技术及应用场景移动通信

HDMI2.1有什么用？一文看懂HDMI2.1有哪些新特性

音视频技术入门课03如何做音视频的封装和转码miyan

AI视频生成的场景痛点及产品功能设想（7000字）@Seanai工作流