近年来,不管是从技术还是从日常生活,都能感受到我们正在进入到一个视频爆发的年代,当然这背后的一些软件和硬件的技术成为了这件事情的一个助推。从这些统计数据可以看到,无论是内容还是用户维度,视频数据都包含了非常大的信息量。在视频数据的分析过程中,不管是视频的创作、审核、编辑还是分发,AI算法都大有可为。这是视频行业整体现状的一个背景。
2.美团AI——"场景驱动技术"
在美团的业务场景下,为什么要对视频数据进行利用和分析?以常见的用户点评为例,传统的文本加图像在呈现信息的时候会有一些不足,相比之下,如果以视频点评的形式去呈现一个非常有创意的内容,不仅对商家来说是一个比较好的信息的宣传,对于用户来说,也是一个更加生动的信息获取的维度。在这种情况下,相信大家可以感受到美团在短视频上其实是大有可为的。
按照视频行业的大致划分,美团的视频绝大多数属于本地生活场景的碎片消费,这其实也是符合大家的认知的。美团的业务场景非常多,不管是在B端还是C端,丰富的供给源和展位都有非常多短视频内容的呈现。在这样的背景下,可以看到美团不仅有丰富的应用场景,同时又有丰富的视频内容和展位。对应到线上的这些应用,往下技术层要做的事情也就逐渐浮出水面,它是一个从视频内容的素材供给到内容分发以及创意展示全链条的一个AI赋能的情况,同时也可以看到在每一个内容流转的环节都有很多计算机视觉技术可以去发挥作用。
02短视频分析技术在美团的技术实践
1.视频多标签分类
背景:
挑战:
视频多标签分类有什么难点呢?在美团的场景下,数据非常丰富多样,如何有效构建模型以及我们的标签体系成为分类模型启动阶段需要克服的第一个困难。其次,初始模型构建之后,前期要对标签保证一个准确率,但是标签覆盖率可能会有一定问题,很多业务数据是打不上标签的,如何进行标签体系的扩展是第二步。最后,因为内容的更新和迭代是一个持续的过程,所以技术打标的能力也是需要有一套能够增量学习的机制,从而进行高效的样本迭代,这是第三个非常关键问题。下面分别就这三步介绍我们在这方面的一些技术实践。
初始模型构建:
由于YouTube-8M数据集的内容和本地生活场景还是有比较大的差别,数据内容和标签的差异是接下来我们要处理的一个更为困难和实际的问题,这也是当前任何一套数据驱动的Deeplearningmodel需要克服的问题。在Facebook以及Google的一些工作的启发下,我们提出了一套半监督的、知识迁移的学习范式,首先利用公开数据集训练的TeacherModel在业务场景下的无标注数据上进行打标,在这个过程中利用置信度卡控、相似性距离度量或者LabelPropagation这类半监督学习常用的方法进行一些伪标签的清洗,从而获得业务场景下的一些标注数据,然后利用这些标注数据进行Studentmodel的微调。这个过程可以进行若干轮的迭代,Studentmodel学习到一些信息之后,可以又变成Teachermodel进行下一轮的迭代。通过这样一番初始模型的构建,我们在业务场景的数据下,看到一个明显的效果提升,不同的品类下的一些视频标签的准确率有了非常大的提升。
标签体系扩展:
第二步紧接着面临的问题是初始的标签体系难以保证对业务场景内容有一个很好的覆盖,这里我们从横向扩展与纵向细化两方面进行了标签体系的扩展。
①横向扩展
②纵向细化
数据高效持续迭代:
2.视频智能封面
算法整体流程:
通用智能封面:
语义智能封面:
业务应用:
3.视频生成
视频生产在整个产品的链条中扮演的主要是扩充供给的作用,比如支撑商家相册内容的丰富。
视频生成技术:
在美团的场景下,视频生产技术的一个分层抽象会经历一个从下到上的处理流程,每一块都会有一些相应的技术点。对于素材筛选,因为输入的素材丰富多样,涉及图像、视频、音频、文本,所以每一块都需要进行一些针对性的技术的处理,然后再向上通过合成渲染、统一的风格化处理,最后输出内容到业务上进行分发和应用。下面主要以图像素材的筛选以及处理为例,展示两个业务场景下真实的技术应用实例。
应用场景:
①餐饮场景
在餐饮场景下,我们需要为商家生成一些宣传的小视频或者动图,这对于商家或者运营侧来说是一个端到端的黑盒,只要输入商家的店铺ID就能自动化生成最终的一个呈现结果。这里我们技术上图像会进行很多素材的AI理解和处理:首先基于识别质量卡控、内容去重对商家的相册进行一个整体的结构化以及质量的排序;然后通过理解内容找出来一些需要的图像并基于图像美学质量评价进行素材的精排;最后进行智能裁切、局部优选、动效渲染来整合素材生成最终的展示视频。在这个自动化的处理流程中,AI技术扮演了重要的角色,比如在素材理解上对菜品的识别和理解能力是比较核心也是很有美团特色的,同时还有素材的智能裁切,这其实都依赖于我们在信息流场景下一些长期的实践积累。
②酒店场景
03总结与展望
嘉宾介绍:
马彬博士
美团|技术专家
马彬,美团技术专家。2014年博士毕业于北航计算机学院,2017年加入美团,目前主要负责线上视频理解与生成方向的技术研发工作。此前曾就职于佳能研究院,研究方向为图像视频中的场景文字识别。