短视频内容理解与生成技术在美团的创新实践

美团围绕丰富的本地生活服务电商场景,积累了丰富的视频数据。

美团场景下的短视频示例

视频行业发展

我们能够快速进入了视频爆炸的时代,是因为多个技术领域都取得了显著的进步,包括拍摄采集设备小型化、视频编解码技术的进步、网络通信技术的提升等。近年来,由于视觉AI算法不断成熟,在视频场景中被广泛应用。本文将主要围绕如何通过视觉AI技术的加持,来提高视频内容创作生产和分发的效率。

美团AI——场景驱动技术

说到美团,大家首先会想到点外卖的场景,不过,除了外卖之外,美团还有其他200多项业务,涵盖了“吃”、“住”、“行”、“玩”等生活服务场景,以及“美团优选”“团好货”等零售电商。丰富的业务场景带来了多样化的数据以及多元化的落地应用,进而驱动底层技术的创新迭代。同时,底层技术的沉淀,又可以赋能各业务的数字化、智能化升级,形成互相促进的正向循环。

美团业务场景短视频

短视频技术应用场景

显式的视频内容标签在很多场景下是必要的,例如:内容运营场景,运营人员需要根据标签,开展供需分析,高价值内容圈选等工作。上图中展示的是内容理解为视频打标签的概要流程,这里的每个标签都是可供人理解的一个关键词。通常情况下,为了更好地维护和使用,大量标签会根据彼此之间的逻辑关系,组织成标签体系。

那么视频标签的应用场景有哪些?它背后的技术难点是什么?在美团场景下比较有代表性的例子——美食探店视频,内容非常丰富。标签体系的设定尤为关键,打什么样的标签来描述视频内容比较合适?

由于视频标签的标注代价非常昂贵,技术方案层面需要考虑的是:如何在尽量少用业务全监督标注数据的情况下学习更好的基础特征。首先,在任务无关的基础模型表征层面,我们采用了在美团视频数据上的自监督预训练特征,相比在公开数据集上的预训练模型,更加契合业务数据分布。

通过使用这部分数据做预训练,可以得到一个初始的TeacherModel,给业务场景无标注数据打上伪标签。这里比较关键的是由于预测结果不完全准确,需要基于分类置信度等信息做伪标签清洗,随后拿到增量数据与TeacherModel一起做业务场景下更好的特征表达,迭代清洗得到StudentModel,作为下游任务的基础表征模型。在实践中,我们发现数据迭代相较于模型结构的改进收益更大。

面向具体标签的性能提升主要应对的问题是,如何在基础表征模型的基础上,高效迭代目标类别的样本数据,提升标签分类模型的性能。样本的迭代分为离线和在线两部分,以美食探店标签为例,首先需要离线标注少量正样本,微调基础表征模型得到初始分类模型。这时模型的识别准确率通常较低,但即便如此,对样本的清洗、迭代也很有帮助。设想如果标注员从存量样本池里漫无目的地筛选,可能看了成百上千个视频都很难发现一个目标类别的样本,而通过初始模型做预筛选,可以每看几个视频就能筛出一个目标样本,对标注效率有显著的提升。

第二步如何持续迭代更多线上样本,提升标签分类模型准确率至关重要。我们对于模型线上预测的结果分两条回流路径。线上模型预测结果非常置信,或是若干个模型认知一致,可以自动回流模型预测标签加入模型训练,对于高置信但错误的噪声标签,可以通过模型训练过程中的一些抵抗噪声的技术,如:置信学习进行自动剔除。更有价值的是,我们在实践中发现对于模型性能提升ROI更高的是人工修正模型非置信数据,例如三个模型预测结果差异较大的样本,筛出后交给人工确认。这种主动学习的方式,可以避免在大量简单样本上浪费标注人力,针对性地扩充对模型性能提升更有价值的标注数据。

上图展示了点评推荐业务视觉主题标签的应用案例,最具代表性的即为高价值内容的圈选:在点评App首页信息流的达人探店Tab中,运营同学通过标签筛选出有「美食探店」标签的视频进行展示。可以让用户以沉浸式地体验方式更全面地了解到店内的信息,同时也为商家提供了一个很好的窗口,起到宣传引流的作用。

上图展示了,不同维度标签对于技术有不同要求,其中细粒度实体理解,需要识别具体是哪道菜,与上层粗粒度标签的问题不同,需要考虑如何应对技术挑战。首先是细粒度识别任务,需要对视觉特征进行更精细的建模;其次,视频中的菜品理解相较于单张图像中的菜品识别更有挑战,需要应对数据的跨域问题。

上图()中展示的是第二部分的挑战。图像和视频帧中的相同物体常常有着不同的外观表现,例如:图片中的螃蟹常常是煮熟了摆在盘中,而视频帧中经常出现烹饪过程中鲜活的螃蟹,它们在视觉层面差别很大。我们主要从数据分布的角度去应对这部分跨域差异。

业务场景积累了大量有标注的美食图像,这些样本预测结果的判别性通常较好,但由于数据分布差异,视频帧中的螃蟹则不能被很确信地预测。对此我们希望提升视频帧场景中预测结果的判别性。一方面,利用核范数最大化的方法,获取更好的预测分布。另一方面,利用知识蒸馏的方式,不断通过强大的模型来指导轻量化网络的预测。再结合视频帧数据的半自动标注,即可在视频场景下获得较好的性能。

例如,通过算法自动挖掘出视频片段和标签,左图展示了标签出现的频率,呈现出明显的长尾分布。但值得注意的是,通过这种方式,算法能够发掘到粒度较细的有意义标签,比如“丝巾画”。通过这种方式可以在尽量减少人工参与的前提下,发现美团场景更多重要的标签。

另外,视频内容生产根据应用形式可分为三类:

下面,我们就三类应用形式展开说明。

第一类,图像生成视频。该部分要做的更多是针对图像素材的理解和加工,使用户对技术细节无感的前提下,一键端到端生成理想素材。如上图所示,商家只需要输入生产素材的图像相册,一切交给AI算法:首先算法会自动去除拍摄质量较差的,不适合展示的图片;然后做内容识别,质量分析。内容识别包括内容标签,质量分析包括清晰度、美学分;由于原始图像素材的尺寸难以直接适配目标展位,需要根据美学评价模型,对图像进行智能裁切;最终,叠加Ken-Burns、转场等特效,得到渲染结果。商家即可获得一个编排精美的美食视频。

还有酒店场景下相册速览视频生成的例子,相比动图,需要结合音频与转场特效的配合。同时,视频对优先展示什么样的内容有更高要求,需要结合业务场景的特点,根据设计师制定的脚本模板,通过算法自动筛选特定类型的图像填充到模板相应位置。

第二类,视频生成视频片段。主要是将长视频切分并优选出若干个更精彩、符合用户预期的内容作展示。从算法阶段划分为片段生成和片段筛选排序。片段生成部分,通过时序切分算法,获取镜头片段及关键帧。片段排序部分,比较关键,它决定了视频优先顺序。这也是比较困难的部分,它有两个维度:

2.2.3.1智能封面与精彩片段

原始视频

算法剪辑视频(10s)

我们通过视频生成视频片段,实现了两种应用场景。一是智能动态封面,主要基于通用基础质量优选出清晰度更高、有动态信息量、无闪烁卡顿的视频片段作为视频的封面,相比于默认片段的效果更好。

像素级编辑处理最重要的技术之一是语义分割,在应用场景中面临的主要技术挑战是既要保证分割模型时效性,也要保证分辨率,保持高频细节信息。我们对于经典的BiSeNet方法做出了进一步改进,提出了基于细节引导的高效语义分割方法。

由于图像的细节真值前后背景分布严重不均衡,因此我们采用的是DICEloss和BCEloss联合训练的方式;为了验证细节引导的有效性,我们做了这个实验,从特征可视化的结果中可以看出多尺度获取的细节真值对网络进行细节引导能获得最好的结果,细节信息引导对模型的性能也有所提升。

效果方面,通过对比可以看出我们的方法对于分割细节的高频信息保持具有较大的优势。

THE END
1.短视频制作需要掌握哪些技术(10页)短视频制作需要掌握哪些技术.doc,短视频制作需要掌握哪些技术 随着短视频平台的兴起,短视频制作成为了一种非常流行的娱乐方式。如果你想成为一名优秀的短视频制作者,那么你需要掌握一些技术。下面,我将为大家介绍短视频制作需要掌握哪些技术。 一、拍摄技巧 拍摄是短视频https://max.book118.com/html/2023/0814/8035002006005121.shtm
1.做短视频需要什么技术?做好短视频5大技能介绍运营技巧自媒体综合的讲,就是把做好的短视频,通过哪些渠道和方法让更多的人浏览和产生共鸣,进而获得一定价值体现。 到此这篇关于做短视频需要什么技术,做好短视频5大技能介绍的文章就介绍到这了,更多相关短视频的技术支撑内容请搜索脚本之家以前的文章或继续浏览下面的相关文章,希望大家以后多多支持脚本之家!https://www.jb51.net/zimeiti/836608.html
2.2023年注册公司经营范围怎么填写(做电商公司需要哪些经营范围)视频除外);商标代理;版权代理;商务秘书服务;创业空间服务;科技中介服务;企业管理咨询;法律咨询(不含依法须律师事务所执业许可的业务);信息咨询服务(不含许可类信息咨询服务);信息技术咨询服务;互联网销售(除销售需要许可的商品);广告制作;广告发布;广告设计、代理;技术服务、技术开发、技术咨询、技术交流、技术转让、技术...http://changsha.11467.com/info/18002222.htm
3.短视频制作需要掌握哪些技术短视频制作除了需要掌握一定的文案能力和拍摄能力,还需要具备过硬的剪辑技术。 软件:剪辑类软件Premiere(PR)或Final Cut Pro、vegas等,特效合成软件After Effects (AE),音频软件Audition(AU),后期处理软件Photoshop(PS)、三维软件C4D等。 技能:剪辑思维、一定的前期编导和拍摄能力、设计镜头的能力。平面软件、视频软件、...https://wap.hxsd.com/wenda/65263/
4.2024软件测试面试八股文(完整版)测试开发八股文从方法方 面看,是演绎和归纳的关系,一个要掌握大量的技术一个要不断的从实例中学习。因这 两方面的不司,所以开发和测试看上去做的工作很不一样开发与测试是相辅相承、密不可分的,开发人员开发出新的产品后要通过测试判断产 品是否完全满足用户的需求。如果发现缺陷,提交给开发人员进行修复,然后再转交测试 人...https://blog.csdn.net/HUA1211/article/details/142566782
5.无线泉州APP隐私政策我们收集这些信息是为了向您提供我们最核心的音视频展示和播放服务,如您拒绝提供上述权限将可能导致您无法使用我们的产品、技术及/或服务。 同时,我们的技术为您实现部分音视频的下载、缓存功能,在此过程中,我们需要收集您的一些信息,例如:设备存储空间、蓝牙设备信息。为此,我们将会申请访问您的设备存储空间或对您本...https://www.qztv.cn/static/html/user_secret.html
6.详解爱奇艺ZoomAI视频增强技术的应用机器之心爱奇艺资深算法工程师蒋紫东老师不久前在AI科技大本营平台做了一次《爱奇艺ZoomAI视频增强技术的应用》的公开课分享。通过本次课程,你将可以了解AI算法在图像增强领域和爱奇艺业务中的应用;了解超分辨率,色彩增强,去划痕等深度学习模型的技术演进,工程中的挑战和解决方案。 https://www.jiqizhixin.com/articles/2019-04-25-15
7.测控技术与仪器Q6:哪些同学特别适合学习本专业? 立志为国家仪器科学与技术、智能检测与控制技术作贡献的同学均可报考本专业进行学习和深造。不过,本专业的学科特点要求偏重理、工科。 Q7:本专业的学生需要具备什么特质? 测控技术与仪器专业的学生需要具有较扎实的数学、物理基础及较强的逻辑思维能力。同时要求学生具有高度的责任心、实...https://zb.ujs.edu.cn/info/1081/6629.htm
8.专访千视CEO左振宇:NDI5NDI作为现在应用最火热的视频IP技术,已经升级到了第五代,升级后的NDI 5成为面向远程、互联网及后期制作的新一代音视频IP技术,那和SRT相比,两者在使用上应该如何选择呢?而升级后的NDI 5优势和痛点分别体现在什么地方?NDI 5未来的发展趋势优势又会如何?针对这些问题,我们邀请了千视电子总经理左振宇先生与我们一起交...https://www.rbc.cn/shangxun/2022-06/06/cms1309128article.shtml
9.研究生个人年终总结(精选14篇)(12)视频编码技术及其应用 这门课主要讲视频编码领域的基础知识和各种编码标准,由于和计算机视觉有关,学完了觉得还是很有用。有两个作业,分组作业我们做的 是快速运动估计算法的研究分析,大作业做的是hevc算法的分析。学完这门课后看电影有个习惯,总是想帧与帧之间是如何预测的。 https://www.jy135.com/nianzhongzongjie/1358295.html
10....精装修技术咨询教学视频技术与方法,我们现在做准备工作,我们泡瓷砖的话箱子一定要放在非常平整,无任何沙子石块颗粒的地板上,否则这个胶箱的底部会穿掉(穿洞/孔)破裂后会漏水造成无法使用,把墙面墙角的少量沙子也铲开来(清理干净),再把胶箱放下去,现在由新冠肺炎的影响,现在由广州招电瓦工学员教育公司的师傅教现场拍摄这完整版的教程视频,...http://zxyjy.shengwanzhuangshi.com/news/show-4394.html
11.关于字节的Resso业务(国际音乐)你想了解的都在这里音视频技术储备多,机会多 Resso做为一款音乐产品,致力于带给用户流畅的播放体验,极致的交互响应。在这里可以吸收到点播,直播,码率,异步化,渲染,策略,架构、工具、防裂化多个维度的技术养分,了解如何通过预加载、码率自适应、动态水位、自适应编码、网络优化、ABR等手段持续优化核心指标。 https://maimai.cn/article/detail?fid=1603397502&efid=N6lWcjTJutZj_kiJ3DxoKA