最近基于深度学习大火的AIGC将会抢原创工作者的饭碗?
NLG|CLIP|DiffusionModel
GAN|AIGC|StableDiffusion
随着CLIP、DALL·E、DiffusionModel、Magic3D、StableDiffusion等技术的快速发展,AIGC在全球各大科技巨头间可谓是高频词汇,连带着AI这个老生常谈的话题也一并火热起来。
去年三月,OpenAI发布了人工智能绘画产品DALL·E,后来升级到DALL·E2。谷歌和Meta紧随其后,并且进一步发展出文字转视频功能。今年8月,StableDiffusion正式开源。而在日前,英伟达也宣布加入AIGC的赛道,发布了Magic3D。
那么AIGC是怎么突然火起来的?又是否是更通用的AI的起点?会不会和原创工作者“抢饭碗”
AIGC高性能计算一体机
深度学习与AIGC
AIGC使用人工智能技术来生成内容。2021年之前,AIGC主要生成文字,新一代模型可以处理的格式内容包括:文字、语音、代码、图像、视频、机器人动作等。AIGC被认为是继专业生产内容PGC、用户生成内容UGC之后的一种新的内容创作方式,可以充分发挥其在创意、表现力、迭代、传播、个性化等方面的技术优势。2022年,AIGC以惊人的速度发展。年初还处于技艺生疏阶段,几个月后达到专业水平,足以以假乱真。与此同时,AIGC的迭代速度呈指数级爆发,其中深度学习模型的不断完善、开源模型的推广以及大模型商业化的可能,成为AIGC发展的“加速度”。
一、深度学习模型是AIGC加速普及的基础
视觉信息在网络中一直具有很强的传播力且易被大众感知,具有跨平台、跨领域、跨人群的优势,自然容易被记住和理解。同时视觉信息应用场景广泛,因此生成高质量的图像成为当前AI领域的一个现象级功能。
2021年,OpenAI团队将开源跨模态深度学习模型CLIP(对比语言-图像预训练,以下简称“CLIP”)。CLIP模型可以将文字和图像关联起来,比如文字“狗”和狗的图像进行关联,并且关联特征非常丰富。所以CLIP模型有两个优点:
1、可以同时理解自然语言和分析计算机视觉,实现图文匹配。
2、为有足够多的有标记的“文本-图像”进行训练,CLIP模型大量使用互联网上的图片,这些图片一般携带各种文本描述,成为CLIP的天然训练样本。
据统计,CLIP模型在网络上收集了超过40亿的“文本-图像”训练数据,为AIGC的后续应用,尤其是输入文本生成图像/视频落定奠定了基础。
GAN(GenerativeAdverSerialNetwork)虽然是很多AIGC的基础框架,但它有三个缺点:
1、对输出结果的控制能力弱,容易产生随机图像;
2、生成的图像分辨率低;
3、由于需要使用鉴别器来判断生成的图像是否与其他图像属于同一类别,因此生成的图像是对已有作品的模仿,而非创新。所以依靠GAN模型很难生成新的图像,也无法通过文本提示生成新的图像。
随后出现的Diffusion扩散化模型,真正让文本生成图像的AIGC应用为大众所熟知,也是2022年下半年StableDiffusion应用的重要推手。Diffusion有两个特点:
1、在图像中加入高斯噪声,通过破坏训练数据进行学习,然后找出如何逆转这个噪声过程来恢复原始图像。训练后,模型可以从随机输入中合成新数据。
二、“开源模式”成为AIGC发展催化剂
AIGC发展历程与概念
一、AIGC发展历程
结合人工智能的演进,AIGC的发展大致可以分为三个阶段,即早期萌芽阶段(20世纪50年代至90年代中期)、沉淀积累阶段(20世纪90年代中期至21世纪10年代中期)、快速发展阶段(21世纪10年代中期至今)。
1、早期萌芽阶段(1950s-1990s)
受当时科技水平限制,AIGC仅限于小规模实验。1957年,LejarenHiller和LeonardIsaacson通过将计算机程序中的控制变量改为音符,完成了历史上第一部由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲》。1966年,约瑟夫·韦岑鲍姆(JosephWeizenbaum)和肯尼斯·科尔比(KennethColbv)共同开发了世界上第一个机器人“伊莉莎(Eliza)”,可以通过关键字扫描和重组来完成交互式任务。20世纪80年代中期,IBM基于隐马尔可夫模型创造了声控打字机“Tangora”大概能处理两万字。从80年代末至90年代中,由于高昂的系统成本无法带来可观的商业变现,各国政府减少了在人工智能领域的投入,AIGC也没有取得重大突破。
2、沉淀积累阶段(1990s-2010s)
AIGC从实验性向实用性逐渐转变。2006年,深度学习算法取得重大突破。与此同时,图形处理单元(GPU)和张量处理器(TPU)等计算设备的性能持续提升。互联网使得数据规模迅速扩大,为各类人工智能算法提供了海量的训练数据,使人工智能的发展取得了重大进展。然而,AIGC仍然受到算法瓶颈的限制,无法很好地完成创作任务应用仍然有限,效果有待提升。2007年,纽约大学人工智能研究员罗斯·古德温装配的人工智能系统通过对公路旅行中的一切所见所闻进行记录和感知,撰写出小说《1TheRoad》。作为世界上第一部完全由人工智能创作的小说,其象征意义远大于实际意义,整体可读性不强,拼写错误、修辞空洞、逻辑缺失明显。2012年,微软公开展示了全自动同声传译系统。基于深度神经网络通过语音识别、语言翻译、语音合成等技术等技术生成中文语音。
3、快速发展阶段(2010s-至今)
2014年以来,随着以生成式对抗网络(GAN)为代表的深度学习算法的提出和迭代更新,AIGC迎来了一个新的时代。生成内容百花齐放,效果逐渐逼真至人类难以分辨。2017年,微软人工智能少女“小冰”推出全球首个由人工智能创作的100%诗集《阳光失去了玻璃窗》。2018年,Nvidia发布的StyleGAN机型可以自动生成图片,现在已经升级到第四代机型StyleGAN-XL,其生成的高分辨率图片,人眼很难分辨真假。2019年,DeepMind发布了生成连续视频的DVD-GAN模型,在草原、广场等清晰场景中表现突出。2021年,OpenAI推出了DALL-E和一年后的升级版DALL-E-2,主要用于生成文本和图像之间的交互内容。用户只需输入简短的描述性文字,DALL-E-2就能创作出相应的高质量的卡通、写实、抽象画。
二、AIGC的概念和内涵
目前,AIGC的概念还没有统一规范的定义。AIGC对国内产学研的理解是“继专业生成内容(PGC)和用户生成内容(UGC)之后,利用人工智能技术自动生成内容的新型生产方式”。国际上对应的术语是“人工智能合成媒体(AI-generatedMedia或SyntheticMedia)”,其定义是“通过人工智能算法对数据或媒体进行生产、操纵和修改的统称”。综上所述,我们认为AIGC既是从内容生产者视角进行分类的一类内容,又是一种内容生产方式,还是用于内容自动化生成的一类技术集合。
为了帮助不同领域的受众群体更好地了解AIGC,现在从发展背景、技术能力、应用价值三个方面深入剖析了它的概念。
1、发展背景
AIGC的兴起源于深度学习技术的快速突破和数字内容供给需求的不断增加。
1)技术进步推动了AIGC可用性的提高
2)海量需求牵引AIGC应用落地
随着数字经济与实体经济融合的不断深入,以及Meta、微软、字节跳动等平台巨头的数字场景向元宇宙的转型,人类对数字内容总量和丰富度的整体需求不断增加。数字内容的生产取决于想象力、制造能力和知识水平;传统的内容生产方式受限于人力资源有限的制造能力,逐渐无法满足消费者对数字内容的需求,供给侧产能瓶颈日益凸显。基于以上原因,AIGC已被广泛应用于各个行业,其市场潜力也逐渐显现。
2、技术能力
根据面向对象和实现功能的不同,AIGC可以分为三个层次。
1)智能数字内容孪生
其主要目标是建立从现实世界到数字世界的映射,并将物理属性(如大小、纹理、颜色等)和社会属性(如主体行为、主体关系等)在现实世界中高效且可感知进行数字化。
2)智能数字内容编辑
其主要目的是建立数字世界与现实世界的双向交互。基于数字内容孪生的基础上,从现实世界控制和修改虚拟数字世界中的内容。同时利用数字世界高效率仿真和低成本试错的优势,为现实世界的应用提供快速迭代能力。
3)智能数字内容创作
其主要目标是让人工智能算法具备内容创作和自我演化的能力,由此形成的AIGC产品具备类似甚至超越人类的创作能力。以上三个层面的能力共同构成了AIGC的能力闭环。
3、应用价值
AIGC将有望成为数字内容创新发展的新引擎,为数字经济发展注入新动能。
1)AIGC能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足海量个性化需求;同时能够创新内容生产的流程和范式,为更具想象力的内容、更加多样化的传播方式提供可能性,推动内容生产向更有创造力的方向发展。
2)AIGC可以支撑数字内容与其他产业的多维度互动、融合渗透,从而孕育新的商业模式,打造经济发展的新增长点,为千行百业的发展提供新动能。此外,从2021年开始,元宇宙呈现出超乎想象的爆发式发展;作为数字与现实融合的“终极”数字载体,元宇宙将具有持久性、实时性、创造性等特征。它还将加速物理世界的再生产,并通过AIGC创造无限的内容,从而实现自发的有机增长。
三、AIGC关键技术落地实施
目前AIGC生成正在完成从简单的降本增效(以生成金融/体育新闻为代表)向创造额外价值(以提供绘画创作素材为代表)转移,跨模态/多模态内容成为关键的发展节点。
技术视角下,以下场景将成为未来发展的重点:文本-图像视频的跨模态生成、2D到3D生成、多模态理解结合生成。后文将对以上技术场景的技术原理、现有进展、关键瓶颈等进行展开。
商业视角下、未来3年内,虚拟人生成和游戏AI这两种综合性的AIGC场景将趋于商业化成熟。
1、文本生成
以结构性新闻撰写、内容续写、诗词创作等细分功能为代表。基于NLP技术的文木生成可以算作是AIGC中发展最早的一部分技术,也已经在新闻报道、对话机器人等应用场景中大范围商业落地。
目前,大型文本预训练模型作为底层工具,商业变现能力逐渐清晰。以GPT-3为例,其文木生成能力已被直接应用于Writesonic、Conversion.ai、SnazzyAl、Copysmith、Copy.ai、Headlime等文本写作/编辑工具中。同时也被作为部分文本内容的提供方,服务于Aldungeon等文本具有重要意义的延展应用领域。
1)应用型文本生成
应用型文本大多为结构化写作,以客服类的聊天问答、新闻撰写等为核心场景。2015年发展至今,商业化应用已较为广泛,最为典型的是基于结构化数据或规范格式,在特定情景类型下的文本生成,如体育新闻、金融新闻、公司财报、重大灾害等简讯写作。据分析师评价,由AI完成的新闻初稿已经接近人类记者在30分钟内完成的报道水准。NarrativeScience创始人甚至曾预测,到2030年,90%以上的新闻将由机器人完成。
在结构化写作场景下,代表性垂直公司包括AutomatedInsights(美联社Wordsmith)、NarrativeScience、textengine.io、AXSemantics、Yseop、Arria、Retresco、Viable、澜舟科技等。同时也是小冰公司、腾讯、百度等综合性覆盖AIGC领域公司的重点布局领域。
2)创作型文本生成
创作型文本主要适用于剧情续写、营销文本等细分场景等,具有更高的文本开放度和自由度,需要一定的创意和个性化,对生成能力的技术要求更高。
在创作型文本领域,代表性的国内外公司包括Anyword、Phrasee、Persado、Pencil、Copy.ai、Friday.ai、Retresco、Writesonic、Conversion.ai、SnazzyAl、Rasa.io、LongShot.AI、彩云小梦等。
3)文本辅助生成
这部分的国内代表产品包括写作猫、Gilso写作机器人、Get写作、写作狐、沃沃AI人工智能写作。
长期来看,我们认为闲聊型文本交互将会成为重要潜在场景,例如虚拟伴侣、游戏中的NPC个性化交互等。2022年夏季上线的社交AlGC叙事平台HiddenDoor以及基干GPT.3开发的文木探索类游戏Aldunaeon均已获得了不错的消费者反馈。随着线上社交逐渐成为了一种常态,社交重点向转移AI具有其合理性,我们预估未来1-2年内就会出现明显增长。目前较为典型的包括小冰公司推出的小冰岛,集中在精神心理领域的聆心智能、开发了AIdungeon的Latitude.io等。
2、音频及文字一音频生成
1)TTS(Text-to-speech)场景
TTS在AIGC领域下已相当成熟,广泛应用于客服及硬件机器人、有声读物制作、语音播报等任务。例如倒映有声与音频客户端“云听”APP合作打造AI新闻主播,提供音频内容服务的一站式解决方案,以及喜马拉雅运用TTS技术重现单田芳声音版本的《毛氏三兄弟》和历史类作品。这种场景为文字内容的有声化提供了规模化能力。
目前技术上的的关键,在于如何通过富文本信息(如文本的深层情感、深层语义了解等)更好的表现其中的抑扬顿挫以及基于用户较少的个性化数据得到整体的复制能力(如小样本迁移学习)。基于深度学习的端到端语音合成模式也正在逐步替代传统的拼接及参数法,代表模型包括WaveNet、DeepVoice及Tacotron等。
目前的垂直代表公司包括倒映有声、科大讯飞、思必驰(DUl)、Readspeaker、DeepZen和Sonantic。
随着内容媒体的变迁,短视频内容配音已成为重要场景。部分软件能够基于文档自动生成解说配音,上线有150+款包括不同方言和音色的AI智能配音主播。代表公司有九锤配音、加音、XAudioPro、剪映等。
该技术目前被应用于虚拟歌手演唱、自动配音等,在声音IP化的基础上,对于动画、电影、以及虚拟人行业有重要意义。代表公司包括标贝科技、Modulate、overdub、replika、ReplicaStudios、Lovo、Voicemod.ResembleAi、Respeecher、DeepZen、Sonantic、VoicelD、Descript。
2)乐曲/歌曲生成
AIGC在词曲创作中的功能可被逐步拆解为作词(NLP中的文本创作/续写)、作曲、编曲、人声录制和整体混音。目前而言,AIGC已经支持基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。
通过这一功能,创作者即可得到AI创作的纯音乐或乐曲中的主旋律。2021年末,贝多芬管弦乐团在波恩首演人工智能谱写完成的贝多芬未完成之作《第十交响曲》,即为AI基于对贝多芬过往作品的大量学习,进行自动续写。
Al编曲则指对AI基于主旋律和创作者个人的偏好,生成不同乐器的对应和弦(如鼓点、贝斯、钢琴等),完成整体编配。在这部分中,各乐器模型将通过无监督模型,在特定乐曲/情绪风格内学习主旋律和特定要素间的映射关系,从而基于主旋律生成自身所需和弦。对于人工而言,要达到乐曲编配的职业标准,需要7-10年的学习实践。
人声录制则广泛见于虚拟偶像的表演现场(前面所说的语音克隆),通过端到端的声学模型和神经声码器完成可以简单理解为将输入文本替换为输入MIDI数据的声音克隆技术。混音指将主旋律、人声和各乐器和弦的音轨进行渲染及混合,最终得到完整乐曲。该环节涉及的AI生成能力较少。
3)场景推荐
以乐曲二创,辅助创作等场量为代表,Al编曲将在短期内成为A音频生成中的快速成长赛道。特别是由于可以指定曲目风格、情绪、乐器等,AIGC音乐生成对于影视剧、游戏等多样化、乃至实时的背景音乐生成有重要意义。
3、视频生成
视频生成将成为近期跨模态生成领域的中高潜力场景。其背后逻辑是不同技术带来的主流内容形式的变化。本部分主要包括视频属性编辑、视频自动剪辑、视频部分编辑。
1)视频属性编辑
例如视频画质修复、删除画面中特定主体、自动跟踪主题剪辑、生成视频特效、自动添加特定内容、视频自动美颜等。代表公司包括RunwayML、Wisecut、AdobeSensei、Kaleido、帝视科技、CCTVAIGC、影谱科技、Versa(不咕剪辑)、美图影像研究院等。
2)视频自动剪辑
3)视频部分生成(以Deepfake为典型代表)技术原理
视频到视频生成技术的本质是基于目标参像或视频对源视频进行编辑及调试,通过基于语音等要素逐帧复刻,能够完成人脸替换,人脸再现(人物表情或面部特征的改变)、人脸合成(构建全新人物)甚至全身合成、虚拟环境合成等功能。
其原理本质与图像生成类似,强调将视频切割成帧,再对每一帧的图像进行处理。视频生成的流程通常可以分为三个步骤,即数据提取,数据训练及转换。以人脸合成为例,首先需要对源人物及目标人物的多角度特征数据提取,然后基于数据对模型进行训练并进行图像的合成,最后基于合成的图像将原始视频进行转换,即插入生成的内容并进行调试,确保每一帧之间的流程度及真实度。目前的技术正在提升修改精准度与修改实时性两方面。
4、图像、视频、文本间的跨模态生成
对人工智能而言,要更为精准和综合的观察并认知现实世界,就需要尽可能向人类的多模态能力靠拢,我们将这种能力称为多模态学习MM(Multi-modallearnina),其中的技术分类及应用均十分多样,我们可以简单将其分为跨模态理解(例如通过结合街景和汽车的声音判断交通潜在危险、结合说话人的唇形和语音判定其说话内容)和跨模态生成(例如在参考其他图画的基础上命题作画:触景生情并创作诗歌等)。
1)Transformer架构的跨界应用成为跨模态学习的重要开端之一
Transformer架构的核心是Self-Attention机制,该机制使得Transformer能够有效提取长序列特征,相较于CNN能够更好的还原全局。而多模态训练普遍需要将图片提取为区域序列特征,也即将视觉的区域特征和文本特征序列相匹配,形成Transformer架构擅长处理的一维长序列,对Transformer的内部技术架构相符合。与此同时.Transformer架构还具有更高的计算效率和可扩展性,为训练大型跨模态模型奠定了基础。
2)CLIP模型的出现,成为跨模态生成应用的一个重要节点
CLIP,ContrastiveLanguage-ImagePre-training,由OpenAl在2021年提出,图像编码器和文本编码器以对比方式进行联合训练,能够链接文本和图片。可以简单将其理解为,利用CLIP测定图片和文本描述的贴切程度。
自CLIP出现后,“CLIP+其他模型”在跨模态生成领域成为一种较为通用的做法。以DiscoDiffusion为例,该模型将CLIP模型和用于生成图像的Diffusion模型进行了关联。CLIP模型将持续计算Diffusion模型随机生成噪声与文本表征的相似度,持续迭代修改,直至生成可达到要求的图像。
AIGC发展面临的挑战
一、AIGC引发“创造性”归属争论
二、知识产权引起创作者的担忧
1、AIGC很难被称为“作者”
2、AIGC的“作品”仍有争议
三、距离通用人工智能还有很大差距
虽然现在流行的AIGC系统可以快速生成图像,但这些系统是否能真正理解绘画的意义,从而根据这些含义进行推送和决策,还是一个未知数。
知名人工智能专家的调查也证实了同样的观点,86.1%的人认为当前的AIGC系统不太了解世界。
四、创作伦理问题尚未有效解决
AIGC应用领域
在全球新冠肺炎疫情延宕反复的背景下,各行业对数字内容的需求呈井喷态势,数字世界内容的消耗与供给之间的缺口亟待弥合。凭借其真实性、多样性、可控性和组合性,AIGC有望帮助企业提高内容生产效率,为其提供更丰富多元、动态且可交互的内容或将在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业率先做出重大创新发展。
一、AIGC+传媒:人机协同生产,推动媒体融合
1、采编环节
1)实现采访录音语音转写,提升传媒工作者的工作体验
借助语音识别技术,将录制的语音转换成文字,有效压缩了稿件制作过程中录音整理的重复工作,进一步保证了新闻的时效性。在2022年冬奥会期间,科大讯飞的智能录音笔通过跨语种的语音转写助力记者2分钟快速出稿。
2)实现智能新闻写作,提升新闻资讯的时效
3)实现智能视频剪辑,提升视频内容的价值
2、传播环节
AIGC的应用主要集中在以AI合成主播为核心的新闻播报等领域。AI合成主播开创了新闻领域实时语音和人物动画合成的先河。只需输入需要播报的文字内容,计算机就会生成相应的AI合成主播播报的新闻视频,并保证视频中人物的音频、表情、嘴唇动作自然一致,呈现出与真人主播一样的信息传递效果。纵观AI合成主播在媒体领域的应用,呈现三方面的特点。
1)应用范围不断拓展
目前,新华社、中央广播电视总台、人民日报等国家级媒体及湖南卫视等省市媒体,已经开始积极部署应用AI合成主播,陆续推出“新小微”、“小C”等虚拟新闻主播,推动其在新闻联播、记者报道、天气预报等更广泛的场景中应用,从而深度赋能全国人大、冬奥会、冬残奥会等重大活动传播。
2)应用场景不断升级
除了常规的新闻播报,AI合成主播开始陆续支持多语种播报和手语播报。2020年全国两会期间,多语种虚拟主播使用中、韩、日、英等多种语言报道新闻,实现一音多语播报,将中国新闻传递到世界,顺应了信息化时代信息共享的发展潮流。2022年冬奥会期间,百度、腾讯等企业推出手语播报数字人,为数百万听障用户提供手语解说,进一步推动了观赛无障碍进程。
3)应用形态日趋完善
在形象方面,从2D逐渐拓展到3D;在驱动范围上,开始从口型延伸到面部表情、肢体、手指、背景内容素材;在内容构建上,从支持SaaS平台工具建设到智能化生产进行探索。如腾讯3D手语数智人“聆语”,实现了唇动、面部表情、肢体动作、手指动作等内容的生成,并配备了可视化动作编辑平台,支持手语动作进行精修。
二、AIGC+电商:推进虚实交融,营造沉浸体验
随着数字技术的发展和应用,消费的升级和加速,沉浸式购物体验成为电商领域的发展方向。AIGC正加速商品3D模型、虚拟主播乃至虚拟货场的构建。通过结合AR、VR等新技术,AIGC可以实现音频、视频等多感官交互的沉浸式购物体验。
1、生成商品3D模型用于商品展示和虚拟试用,提升线上购物体验
同时,生成的3D产品模型还可以用于线上试衣,高度还原了产品或服务的试衣体验,让消费者有更多机会接触到产品或服务的绝对价值。比如阿里在2021年4月推出天猫家装城3D版。通过为商家提供3D设计工具和产品3D模型AI生成服务,帮助商家快速搭建3D购物空间,支持消费者自助做家装,为消费者提供沉浸式的“云购物”体验。数据显示,3D购物平均转化率为70%,高于行业平均水平9倍。与去年同期相比,正常引导客户单价增长超过200%,商品退货率明显下降。
此外,不少品牌企业也开始在虚拟试衣方向进行探索和尝试,如优衣库虚拟试衣、阿迪达斯虚拟试衣鞋、周大福虚拟试衣珠宝、Gucci虚拟试戴手表和眼、宜家虚拟家具搭配、保时捷虚拟试驾等虽然目前仍然采用传统的手工建模方式,但随着AIGC技术的不断进步,预计未来将会出现更多的消费工具,从而逐步降低3D建模的门槛和成本,帮助虚拟试穿应用大规模商业化。
2、打造虚拟主播,赋能直播带货
基于视觉、语音、文字生成技术,打造虚拟主播为观众提供24小时不间断的商品推荐和在线服务能力,降低了商家直播的门槛。与直播相比,虚拟主播有三大优势:
3)虚拟主播人设更稳定可控。在头部主播有限并且可能“人设崩塌”的情况下,虚拟主播人设、言行等由品牌方掌握,比真人明星的可控性、安全性更强。品牌不必担心虚拟形象人设崩塌,为品牌带来负面新闻、差评及资金损失。
3、赋能线上商城和线下秀场加速演变,为消费者提供全新的购物场景
从2D影像重建场景的3D几何结构,实现虚拟货场的快速、低成本、规模化建设,将有效降低商家搭建3D购物空间的门槛和成本,为一些原本高度倚重线下门店的行业打开线上线下融合的想象空间,为消费者提供线上线下融合的全新消费体验。目前,一些品牌已经开始尝试建立虚拟空间。例如,奢侈品公司Gucci在百年品牌庆典中将线下的GucciGardenArchetypes展览搬到了游戏Roblox上,并推出了为期两周的虚拟展览,5个主题展厅的内容与现实展览相互对应。2021年7月,阿里巴巴首次展示了其虚拟现实计划“Buy+”,并在购物现场提供360°虚拟开放购物体验。2021年11月,Nike和Roblox合作推出虚拟世界Nikeland,面向所有Roblox用户开放。随着基于图像的三维重建技术在GoogleMaps的沉浸式视图功能中的成功应用,虚拟货场的自动构建将在未来得到更好的应用和发展。
三、AIGC+影视:拓展创作空间,提升作品质量
随着影视行业的快速发展,从前期创作、中期拍摄到后期制作的流程问题也随之显露。有一些开发痛点,比如高质量剧本相对缺乏,制作成本高,部分作品质量有待提高,急需升级。AIGC技术的应用可以激发影视剧本创作的思路,拓展影视角色和场景创作的空间,大幅提升影视产品的后期制作质量,有助于影视作品文化价值和经济价值的最大化。
1、AIGC为剧本创作提供新思路
2、AIGC扩展角色和场景创作空间
2)通过人工智能合成虚拟物理场景,可以生成实际拍摄不到或成本过高的场景,大大拓宽了影视作品的想象边界,给观众带来更好的视觉效果和听觉体验。比如2017年的《热血长安》,剧中大量场景都是人工智能技术虚拟生成的。前期工作人员收集了大量的场景数据,通过特效人员的数字建模,制作出模拟的拍摄场景,演员在绿屏工作室进行表演。结合实时抠像技术,将演员的动作与虚拟场景融合,最终生成视频。
3、AIGC赋能影视剪辑,升级后期制作
2)实现电影预告片的生成。IBM旗下的人工智能系统Watson在学习了数百部惊悚片预告片的视听技术后,从90分钟的《Morgan》电影中挑选出符合惊悚预告片特点的电影镜头,并制作出一段6分钟的预告片。虽然这部预告片还需要制作方修改才能最终完成,但却将预告片的制作周期从一个月左右缩短到了24小时。
3)实现视频内容从2D到3D的自动转换。聚力推出的人工智能3D内容自动制作平台“郑融”支持影视作品的维度转换,将影院级3D转换效率1000倍以上。
四、AIGC+娱乐:扩展辐射边界,获得发展动能
在数字经济时代,娱乐不仅拉近了产品服务与消费者之间的距离,也间接满足了现代人对归属感的渴望,其重要性与日俱增。借助AIGC技术,娱乐产业可以通过创造有趣的图像或音视频、打造虚拟偶像、开发C端用户的数字头像等方式,迅速扩大辐射边界,以更容易被消费者接受的方式获得新的发展动力。
1、实现有趣的冬季图像或音视频的生成,激发用户参与热情
2、打造虚拟偶像,释放IP价值
3、开发C端用户数字化身,布局消费元宇宙
五、AIGC+其他:推进数实融合,加快产业升级
除以上行业之外,教育、金融、医疗、工业等各行各业的AIGC应用也都在快速发展。
1、教育领域,AIGC赋予教育材料新活力
相比阅读和讲座等传统方式,AIGC为教育工作者提供了新的工具,让原本抽象、扁平的教科书具体化、立体化,以更生动、更有说服力的方式向学生传递知识。例如,制作历史人物直接与学生对话的视频,可以为一个没有吸引力的演讲注入新的活力:合成逼真的虚拟教师,使数字化教学更具互动性和趣味性等。
2、金融领域,AIGC助力实现降本增效
一方面AIGC可以实现金融资讯和产品介绍视频内容的自动化制作,提高金融机构的内容运营效率;另一方面,AIGC可以用来创建一个具有音频和视频两个通道的虚拟数字客户服务,这可以使金融服务更加有温度。医疗领域,AIGC赋能诊疗全流程。在辅助诊断方面,AIGC可用于提高医学影像质量,录入电子病历等,解放医生的智力和精力,让医生的资源集中在核心业务上,从而提高医生的专业能力。在康复方面,AIGC可以为失声者合成语音音频,为残疾人提供肢体投影,为精神病患者提供医疗陪伴等,通过人性化的方式安抚患者,可以缓解其情绪,加快其康复。
3、工业领域,AIGC提升产业效率和价值
AIGC发展展望
一、核心技术持续演进
1、从真实可控向多样组合发展
2、从本地化集中式向大规模分布式发展
1)AIGC离不开大规模分布式深度学习技术和多智能体强化学习技术
大规模分布式AIGC的开发将有助于高效利用GPU算力,将计算流程拆解到一系列计算平台和边缘计算设备上,通过多设备分布式计算加快内容生产进程,提高生成效率和质量。目前,以Google、微软为代表的人工智能公司已经开始布局下一代超大规模人工智能模型的分布式计算平台,如Pathways、DeepSpeed等。,以解决大规模模型训练中计算能力不足、资源利用率低、无法高效制作模型等问题。
2)在分布式计算的框架下,大规模的多智能体网络可以通过合作和竞争来完成个体无法完成的任务
AIGC作为构建数字世界乃至元宇宙的重要生产工具,需要模拟现实世界中复杂的大规模多智能体网络系统,如动物群体、社会网络、城市综合体等。通过对大规模分布式多智能体算法的研究,探索多智能体的扩展性、安全性、稳定性和迁移性将是未来的重点方向之一。
二、关键能力显著增强
随着AIGC核心技术的不断发展,其内容孪生、内容编辑和内容创作三大基础能力将显著增强。
1、随着渲染技术、仿真加速、XRsuite和开发组件等技术的提升,基于内容孪生的数字孪生能力可以更真实地将现实世界复制到虚拟世界,再现人物更丰满、物体更逼真、细节更丰富的虚拟图像,并依托新一代传感器和云边缘进行协作进行实时动态更新。
2、依托内容编辑的数字陪伴能力,将进一步打通现实世界与虚拟世界的双向通道。通过现实世界和虚拟世界的双向交流,将现实世界中的物理问题进行抽象和数字化,然后转化为虚拟世界中的计算问题,将计算的最优解以物理形式输出到现实世界。未来,依托虚拟优化、智能控制、可信认证等关键技术的提升,数字伴侣将进一步拓展在现实世界中发现和解决问题的能力,同时降低成本,提高产量。
3、基于内容创作的数字原生能力潜力将得到真正释放。随着未来AIGC数字原生能力的大幅提升,基于更先进算法的人工智能技术将使AIGC摆脱对专业生成内容(PGC)和用户生成内容(UGC)的依赖,完全自主创作内容,充分释放其创作潜力。内容将以高质量、多样性、高自由度持续输出,填补目前专业生成内容(PGC)和用户生成内容(UGC)的容量和监管空白。尤其是随着人工智能技术的不断发展和代选,AIGC将实现从辅助内容生成到独立内容生成的跨越,这将极大满足未来消费者对内容数量和质量的双重刚性需求。
三、产品类型逐渐丰富
近年来,随着元宇宙概念的兴起和科学技术的快速发展,数字人是未来AIGC应用的一个重要细分领域。数字人作为现实与虚拟世界的交互媒介,可以通过其独特的人格、性格、思维、职业等辅以专属的创意内容,打破传统的物理和时空界限,通过VR、AR等技术和新一代智能终端设备,为用户带来丰富的沉浸式体验。能够自主生成内容的数字人将是构建人机融合、数实融合的未来世界的最佳载体,也将是未来人类构建“自生成、自更新”的新元宇宙世界的必由之路。
随着人工智能的不断发展和进步,AIGC模式将不再局限于文本、音频和视觉。多重信息感知和认知能力,如嗅觉、触觉、味觉、感觉咸味等将以数字形式传输,并将指导人工智能进行内容创作。在未来的某一天,人工智能能否创造出除了苦乐参半之外的另一种味道,还是个未知数。
四、场景应用趋于多元
目前,AIGC已经广泛应用于金融、媒体、娱乐、电子商务等多个领域,未来其应用场景将进一步多样化。比如在“AIGC+数据科学”领域,可以自动生成具有安全性、标签化、预处理的标准数据以满足日益饥渴的人工智能模型。
根据Gartner的预测,到2025年,超过30%的药物和材料将通过生成式人工智能(AIGC的工具之一)被发现;在“AIGC+安防”领域,在公共场所或活动中,人工智能会自动生成用户头像,保护用户的数据安全和个人隐私;在“AIGC+艺术”领域,除目前流行的NFT(非同质化代币),AIGC还可以涉及绘画、作曲、演唱、编剧、设计等,不同于这些子领域辅助内容生成的现状。未来,这些领域的自生成内容经过人工智能创作后将达到人类水平,无需人工优化即可投放市场。
除了应用场景的横向扩展,场景之间的融合和交互也是未来的发展趋势之一。比如,通过“文旅+游戏”,以高度沉浸式的体验深度挖掘传统文化旅游产业的新特征,用新颖、不重复、极具吸引力的互动游戏吸引年轻消费者深度挖掘传统文化旅游的深刻内涵,激发传统文化旅游产业的新活力;通过“教育+政务”,AIGC可以根据政策导向,为不同年龄、不同学历、不同职业、不同地域的人群生成不同类型的教育和科普内容,极大地均衡教育资源,更好地普及全民教育,营造全民科学氛围,提高全民科学素养;通过“商业+艺术”,AIGC可以创造更具人文关怀和当代意义的数字馆藏。数字收藏将从缺乏实质性内涵的虚拟物品转化为具有特定纪念意义的虚拟化身,从而深度挖掘艺术的商业潜力,进而反哺和推动未来艺术的高质量发展。
五、生态建设日益完善
随着AIGC的不断成熟,以标准规范、技术研发、内容创作、行业应用、资产服务为核心的生态体系架构将日趋完善,无论是以AIGC赋能产业升级还是以AIGC自主释放价值都将在此框架下健康有序发展。标准规范为AIGC生态构建了从技术、内容、应用、服务、监管的全过程一体化标准体系,促进AIGC在合理合规合法的框架下良
性发展。
同时,在核心技术持续演进和关键能力显著增强的背景下,性能更强大、逻辑更智能的人工智能算法将被应用于AIGC,技术研发的不断创新将强有力地推动内容创作,提高生成内容质量,使内容更接近人类智力水平和宙美标准,同时应用于各类行业各种场景。AIGC的繁荣发展将促进资产服务快速跟进,通过对生成内容的合规评估、资产管理、产权保护、交易服务等构成AIGC的完整生态链,并进行价值重塑,充分释放其商业潜力。随着5G、云计算、VR、AR等前沿技术的快速发展和新一代智能终端设备的研发创新,完整的AIGC生态链是未来释放数据要素红利、推动传统产业升级、促进数字经济发展、构建数实融合一体、创造元宇宙世界最重要的推动力之一。
蓝海大脑AIGC高性能计算一体机采用Intel、AMD处理器,突破传统风冷散热模式,采用风冷和液冷混合散热模式——服务器内主要热源CPU利用液冷冷板进行冷却,其余热源仍采用风冷方式进行冷却。通过这种混合制冷方式,可大幅提升服务器散热效率,同时,降低主要热源CPU散热所耗电能,并增强服务器可靠性;支持VR、AI加速计算;深受广大深度学习AICG领域工作者的喜爱。