当前,多模态AI大模型有望掀起新一轮产业革命。追踪当前行业发展,大模型多模态发展进一步深化,有望成为AI大模型主流。
继之前文生图能力快速嵌入各个大模型之后,文生视频为大模型多模态应用的下一重要方向。
可以说,多模态是实现通用人工智能的必经之路,必将成为大模型发展的前沿方向。以下我们就以多模态AI为视角,深度追踪这一市场热点。
对多模态AI发展下的市场机遇、产业前景进行分析,希望对大家了解当下行业现状及发展趋势有所启发。
多模态AI综述
AI模型:必将从单模态走向多模态,实现复杂场景下的智能决策
多模态或成为AI大模型主流
多模态模型是指将不同类型的数据(例如图像、文字、视频、语音等)结合起来进行分析处理的模型。
其通过不同数据类型的相互关联和结合,可以大幅提高模型的准确性和鲁棒性,应用场景进一步拓展。
其次,多模态更接近人类学习的模式,在物理世界中,人类认知一个事物并不是通过单一模态。
例如认知一只宠物,可以从视觉(宠物形貌)、听觉(宠物叫声)、嗅觉(宠物体味)、触觉(宠物毛发、宠物体温等)等多模态全面立体认知,是未来人工智能的发展方向。
多模态向通用人工智能(AGI)迈前一步。多模态大模型同时处理文本、图片、音频以及视频等多类信息,与现实世界融合度高,有望成为人类智能助手,推动AI迈向AGI:
多模态更符合人类接收、处理和表达信息的方式。人类能够感知多元信息,每一类信息均为一种模态,这些信息往往是相互关联的。
多模态信息使得大模型更为智能。多模态与用户交互方式更便捷,得益于多模态输入的支持,用户可以以更灵活的方式与智能助手进行交互和交流。多模态提升任务解决能力。
目前,多模态大模型已成为大模型发展前沿方向。2022年及之前,大模型处于单模态预训练大模型阶段,主要探索文本模式的输入输出。
2017年,Transformer模型提出,奠定了当前大模型的主流算法结构;2018年,基于Transformer架构训练的BERT模型问世,参数规模首次突破3亿;随后GPT系列模型推出,2022年底至今ChatGPT引爆全球大模型创新热潮。
步入2023年,大模型发展从文本、图像等单模态任务逐渐发展为支持多模态的多任务,更为符合人类感知世界的方式。大模型公司的比拼重点转移为多模态信息整合和数据挖掘,精细化捕捉不同模态信息的关联。
例如,2023年9月,OpenAI推出最新多模态大模型GPT-4V,增强了视觉提示功能,在处理任意交错的多模态方面表现突出。
多模态是实现通用人工智能的必经之路
按照处理的数据类型数量划分,AI模型可以划分为两类:单模态:只处理1种类型数据,如文本等;多模态:处理2种及以上数据,可类比人脑同时对文本、声音、图像等不同类型信息进行处理。
多模态是实现通用人工智能的必经之路。相比单模态,多模态大模型在输入输出端的优势明显:
输入端:提升模型能力:高质量语言数据存量有限,且不同模态包含的信息具有互补性,多元的训练数据类型有助于提升通用大模型能力;提高用户体验:推理侧更低的使用门槛和更少的信息损耗。
输出端:更实用。可直接生成综合结果,省去多个模型的使用和后期整合;更符合真实世界生产生活需要,从而实现更大商业价值。
模态AI以融合为核心,基于5大技术环节实现复杂问题解决
多模态模型厚积薄发,性能实现飞跃
多模态模型历经多个发展阶段,模型复杂度和性能持续提升。多模态模型的发展经历了五个关键阶段,分别是行为、计算、交互、深度学习和大模型时代。
这一发展历程始于最初对行为理论和科学研究的探索,如今正逐步转向多模态技术在产业领域的实际应用。
在这一过程中,半导体技术和计算机科学的迅猛发展扮演了重要的推动角色。多模态模型逐渐从简单模拟人类行为模式转变为复杂的计算模型。
随着深度学习技术的兴起,这些模型获得了更深层次的理解和学习能力,使得其在图像、语音、视频等多种形式数据处理上取得了突破性进展。
大模型开启新时代,多模态技术发展迅速。2020年大模型时代到来,多模态技术的发展得到进一步推进。
大模型时代的核心在于构建能够处理海量数据的大规模模型,从而使得多模态模型在处理复杂任务时展现出了更高的性能和智能。
最近,OpenAI发布的GPT-4V已经具备了强大的图片理解、逻辑推理以及情感感知能力,预计将在各产业得到广泛应用。
市场现状
国资委鼓励央企参与AI产业
产业政策方面,2月19日国务院国资委召开“AI赋能产业焕新”中央企业人工智能专题推进会。会议提出推动中央企业在人工智能领域实现更好发展、发挥更大作用;加快建设一批智能算力中心;
开展AI+专项行动,加快重点行业赋能,构建一批产业多模态优质数据集,打造从基础设施、算法工具、智能平台到解决方案的大模型赋能产业生态。会上,10家中央企业签订倡议书,表示将主动向社会开放人工智能应用场景。
国外市场:Sora和Gemini1.5推出,开启多模态大模型新纪元
OpenAI发布首款文生视频大模型Sora,可以快速生成60秒、准确反映用户提示的视频
2024年2月16日,OpenAI发布首款文生视频大模型Sora,可以快速生成60秒、准确反映用户提示的视频,其具有60秒超长长度、多角度视频一致性、对物理世界理解等特性。
Sora可生成60秒超长视频。相较于RunwayMLGen-2、Pika等文生视频大模型,Sora可以生成60秒一镜到底的视频,视频逻辑顺畅、主人物及背景的行人均非常稳定,文生视频大模型能力进一步提升。
Sore多角度视频一致性。Sore可以在单个生成视频中创建多个镜头,以准确保留角色和视觉风格。根据OpenAI官网发布的Demo,59秒的视频中,有多角度镜头,且主人物保持了完美的一致性。
Sore在尝试理解物理世界。根据OpenAI官网披露,Sore不仅可以理解用户Prompt的要求,同时亦尝试理解Prompt中的事物在物理世界中的存在方式(即物理规律)。
根据OpenAI官网Demo视频中,汽车在山路行驶中的颠簸,以及猫踩奶等动作符合物理世界规律,视频逼真度进一步提升。
Sora技术原理:Transformer+Diffusion。通过已知Patches推测下一Patches。传统大语言模型通过已知Tokens推测下一Tokens,Sora同大语言模型类似,将视频数据切分成不同Patches(即大语言模型中的Tokens),通过已知Patches推测下一Patches。
通常可以分为以下两个步骤:将高纬度视频数据压缩成低纬度隐空间(LatentSpace):
进一步将数据转化为SpacetimePatches:提取一系列的latentSpace作为训练/推理的Tokens,完成对模型的训练。
通过Diffusion还原画面。如前文所述通过已知Patches推测下一Patches,得到LatentPatches,OpenAI通过训练Decoder将得到的latentSpace映射到像素空间,再通过Diffusion模型进一步还原画面。
谷歌推出Gemini1.5,大模型迭代速度加快
最长可支持一百万token超长上下文,超越GPT-4Turbo。谷歌研究人员进行了一项测试,在这个测试中,模型需要在一定的文本范围内检索到100个不同的特定信息片段。
Gemini1.5Pro在较短的文本长度上的性能超过了GPT-4-Turbo,并且在整个100万token的范围内保持了相对稳定的表现,GPT-4Turbo的性能则飞速下降,且无法处理超过128,000token的文本。
可对大量的信息进行复杂推理。Gemini1.5Pro可以在给定提示内无缝分析、分类和总结大量内容。
例如,当给出阿波罗11号登月任务的402页记录时,它可以推理整个文档中的对话、事件和细节。
跨模式推理和理解能力增强。Gemini1.5Pro可以针对包括视频在内的不同模式执行高度复杂的理解和推理任务。
例如,当给定一部44分钟的巴斯特·基顿无声电影时,该模型可以准确分析各种情节点和事件,甚至推理出电影中容易被忽略的小细节。
相比上一代性能增强,并具备“上下文学习”能力。在涵盖文本、代码、图像、音频和视频的综合性测试中,1.5Pro在87%的基准测试上超越了1.0Pro。与1.0Ultra在相同基准测试的比较中,1.5Pro的表现也相差无几。
Gemini1.5Pro展现了卓越的“上下文学习”能力,能够仅凭长提示中提供的信息掌握新技能,无需进一步细化调整。
这一能力在“从一本书学习机器翻译(MTOB)”基准测试中得到了验证,该测试检验了模型学习从未接触过的信息的能力。
对于一本关于全球不足200人使用的Kalamang语的语法手册,模型能够学会将英语翻译成Kalamang,学习效果与人类学习相似。
Gemini首次发布是2023年12月,仅两个月之后,Gemini1.5的发布已经展现了与其前代相比的显著性能提升,这一迅速的迭代速度不仅彰显了大模型技术飞速发展的态势,同时也反映出了AI领域大模型竞争愈发激烈。
国内市场:加速对齐海外龙头,细分领域或有优势
国内市场加速对齐海外龙头,多模态大模型陆续推出
国内科技公司积极研发国产大模型,互联网大厂在数据积累与算法水平兼具优势,率先切入多模态大模型赛道,其后不断涌现大模型科技公司与初创公司,在多模态大模型领域持续投入同时陆续更新大模型能力。
例如,百度2023年3月发布文心一言,成为全球大厂中第一个对标ChatGPT甚至是GPT-4的大模型,同时具备文字生成图片、音频(方言)、视频等多模态能力。
其后,阿里巴巴、腾讯等互联网大厂,商汤科技等大模型公司以及智源研究院、智谱等初创公司或研究所均发布了国产多模态大模型,并通过不断迭代实现能力突破,逐步缩小与海外大模型差距。
然而,总体而言,由于国产训练数据集、算力支持和应用场景等与海外大厂仍存在较大差距,国产大模型仍在向海外大厂靠齐过程中。
根据SuperCLUE测评数据,截至2023年12月,海外GPT-4Turbo、GPT-4依旧为全球性能最优大模型。
国内市场在细分领域或有优势。海外龙头厂商具有示范效应,Meta等厂商算法开源显著降低国产大模型学习成本,国产大模型可通过复制海外龙头厂商先进技术快速成长,通过逐步超越海外龙头上代产品,并摸索最新技术的方式升级迭代:
阿里巴巴最新通义千问可媲美GPT-4V和Gemini。2023年8月,阿里发布Qwen-VL模型的第一个版本,并很快对通义千问进行了升级。
Qwen-VL支持以图像、文本作为输入,并以文本、图像、检测框作为输出,让大模型真正具备了看世界的能力。
在多模态大模型性能整体榜单OpenCompass中,Qwen-VL-Plus紧随GeminiPro和GPT-4V,占据了前三名的位置。
2024年1月,阿里巴巴新升级的通义千问视觉语言大模型Qwen-VL-Max发布,在多个测评基准上取得较好成绩,并实现了强大的图像理解能力,整体能力达到了媲美GPT-4V和Gemini的水平,在多模态大模型领域实现了业内领先。
智谱AI发布多模态大模型GLM-4,模型性能均达GPT-4九成以上。作为国内唯一一个产品线全对标OpenAI的大模型公司,GLM-4性能相比GLM-3提升60%,逼近GPT-4(11月6日最新版本效果)。
多模态能力方面,GLM-4则是把原本就有的文生图(CogView3)、代码能力做了升级,CogView3效果超过开源最佳的StableDiffusionXL,逼近DALLE·3。
2023年12月,智源研究院开源发布新一代多模态基础模型Emu2,成为目前最大的开源生成式多模态模型,通过大规模自回归生成式多模态预训练,显著推动多模态上下文学习能力的突破。
Emu2在少样本多模态理解任务上大幅超越Flamingo-80B、IDEFICS-80B等主流多模态预训练大模型,在包括VQAv2、OKVQA、MSVD、MM-Vet、TouchStone在内的多项少样本理解、视觉问答、主体驱动图像生成等任务上取得最优性能。
Emu2-Chat可以精准理解图文指令,实现更好的信息感知、意图理解和决策规划。Emu2-Gen可接受图像、文本、位置交错的序列作为输入,实现灵活、可控、高质量的图像和视频生成。
国产大模型有望凭借独特生态优势在细分领域取得差异化竞争优势
百度2023年3月发布的文心一言,其训练数据包含万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及5500亿事实的知识图谱等。
在搜索领域或具有技术与数据优势;阿里巴巴2023年4月发布的通义千问训练数据包括大量文本、专业书籍、代码等,生成的大模型或在电商领域具有较强竞争力。
总体而言,通过向海外技术对齐和利用独特生态禀赋,国产大模型与海外大厂差距逐步缩小。
根据SuperCLUE测评数据,在2023年下半年,国内领军大模型企业实现了大模型代际追赶的奇迹,从7月份与GPT3.5的20分差距,每个月都有稳定且巨大的提升,到11月份测评时已经完成总分上对GPT3.5的超越。
多模态发展路径逐步清晰,底层技术日臻成熟
目前,多模态大模型发展路径逐步清晰。发展思路主要有三:利用单模态模型如LLMs来调动其他数据类型的功能模块完成多模态任务,典型代表有Visual、ChatGPT、HuggingGPT等;
直接利用图像和文本信息训练得到多模态大模型,典型代表有KOSMOS-1等;将LLMs与跨模态编码器等有机结合,融合LLMs的推理检索能力和编码器的多模态信息整合能力,典型代表有Flamingo、BLIP2等。
多模态大模型底层技术日臻成熟,支持实现多类信息融合与转换。
从技术架构来看,多模态大模型一般包括编码、对齐、解码和微调等步骤,逐步整合多模态关联信息,输出目标结果。
编码:包括视觉、音频、文本等模态编码器,目的是有效处理多个模态信息,转化为可处理状态;
对齐:在预训练模型的基础上,通过在自有小数据集上的训练来适应新的任务,更好地提升大模型在下游特定领域能力。
文生图为最先成熟的多模态技术领域,其代表技术为OpenAI于2021年推出的CLIP模型。
CLIP使用约4亿从网页中爬取的图像-文本对数据进行对比学习,采用图像和文本双编码器,用于评估给定图像与给定文本描述的匹配程度,成为连接文本和图像的桥梁。
目前,多模态底层技术不再局限于文本与图像两层信息,Meta-Transformer可同时理解12种模态信息。
2023年7月,香港中文大学多媒体实验室联合上海人工智能实验室的OpenGVLAB研究团队提出一个统一多模态学习框架Meta-Transformer。
实现骨干网络的大统一,具有一个模态共享编码器,无需配对数据,即可处理12种模态信息,并提供了多模态无边界融合的新范式。
相比CLIP、BEiT-3、Imagebind,模态数目大幅增加,并且摆脱了多模态训练过程中对于配对数据的依赖性,为多模态学习提供了新路径。
多模态AI是机遇也是挑战
信息异构,数据升维。人类日常生活中的自然语言、语气、手势和眼神,这些不同的表达形式和对方的感知形式,就是不同的模态。
这种多模态对齐到“0-1”世界中,就是文字、图像&视频、音频信息甚至物理化学公式,而这些信息之间形成了相似、补充或互斥的关系,这种相互关系会对多模态的表现产生重大影响。
多模态AI的输入和输出超出了单一的文字维度,对AI既是机遇也是挑战。机遇在于,多模态信息可以帮助AI更精确地了解人类世界,在作答时就可以输出更加贴近现实、符合预期的回答。
如同失聪者同时难以说话,AI获取的信息若不是多模态,就只能停留在文字数据给予的单一维度认知。
不同模态之间的相互作用有多种方式,正反馈例如,若将一张人类跑步的图片、一段描述“跑步”的文字、力学定律等输入至AI,那么AI就可以获得对“跑步”这一行为的增强理解;
负反馈例如,在文字训练数据出现错误时,其他模态的数据可以帮助AI辅助判断对错,从源头减少AI“幻觉”的产生。
多模态的挑战集中于数据、算力和调优。首先是多模态数据的融合(Fusion),进一步增加了算力资源的压力。
例如,一段文字和一张图片里都包含“1+1=2”的信息,这种情况可以为二者给予相同的训练权重;如果包含更加复杂的信息,简单的信息融合将失效,就需要引入张量融合算法,从而占据一部分算力资源。
其次,数据的对齐(Alignment)对不同模态之间的协调起着关键作用。今年3月发布的GPT-4模型能够识别搞笑图片中的笑点所在,就是由于OpenAI做好了充分的文字与图片的数据对齐。
多模态AI的发展,不仅利于影视创作、游戏制作行业的生产效率提升,同时也有利于逐步打消业界对AI能力的怀疑。
Pika1.0、Gemini的发布提振了用户的信心——Pika有效解决了多模态大模型生成视频时帧连续性的问题,输出结果堪称惊艳。
Gemini原生基于多模态打造,有效解决了多模态数据融合的问题,相当于AI“新物种”。AI并未停下脚步,通向AGI的星辰大海正在拉开帷幕。
研究方向
在模型分类中,研究员们将模型研究方向分为两大类五个主题:目前已成熟、完善的研究主题,包括视觉理解、视觉生成;具备探索性、开放性的前沿研究领域,包括统一视觉模型、受LLM(大语言模型)支持的多模态大模型以及多模态agent。
方向一:视觉理解。在AI领域,视觉理解是指使计算机系统能够解释和理解视觉信息的能力。视觉理解的核心问题是通过预训练使得神经网络的主干架构backbone获得强大的图像理解能力。
在这些方法之外,常用的预训练方法还有多模态融合、区域级和像素级图像理解等。
方向二:视觉生成。这是AI图像生成与理解的核心,不仅包括图像生成,还包括视频、3D点云图等多种内容的生成。
视觉生成不仅可以应用于艺术、设计等内容创作领域,它还在合成训练数据方面发挥着巨大作用,从而促进多模态内容理解与生成的闭环发展。
当前研究趋势和未来短期研究方向是创建通用的文生图模型,以更好地满足人类意图,并提升上述方向的可替代性。
方向三:统一视觉模型。构建统一视觉模型具有多重挑战。在计算机视觉领域,各任务的差异很大,这为建立统一的视觉模型带来了巨大挑战:
输入类型不同,输入内容可包括静态图形、动态视频、纯视觉输入、模糊图像等;不同的任务需要不同的粒度,如图像级任务、区域级任务、像素级任务等,因此输出的空间信息和语义信息也要求不同的格式;
在建模之外,数据也有挑战,比如不同类型的标签注释成本差异很大,收集成本比文本数据高,这导致视觉数据的规模通常比文本语料库小得多。
未来统一视觉模型是非常有价值的研究方向。CV领域对于开发通用、统一的视觉系统具有很高的兴趣,实现这一目标的关键研究方向包括:
从闭集模型到开集模型,可以更好地将文本和视觉匹配;从特定任务到通用能力,减少新模型/垂直细分模型的开发成本;从静态模型到可提示模型。
未来通用视觉模型应具备强大的上下文学习能力,因此LLM可以接受不同语言和上下文提示作为输入,并生成用户所需的输出,无需微调。
方向四:LLM支持的多模态大模型。该领域的代表作为OpenAI的多模态模型GPT-4V,模型具备较强大的能力:
模型具有强大的通用性能力,能够处理不同输入模态的任意组合,包括图像、子图像、文本、场景文本和视觉指针。
经过详细测试,研究人员发现GPT-4V支持LLM中的test-time技术,如指令跟随、思维链、上下文少样本学习等。
LLM支持的多模态模型仍有部分领域需要改进和迭代,包括更多超越视觉和语言的模态(MultitaskInstructwithEstablishedAcademicDatasets/Tasks)、多模态的上下文学习(MultimodalIn-Context-Learning、参数高效训练(Parameter-EfficientTraining)以及Benchmark等内容。
方向五:多模态Agent。多模态Agent是将不同的多模态专家模型同LLM联系起来,进而解决复杂多模态理解问题的办法,也是目前最前沿的多模态研究方向。
大语言模型(LLM)具有对各领域用户提示的通用性特点,以及利用少量提示快速适应新场景的学习能力。
受到这种强大能力的启发,研究人员正在探索一种新的模型范式,该范式不再是针对解决有限预定义问题的独立模型,而是通过将多个工具或专家与LLM协同来解决复杂的开放性问题。
与方向四不同,这样的系统可以在没有任何训练的情况下构建,只需使用少量提示训练LLM,使其对现有工具进行调用。
整体而言,多模态agent在多模态理解方面能力较强,并可轻松扩展到潜在的数百万种工具中。
技术能力
语音和视觉能力先行,视觉能力为核心。当前模态主要包括图像、视频、音频、代码、标准数据库等,多模态大模型进展主要围绕语音和视觉任务,其中语音任务和文本任务本质上相通,有成熟开源技术方案,门槛相对较低;
视觉任务主要涵盖视觉理解和视觉生成,由于信息复杂度高、利用难度较大,并且对模型感知能力和应用开发潜力提升具有重要价值,成为当前多模态大模型发展的核心方向。
技术基础:AIGC突破0-1关卡后,多模态能力快速发展
自聊天机器人ChatGPT问世以来,AIGC技术覆盖面已由文本拓展至图片、音频。可以重点参考AI第一梯队平台OpenAI的技术及产品进程:
2023年3月,OpenAI推出ChatGPT3.5,该聊天机器人可通过机器学习技术来生成人类类似的文本回复,凭借出色的文本对话和任务完成能力,已获得大量C端付费订阅及B端订单,据IT之家援引TheInformation2023年10月报道,该公司预计全年收入超13亿美元。
2023年9月,OpenAI宣布旗下ChatGPT将能看、能听、能说,从此前的只能文本交互,实现多模态能力的更新。
语音能力:STT+TTS+GPT便捷实现语音对话,优化人机交互体验
语音转文字模型(Speech-To-Text,STT)技术成熟度高,难构成行业壁垒。语音识别技术历史悠久,最早可以追溯到1952年,成熟度相对较高,并已融入各类日常场景。
最近几年技术层面逐步从统计模型走向端到端的深度模型,底层架构逐步从小模型走向大模型。在多模态大模型系统中,STT模型将语音转换为特定模式的文本文件,并直接输入模型。
以OpenAI推出的Whisper模型为代表,模型底层使用Transformer的编码器-解码器架构,可以将音频信息直接转化成包含提示词的标准化Token,基于68万小时的对话学习,较主流小模型可以将错误率降低50%左右。
Meta推出MMS,谷歌推出AudioPaLM模型,均采用Transformer架构实现端到端的STT模型。
文本转语音(Text-To-Speech,TTS)模型是实现大模型语音能力的核心技术,差异主要体现在音色和情感方面。TTS模型同样具有悠久技术历史。
过去几年,TTS模型和STT模型在技术层面同步发展,实现从HMM-GMM为基础的概率统计模型走向Transformer基础的端到端大模型的技术转变,形成Tacotron2、Fastspeech等代表模型。
技术进展下,TTS模型语音合成效果有明显提升,可以模拟真人的语气、情感和停顿,音色更加贴近真人,可以实现高质量流畅合成。
由于模型训练阶段使用的音源在音色、情感、语种等方面存在差异,底层模型设计也不尽相同,当前主流TTS模型合成效果存在明显差异,对于用户的使用体验影响较大。
STT+TTS+GPT模式成为实现大模型语音对话的主流,技术门槛相对较低。通过构建STT+TTS+GPT的模式,可以便捷实现基于大语言模型的语言对话,为大模型增加音频模态。
在该模式下,STT、TTS、LLM模型均为独立模块,可以实现低成本替换,因此在应用开发层面可进行灵活组合。
当前市面主流对话助手的语音功能均以此方式实现,以ChatGPT语音功能为例,采用Whisper+GPT-4+OpenAI自研TTS模型的组合,实现优秀语音对话效果。
考虑到STT和TTS模型均有成熟开源解决方案,大模型实现语音模态兼容技术门槛相对较低。
视觉能力:形成两大主流路线,图文融合带动应用场景全面扩展
传统计算机视觉(CV)技术储备有助于构建视觉认知模型。计算机视觉(CV)长期以来是人工智能的核心领域之一,过去十年围绕卷积神经网络实现快速发展。
近年来部分CV模型采用Transformer架构,对于大模型时代的视觉系统构建实现技术积累。传统CV模型受限规模等原因,主要解决单一场景问题,具备独立的视觉信息处理能力。
与传统CV模型不同,大模型时代的视觉系统主要围绕提升模型整体的通用能力,以理解和认知视觉信息为核心,和文本等模态有机结合满足多模态任务的需求。
底层技术存在共通之处,传统CV领域的Transformer技术经验积累对于构建大模型视觉系统具有重要价值。
目前在底层架构设计上主要形成两大技术路线:
模块化设计:模块化多模态设计单独处理视觉信息输入。考虑到视觉信息和文本信息差距较大,当前大模型千亿规模统一处理所有模态信息具有较大难度。
因此,设计上可以分别针对文本和模型等模态分别进行模型训练,并通过系统优化实现各模型的结合。
以GPT-4V(ision)版本为例,其视觉方案以大语言模型GPT-4为核心,图像认知能力上或采用与OpenAI2021年发布的CLIP模型类似的方案,未来有望基于DALL·E3模型融合图像输出能力,形成完整的视觉多模态系统。
模块化设计提升系统灵活性,带来更高模型性价比。视觉认知、视觉生成和大语言模型在模型设计、训练数据集、目标函数设计等方面差异较大,训练和推理相对独立,模块化设计和分别训练的模块在性能、性价比、灵活性上存在优势。
性能上,各个模块可以针对特定任务单独优化,更容易在各子任务上实现高性能;性价比上,把各模态的需求分割成多模块,并进行分开训练的模式,降低了单次训练的模型规模,显著降低算力需求;
灵活性上,各模块可进行单独替换,也可以基于任务需求进行模块增减,同时大模型系统可以快速接入第三方服务,多维度实现更加灵活的解决方案。
一体化(原生多模态)设计:原生多模态设计统一文本和视觉信息输入。前端利用不同的处理模块将文本、图像等信息分别Token化,并直接输入统一的大模型。
12月6日,谷歌发布Gemini模型,作为第一款“原生多模态”大模型,文本和视觉等模态在统一架构下预训练。统一的训练有望使得各模态之间的结合更加顺畅。
根据官方技术文档,模型可以实现图文结合的理解和推理,目前在数学和物理等领域有所进展,体现了模型的复杂问题拆解能力,对于扩展应用领域以及提升输出准确性有较大价值。
原生多模态设计实现更强图文结合效果,但模型成本较高。可以针对图像和文本结合的综合任务进行端到端的统一训练和优化,把图文结合当成一项任务直接进行学习,而不是通过系统层面基于人为规则制定的融合和调优。
因此,采用原生多模态设计的大模型可以实现多模态信息的无缝共享、互通和融合,例如谷歌Gemini模型演示中就展示了基于模型对于视觉、文本、代码的融合生成能力。
同时为了容纳多模态的处理能力,模型单次参与推理的参数较多,训练数据的多样性和规模也相应提升,将显著提升模型训练和推理成本。
图像生成模型主要采用扩散模型架构,各产品存在显著差异。潜在扩散模型(LatentDiffusionmodel)是Transformer大模型在图像领域的特化应用,通过图片噪点生成的方式学习大量图片,并通过逆向去噪方式实现图片生成,成为图片生成领域的主流技术路径。
与文本生成注重正确性相比,图片生成需求更加多元,各产品在艺术风格、易用度等方面的差异化竞争更加明显。目前主流产品可以实现对用户需求的准确理解,并生成高质量的、具备一定艺术风格的图像。
代表产品有主打低门槛高质量生成的Midjourney,打造开源生态实现工业级定制的StableDiffusion,结合ChatGPT实现便捷化使用的DALL·E3等。
根据RunwayGen1模型论文(PatrickEsser,JohnathanChiu,ParmidaAtighehchian等)。
因此视频和图像生成底层不存在技术壁垒,核心能力在于如何更好的处理视频的流畅性和艺术表达,提升视频生成的长度限制。
目前视频模型产品主要功能包括文生视频、文图结合生成视频、视频智能编辑等功能。根据论文统计,视频生成领域热度明显高于视频编辑和理解。
代码生成:代码大模型快速发展,国产厂商位于第一梯队
通过大语言模型微调构建代码大模型,正确率和多模态融合能力快速提高。代码大模型主要将自然语言转化成可执行代码,作用于开发领域提升程序员工作效率。
由于代码标准化程度高、容错低,和自然语言差异较大,普遍采取基于语言模型使用代码数据进行微调的方式,构建专用的代码大模型。
这样既可以保留模型对用户输入的高理解能力,又可以将输出严格限制为代码格式。过去几年,代码大模型正确率不断升级,最新基于GPT-4构建的代码大模型在HumanEval测试级上单次正确率可以达到82%。
国际巨头加速布局,国厂商位列第一梯队。过去一年全球主要厂商大力投入代码大模型研发,模型能力屡创新高。
3月,OpenAI基于GPT-4推出代码模型,官方技术公告显示模型在HumanEval测试集上的正确率为67%。
9月,Meta发布基于Llama2的开源代码大模型CodeLlama,在HuggingFace平台测评中一度超越GPT-4等主流代码模型,占据榜首位置。
12月,Google基于Gemini模型推出AlphaCode2,性能超过85%的人类程序员,将加持Gemini模型定制版。
国产厂商中,根据论文ASurveyonLanguageModelsforCode(ZibinZheng,KaiwenNing,YanlinWang等),蚂蚁集团的开源代码大模型CodeFuse和华为代码大模型PanGu-Coder2性能优异,位列行业第一梯队。