AI多模态行业产业链前瞻财富号

当前,多模态AI大模型有望掀起新一轮产业革命。追踪当前行业发展,大模型多模态发展进一步深化,有望成为AI大模型主流。

继之前文生图能力快速嵌入各个大模型之后,文生视频为大模型多模态应用的下一重要方向。

可以说,多模态是实现通用人工智能的必经之路,必将成为大模型发展的前沿方向。以下我们就以多模态AI为视角,深度追踪这一市场热点。

对多模态AI发展下的市场机遇、产业前景进行分析,希望对大家了解当下行业现状及发展趋势有所启发。

多模态AI综述

AI模型:必将从单模态走向多模态,实现复杂场景下的智能决策

多模态或成为AI大模型主流

多模态模型是指将不同类型的数据(例如图像、文字、视频、语音等)结合起来进行分析处理的模型。

其通过不同数据类型的相互关联和结合,可以大幅提高模型的准确性和鲁棒性,应用场景进一步拓展。

其次,多模态更接近人类学习的模式,在物理世界中,人类认知一个事物并不是通过单一模态。

例如认知一只宠物,可以从视觉(宠物形貌)、听觉(宠物叫声)、嗅觉(宠物体味)、触觉(宠物毛发、宠物体温等)等多模态全面立体认知,是未来人工智能的发展方向。

多模态向通用人工智能(AGI)迈前一步。多模态大模型同时处理文本、图片、音频以及视频等多类信息,与现实世界融合度高,有望成为人类智能助手,推动AI迈向AGI:

多模态更符合人类接收、处理和表达信息的方式。人类能够感知多元信息,每一类信息均为一种模态,这些信息往往是相互关联的。

多模态信息使得大模型更为智能。多模态与用户交互方式更便捷,得益于多模态输入的支持,用户可以以更灵活的方式与智能助手进行交互和交流。多模态提升任务解决能力。

目前,多模态大模型已成为大模型发展前沿方向。2022年及之前,大模型处于单模态预训练大模型阶段,主要探索文本模式的输入输出。

2017年,Transformer模型提出,奠定了当前大模型的主流算法结构;2018年,基于Transformer架构训练的BERT模型问世,参数规模首次突破3亿;随后GPT系列模型推出,2022年底至今ChatGPT引爆全球大模型创新热潮。

步入2023年,大模型发展从文本、图像等单模态任务逐渐发展为支持多模态的多任务,更为符合人类感知世界的方式。大模型公司的比拼重点转移为多模态信息整合和数据挖掘,精细化捕捉不同模态信息的关联。

例如,2023年9月,OpenAI推出最新多模态大模型GPT-4V,增强了视觉提示功能,在处理任意交错的多模态方面表现突出。

多模态是实现通用人工智能的必经之路

按照处理的数据类型数量划分,AI模型可以划分为两类:单模态:只处理1种类型数据,如文本等;多模态:处理2种及以上数据,可类比人脑同时对文本、声音、图像等不同类型信息进行处理。

多模态是实现通用人工智能的必经之路。相比单模态,多模态大模型在输入输出端的优势明显:

输入端:提升模型能力:高质量语言数据存量有限,且不同模态包含的信息具有互补性,多元的训练数据类型有助于提升通用大模型能力;提高用户体验:推理侧更低的使用门槛和更少的信息损耗。

输出端:更实用。可直接生成综合结果,省去多个模型的使用和后期整合;更符合真实世界生产生活需要,从而实现更大商业价值。

模态AI以融合为核心,基于5大技术环节实现复杂问题解决

多模态模型厚积薄发,性能实现飞跃

多模态模型历经多个发展阶段,模型复杂度和性能持续提升。多模态模型的发展经历了五个关键阶段,分别是行为、计算、交互、深度学习和大模型时代。

这一发展历程始于最初对行为理论和科学研究的探索,如今正逐步转向多模态技术在产业领域的实际应用。

在这一过程中,半导体技术和计算机科学的迅猛发展扮演了重要的推动角色。多模态模型逐渐从简单模拟人类行为模式转变为复杂的计算模型。

随着深度学习技术的兴起,这些模型获得了更深层次的理解和学习能力,使得其在图像、语音、视频等多种形式数据处理上取得了突破性进展。

大模型开启新时代,多模态技术发展迅速。2020年大模型时代到来,多模态技术的发展得到进一步推进。

大模型时代的核心在于构建能够处理海量数据的大规模模型,从而使得多模态模型在处理复杂任务时展现出了更高的性能和智能。

最近,OpenAI发布的GPT-4V已经具备了强大的图片理解、逻辑推理以及情感感知能力,预计将在各产业得到广泛应用。

市场现状

国资委鼓励央企参与AI产业

产业政策方面,2月19日国务院国资委召开“AI赋能产业焕新”中央企业人工智能专题推进会。会议提出推动中央企业在人工智能领域实现更好发展、发挥更大作用;加快建设一批智能算力中心;

开展AI+专项行动,加快重点行业赋能,构建一批产业多模态优质数据集,打造从基础设施、算法工具、智能平台到解决方案的大模型赋能产业生态。会上,10家中央企业签订倡议书,表示将主动向社会开放人工智能应用场景。

国外市场:Sora和Gemini1.5推出,开启多模态大模型新纪元

OpenAI发布首款文生视频大模型Sora,可以快速生成60秒、准确反映用户提示的视频

2024年2月16日,OpenAI发布首款文生视频大模型Sora,可以快速生成60秒、准确反映用户提示的视频,其具有60秒超长长度、多角度视频一致性、对物理世界理解等特性。

Sora可生成60秒超长视频。相较于RunwayMLGen-2、Pika等文生视频大模型,Sora可以生成60秒一镜到底的视频,视频逻辑顺畅、主人物及背景的行人均非常稳定,文生视频大模型能力进一步提升。

Sore多角度视频一致性。Sore可以在单个生成视频中创建多个镜头,以准确保留角色和视觉风格。根据OpenAI官网发布的Demo,59秒的视频中,有多角度镜头,且主人物保持了完美的一致性。

Sore在尝试理解物理世界。根据OpenAI官网披露,Sore不仅可以理解用户Prompt的要求,同时亦尝试理解Prompt中的事物在物理世界中的存在方式(即物理规律)。

根据OpenAI官网Demo视频中,汽车在山路行驶中的颠簸,以及猫踩奶等动作符合物理世界规律,视频逼真度进一步提升。

Sora技术原理:Transformer+Diffusion。通过已知Patches推测下一Patches。传统大语言模型通过已知Tokens推测下一Tokens,Sora同大语言模型类似,将视频数据切分成不同Patches(即大语言模型中的Tokens),通过已知Patches推测下一Patches。

通常可以分为以下两个步骤:将高纬度视频数据压缩成低纬度隐空间(LatentSpace):

进一步将数据转化为SpacetimePatches:提取一系列的latentSpace作为训练/推理的Tokens,完成对模型的训练。

通过Diffusion还原画面。如前文所述通过已知Patches推测下一Patches,得到LatentPatches,OpenAI通过训练Decoder将得到的latentSpace映射到像素空间,再通过Diffusion模型进一步还原画面。

谷歌推出Gemini1.5,大模型迭代速度加快

最长可支持一百万token超长上下文,超越GPT-4Turbo。谷歌研究人员进行了一项测试,在这个测试中,模型需要在一定的文本范围内检索到100个不同的特定信息片段。

Gemini1.5Pro在较短的文本长度上的性能超过了GPT-4-Turbo,并且在整个100万token的范围内保持了相对稳定的表现,GPT-4Turbo的性能则飞速下降,且无法处理超过128,000token的文本。

可对大量的信息进行复杂推理。Gemini1.5Pro可以在给定提示内无缝分析、分类和总结大量内容。

例如,当给出阿波罗11号登月任务的402页记录时,它可以推理整个文档中的对话、事件和细节。

跨模式推理和理解能力增强。Gemini1.5Pro可以针对包括视频在内的不同模式执行高度复杂的理解和推理任务。

例如,当给定一部44分钟的巴斯特·基顿无声电影时,该模型可以准确分析各种情节点和事件,甚至推理出电影中容易被忽略的小细节。

相比上一代性能增强,并具备“上下文学习”能力。在涵盖文本、代码、图像、音频和视频的综合性测试中,1.5Pro在87%的基准测试上超越了1.0Pro。与1.0Ultra在相同基准测试的比较中,1.5Pro的表现也相差无几。

Gemini1.5Pro展现了卓越的“上下文学习”能力,能够仅凭长提示中提供的信息掌握新技能,无需进一步细化调整。

这一能力在“从一本书学习机器翻译(MTOB)”基准测试中得到了验证,该测试检验了模型学习从未接触过的信息的能力。

对于一本关于全球不足200人使用的Kalamang语的语法手册,模型能够学会将英语翻译成Kalamang,学习效果与人类学习相似。

Gemini首次发布是2023年12月,仅两个月之后,Gemini1.5的发布已经展现了与其前代相比的显著性能提升,这一迅速的迭代速度不仅彰显了大模型技术飞速发展的态势,同时也反映出了AI领域大模型竞争愈发激烈。

国内市场:加速对齐海外龙头,细分领域或有优势

国内市场加速对齐海外龙头,多模态大模型陆续推出

国内科技公司积极研发国产大模型,互联网大厂在数据积累与算法水平兼具优势,率先切入多模态大模型赛道,其后不断涌现大模型科技公司与初创公司,在多模态大模型领域持续投入同时陆续更新大模型能力。

例如,百度2023年3月发布文心一言,成为全球大厂中第一个对标ChatGPT甚至是GPT-4的大模型,同时具备文字生成图片、音频(方言)、视频等多模态能力。

其后,阿里巴巴、腾讯等互联网大厂,商汤科技等大模型公司以及智源研究院、智谱等初创公司或研究所均发布了国产多模态大模型,并通过不断迭代实现能力突破,逐步缩小与海外大模型差距。

然而,总体而言,由于国产训练数据集、算力支持和应用场景等与海外大厂仍存在较大差距,国产大模型仍在向海外大厂靠齐过程中。

根据SuperCLUE测评数据,截至2023年12月,海外GPT-4Turbo、GPT-4依旧为全球性能最优大模型。

国内市场在细分领域或有优势。海外龙头厂商具有示范效应,Meta等厂商算法开源显著降低国产大模型学习成本,国产大模型可通过复制海外龙头厂商先进技术快速成长,通过逐步超越海外龙头上代产品,并摸索最新技术的方式升级迭代:

阿里巴巴最新通义千问可媲美GPT-4V和Gemini。2023年8月,阿里发布Qwen-VL模型的第一个版本,并很快对通义千问进行了升级。

Qwen-VL支持以图像、文本作为输入,并以文本、图像、检测框作为输出,让大模型真正具备了看世界的能力。

在多模态大模型性能整体榜单OpenCompass中,Qwen-VL-Plus紧随GeminiPro和GPT-4V,占据了前三名的位置。

2024年1月,阿里巴巴新升级的通义千问视觉语言大模型Qwen-VL-Max发布,在多个测评基准上取得较好成绩,并实现了强大的图像理解能力,整体能力达到了媲美GPT-4V和Gemini的水平,在多模态大模型领域实现了业内领先。

智谱AI发布多模态大模型GLM-4,模型性能均达GPT-4九成以上。作为国内唯一一个产品线全对标OpenAI的大模型公司,GLM-4性能相比GLM-3提升60%,逼近GPT-4(11月6日最新版本效果)。

多模态能力方面,GLM-4则是把原本就有的文生图(CogView3)、代码能力做了升级,CogView3效果超过开源最佳的StableDiffusionXL,逼近DALLE·3。

2023年12月,智源研究院开源发布新一代多模态基础模型Emu2,成为目前最大的开源生成式多模态模型,通过大规模自回归生成式多模态预训练,显著推动多模态上下文学习能力的突破。

Emu2在少样本多模态理解任务上大幅超越Flamingo-80B、IDEFICS-80B等主流多模态预训练大模型,在包括VQAv2、OKVQA、MSVD、MM-Vet、TouchStone在内的多项少样本理解、视觉问答、主体驱动图像生成等任务上取得最优性能。

Emu2-Chat可以精准理解图文指令,实现更好的信息感知、意图理解和决策规划。Emu2-Gen可接受图像、文本、位置交错的序列作为输入,实现灵活、可控、高质量的图像和视频生成。

国产大模型有望凭借独特生态优势在细分领域取得差异化竞争优势

百度2023年3月发布的文心一言,其训练数据包含万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及5500亿事实的知识图谱等。

在搜索领域或具有技术与数据优势;阿里巴巴2023年4月发布的通义千问训练数据包括大量文本、专业书籍、代码等,生成的大模型或在电商领域具有较强竞争力。

总体而言,通过向海外技术对齐和利用独特生态禀赋,国产大模型与海外大厂差距逐步缩小。

根据SuperCLUE测评数据,在2023年下半年,国内领军大模型企业实现了大模型代际追赶的奇迹,从7月份与GPT3.5的20分差距,每个月都有稳定且巨大的提升,到11月份测评时已经完成总分上对GPT3.5的超越。

多模态发展路径逐步清晰,底层技术日臻成熟

目前,多模态大模型发展路径逐步清晰。发展思路主要有三:利用单模态模型如LLMs来调动其他数据类型的功能模块完成多模态任务,典型代表有Visual、ChatGPT、HuggingGPT等;

直接利用图像和文本信息训练得到多模态大模型,典型代表有KOSMOS-1等;将LLMs与跨模态编码器等有机结合,融合LLMs的推理检索能力和编码器的多模态信息整合能力,典型代表有Flamingo、BLIP2等。

多模态大模型底层技术日臻成熟,支持实现多类信息融合与转换。

从技术架构来看,多模态大模型一般包括编码、对齐、解码和微调等步骤,逐步整合多模态关联信息,输出目标结果。

编码:包括视觉、音频、文本等模态编码器,目的是有效处理多个模态信息,转化为可处理状态;

对齐:在预训练模型的基础上,通过在自有小数据集上的训练来适应新的任务,更好地提升大模型在下游特定领域能力。

文生图为最先成熟的多模态技术领域,其代表技术为OpenAI于2021年推出的CLIP模型。

CLIP使用约4亿从网页中爬取的图像-文本对数据进行对比学习,采用图像和文本双编码器,用于评估给定图像与给定文本描述的匹配程度,成为连接文本和图像的桥梁。

目前,多模态底层技术不再局限于文本与图像两层信息,Meta-Transformer可同时理解12种模态信息。

2023年7月,香港中文大学多媒体实验室联合上海人工智能实验室的OpenGVLAB研究团队提出一个统一多模态学习框架Meta-Transformer。

实现骨干网络的大统一,具有一个模态共享编码器,无需配对数据,即可处理12种模态信息,并提供了多模态无边界融合的新范式。

相比CLIP、BEiT-3、Imagebind,模态数目大幅增加,并且摆脱了多模态训练过程中对于配对数据的依赖性,为多模态学习提供了新路径。

多模态AI是机遇也是挑战

信息异构,数据升维。人类日常生活中的自然语言、语气、手势和眼神,这些不同的表达形式和对方的感知形式,就是不同的模态。

这种多模态对齐到“0-1”世界中,就是文字、图像&视频、音频信息甚至物理化学公式,而这些信息之间形成了相似、补充或互斥的关系,这种相互关系会对多模态的表现产生重大影响。

多模态AI的输入和输出超出了单一的文字维度,对AI既是机遇也是挑战。机遇在于,多模态信息可以帮助AI更精确地了解人类世界,在作答时就可以输出更加贴近现实、符合预期的回答。

如同失聪者同时难以说话,AI获取的信息若不是多模态,就只能停留在文字数据给予的单一维度认知。

不同模态之间的相互作用有多种方式,正反馈例如,若将一张人类跑步的图片、一段描述“跑步”的文字、力学定律等输入至AI,那么AI就可以获得对“跑步”这一行为的增强理解;

负反馈例如,在文字训练数据出现错误时,其他模态的数据可以帮助AI辅助判断对错,从源头减少AI“幻觉”的产生。

多模态的挑战集中于数据、算力和调优。首先是多模态数据的融合(Fusion),进一步增加了算力资源的压力。

例如,一段文字和一张图片里都包含“1+1=2”的信息,这种情况可以为二者给予相同的训练权重;如果包含更加复杂的信息,简单的信息融合将失效,就需要引入张量融合算法,从而占据一部分算力资源。

其次,数据的对齐(Alignment)对不同模态之间的协调起着关键作用。今年3月发布的GPT-4模型能够识别搞笑图片中的笑点所在,就是由于OpenAI做好了充分的文字与图片的数据对齐。

多模态AI的发展,不仅利于影视创作、游戏制作行业的生产效率提升,同时也有利于逐步打消业界对AI能力的怀疑。

Pika1.0、Gemini的发布提振了用户的信心——Pika有效解决了多模态大模型生成视频时帧连续性的问题,输出结果堪称惊艳。

Gemini原生基于多模态打造,有效解决了多模态数据融合的问题,相当于AI“新物种”。AI并未停下脚步,通向AGI的星辰大海正在拉开帷幕。

研究方向

在模型分类中,研究员们将模型研究方向分为两大类五个主题:目前已成熟、完善的研究主题,包括视觉理解、视觉生成;具备探索性、开放性的前沿研究领域,包括统一视觉模型、受LLM(大语言模型)支持的多模态大模型以及多模态agent。

方向一:视觉理解。在AI领域,视觉理解是指使计算机系统能够解释和理解视觉信息的能力。视觉理解的核心问题是通过预训练使得神经网络的主干架构backbone获得强大的图像理解能力。

在这些方法之外,常用的预训练方法还有多模态融合、区域级和像素级图像理解等。

方向二:视觉生成。这是AI图像生成与理解的核心,不仅包括图像生成,还包括视频、3D点云图等多种内容的生成。

视觉生成不仅可以应用于艺术、设计等内容创作领域,它还在合成训练数据方面发挥着巨大作用,从而促进多模态内容理解与生成的闭环发展。

当前研究趋势和未来短期研究方向是创建通用的文生图模型,以更好地满足人类意图,并提升上述方向的可替代性。

方向三:统一视觉模型。构建统一视觉模型具有多重挑战。在计算机视觉领域,各任务的差异很大,这为建立统一的视觉模型带来了巨大挑战:

输入类型不同,输入内容可包括静态图形、动态视频、纯视觉输入、模糊图像等;不同的任务需要不同的粒度,如图像级任务、区域级任务、像素级任务等,因此输出的空间信息和语义信息也要求不同的格式;

在建模之外,数据也有挑战,比如不同类型的标签注释成本差异很大,收集成本比文本数据高,这导致视觉数据的规模通常比文本语料库小得多。

未来统一视觉模型是非常有价值的研究方向。CV领域对于开发通用、统一的视觉系统具有很高的兴趣,实现这一目标的关键研究方向包括:

从闭集模型到开集模型,可以更好地将文本和视觉匹配;从特定任务到通用能力,减少新模型/垂直细分模型的开发成本;从静态模型到可提示模型。

未来通用视觉模型应具备强大的上下文学习能力,因此LLM可以接受不同语言和上下文提示作为输入,并生成用户所需的输出,无需微调。

方向四:LLM支持的多模态大模型。该领域的代表作为OpenAI的多模态模型GPT-4V,模型具备较强大的能力:

模型具有强大的通用性能力,能够处理不同输入模态的任意组合,包括图像、子图像、文本、场景文本和视觉指针。

经过详细测试,研究人员发现GPT-4V支持LLM中的test-time技术,如指令跟随、思维链、上下文少样本学习等。

LLM支持的多模态模型仍有部分领域需要改进和迭代,包括更多超越视觉和语言的模态(MultitaskInstructwithEstablishedAcademicDatasets/Tasks)、多模态的上下文学习(MultimodalIn-Context-Learning、参数高效训练(Parameter-EfficientTraining)以及Benchmark等内容。

方向五:多模态Agent。多模态Agent是将不同的多模态专家模型同LLM联系起来,进而解决复杂多模态理解问题的办法,也是目前最前沿的多模态研究方向。

大语言模型(LLM)具有对各领域用户提示的通用性特点,以及利用少量提示快速适应新场景的学习能力。

受到这种强大能力的启发,研究人员正在探索一种新的模型范式,该范式不再是针对解决有限预定义问题的独立模型,而是通过将多个工具或专家与LLM协同来解决复杂的开放性问题。

与方向四不同,这样的系统可以在没有任何训练的情况下构建,只需使用少量提示训练LLM,使其对现有工具进行调用。

整体而言,多模态agent在多模态理解方面能力较强,并可轻松扩展到潜在的数百万种工具中。

技术能力

语音和视觉能力先行,视觉能力为核心。当前模态主要包括图像、视频、音频、代码、标准数据库等,多模态大模型进展主要围绕语音和视觉任务,其中语音任务和文本任务本质上相通,有成熟开源技术方案,门槛相对较低;

视觉任务主要涵盖视觉理解和视觉生成,由于信息复杂度高、利用难度较大,并且对模型感知能力和应用开发潜力提升具有重要价值,成为当前多模态大模型发展的核心方向。

技术基础:AIGC突破0-1关卡后,多模态能力快速发展

自聊天机器人ChatGPT问世以来,AIGC技术覆盖面已由文本拓展至图片、音频。可以重点参考AI第一梯队平台OpenAI的技术及产品进程:

2023年3月,OpenAI推出ChatGPT3.5,该聊天机器人可通过机器学习技术来生成人类类似的文本回复,凭借出色的文本对话和任务完成能力,已获得大量C端付费订阅及B端订单,据IT之家援引TheInformation2023年10月报道,该公司预计全年收入超13亿美元。

2023年9月,OpenAI宣布旗下ChatGPT将能看、能听、能说,从此前的只能文本交互,实现多模态能力的更新。

语音能力:STT+TTS+GPT便捷实现语音对话,优化人机交互体验

语音转文字模型(Speech-To-Text,STT)技术成熟度高,难构成行业壁垒。语音识别技术历史悠久,最早可以追溯到1952年,成熟度相对较高,并已融入各类日常场景。

最近几年技术层面逐步从统计模型走向端到端的深度模型,底层架构逐步从小模型走向大模型。在多模态大模型系统中,STT模型将语音转换为特定模式的文本文件,并直接输入模型。

以OpenAI推出的Whisper模型为代表,模型底层使用Transformer的编码器-解码器架构,可以将音频信息直接转化成包含提示词的标准化Token,基于68万小时的对话学习,较主流小模型可以将错误率降低50%左右。

Meta推出MMS,谷歌推出AudioPaLM模型,均采用Transformer架构实现端到端的STT模型。

文本转语音(Text-To-Speech,TTS)模型是实现大模型语音能力的核心技术,差异主要体现在音色和情感方面。TTS模型同样具有悠久技术历史。

过去几年,TTS模型和STT模型在技术层面同步发展,实现从HMM-GMM为基础的概率统计模型走向Transformer基础的端到端大模型的技术转变,形成Tacotron2、Fastspeech等代表模型。

技术进展下,TTS模型语音合成效果有明显提升,可以模拟真人的语气、情感和停顿,音色更加贴近真人,可以实现高质量流畅合成。

由于模型训练阶段使用的音源在音色、情感、语种等方面存在差异,底层模型设计也不尽相同,当前主流TTS模型合成效果存在明显差异,对于用户的使用体验影响较大。

STT+TTS+GPT模式成为实现大模型语音对话的主流,技术门槛相对较低。通过构建STT+TTS+GPT的模式,可以便捷实现基于大语言模型的语言对话,为大模型增加音频模态。

在该模式下,STT、TTS、LLM模型均为独立模块,可以实现低成本替换,因此在应用开发层面可进行灵活组合。

当前市面主流对话助手的语音功能均以此方式实现,以ChatGPT语音功能为例,采用Whisper+GPT-4+OpenAI自研TTS模型的组合,实现优秀语音对话效果。

考虑到STT和TTS模型均有成熟开源解决方案,大模型实现语音模态兼容技术门槛相对较低。

视觉能力:形成两大主流路线,图文融合带动应用场景全面扩展

传统计算机视觉(CV)技术储备有助于构建视觉认知模型。计算机视觉(CV)长期以来是人工智能的核心领域之一,过去十年围绕卷积神经网络实现快速发展。

近年来部分CV模型采用Transformer架构,对于大模型时代的视觉系统构建实现技术积累。传统CV模型受限规模等原因,主要解决单一场景问题,具备独立的视觉信息处理能力。

与传统CV模型不同,大模型时代的视觉系统主要围绕提升模型整体的通用能力,以理解和认知视觉信息为核心,和文本等模态有机结合满足多模态任务的需求。

底层技术存在共通之处,传统CV领域的Transformer技术经验积累对于构建大模型视觉系统具有重要价值。

目前在底层架构设计上主要形成两大技术路线:

模块化设计:模块化多模态设计单独处理视觉信息输入。考虑到视觉信息和文本信息差距较大,当前大模型千亿规模统一处理所有模态信息具有较大难度。

因此,设计上可以分别针对文本和模型等模态分别进行模型训练,并通过系统优化实现各模型的结合。

以GPT-4V(ision)版本为例,其视觉方案以大语言模型GPT-4为核心,图像认知能力上或采用与OpenAI2021年发布的CLIP模型类似的方案,未来有望基于DALL·E3模型融合图像输出能力,形成完整的视觉多模态系统。

模块化设计提升系统灵活性,带来更高模型性价比。视觉认知、视觉生成和大语言模型在模型设计、训练数据集、目标函数设计等方面差异较大,训练和推理相对独立,模块化设计和分别训练的模块在性能、性价比、灵活性上存在优势。

性能上,各个模块可以针对特定任务单独优化,更容易在各子任务上实现高性能;性价比上,把各模态的需求分割成多模块,并进行分开训练的模式,降低了单次训练的模型规模,显著降低算力需求;

灵活性上,各模块可进行单独替换,也可以基于任务需求进行模块增减,同时大模型系统可以快速接入第三方服务,多维度实现更加灵活的解决方案。

一体化(原生多模态)设计:原生多模态设计统一文本和视觉信息输入。前端利用不同的处理模块将文本、图像等信息分别Token化,并直接输入统一的大模型。

12月6日,谷歌发布Gemini模型,作为第一款“原生多模态”大模型,文本和视觉等模态在统一架构下预训练。统一的训练有望使得各模态之间的结合更加顺畅。

根据官方技术文档,模型可以实现图文结合的理解和推理,目前在数学和物理等领域有所进展,体现了模型的复杂问题拆解能力,对于扩展应用领域以及提升输出准确性有较大价值。

原生多模态设计实现更强图文结合效果,但模型成本较高。可以针对图像和文本结合的综合任务进行端到端的统一训练和优化,把图文结合当成一项任务直接进行学习,而不是通过系统层面基于人为规则制定的融合和调优。

因此,采用原生多模态设计的大模型可以实现多模态信息的无缝共享、互通和融合,例如谷歌Gemini模型演示中就展示了基于模型对于视觉、文本、代码的融合生成能力。

同时为了容纳多模态的处理能力,模型单次参与推理的参数较多,训练数据的多样性和规模也相应提升,将显著提升模型训练和推理成本。

图像生成模型主要采用扩散模型架构,各产品存在显著差异。潜在扩散模型(LatentDiffusionmodel)是Transformer大模型在图像领域的特化应用,通过图片噪点生成的方式学习大量图片,并通过逆向去噪方式实现图片生成,成为图片生成领域的主流技术路径。

与文本生成注重正确性相比,图片生成需求更加多元,各产品在艺术风格、易用度等方面的差异化竞争更加明显。目前主流产品可以实现对用户需求的准确理解,并生成高质量的、具备一定艺术风格的图像。

代表产品有主打低门槛高质量生成的Midjourney,打造开源生态实现工业级定制的StableDiffusion,结合ChatGPT实现便捷化使用的DALL·E3等。

根据RunwayGen1模型论文(PatrickEsser,JohnathanChiu,ParmidaAtighehchian等)。

因此视频和图像生成底层不存在技术壁垒,核心能力在于如何更好的处理视频的流畅性和艺术表达,提升视频生成的长度限制。

目前视频模型产品主要功能包括文生视频、文图结合生成视频、视频智能编辑等功能。根据论文统计,视频生成领域热度明显高于视频编辑和理解。

代码生成:代码大模型快速发展,国产厂商位于第一梯队

通过大语言模型微调构建代码大模型,正确率和多模态融合能力快速提高。代码大模型主要将自然语言转化成可执行代码,作用于开发领域提升程序员工作效率。

由于代码标准化程度高、容错低,和自然语言差异较大,普遍采取基于语言模型使用代码数据进行微调的方式,构建专用的代码大模型。

这样既可以保留模型对用户输入的高理解能力,又可以将输出严格限制为代码格式。过去几年,代码大模型正确率不断升级,最新基于GPT-4构建的代码大模型在HumanEval测试级上单次正确率可以达到82%。

国际巨头加速布局,国厂商位列第一梯队。过去一年全球主要厂商大力投入代码大模型研发,模型能力屡创新高。

3月,OpenAI基于GPT-4推出代码模型,官方技术公告显示模型在HumanEval测试集上的正确率为67%。

9月,Meta发布基于Llama2的开源代码大模型CodeLlama,在HuggingFace平台测评中一度超越GPT-4等主流代码模型,占据榜首位置。

12月,Google基于Gemini模型推出AlphaCode2,性能超过85%的人类程序员,将加持Gemini模型定制版。

国产厂商中,根据论文ASurveyonLanguageModelsforCode(ZibinZheng,KaiwenNing,YanlinWang等),蚂蚁集团的开源代码大模型CodeFuse和华为代码大模型PanGu-Coder2性能优异,位列行业第一梯队。

THE END
1.无人机方向数据集合集!本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。 1 EOS 更新时间:2024-09-24 访问地址: GitHub 描述: EOS 是基于双内核实时内核 RROS 的具身智能操作系统版本。 它旨在构建一个易于使用的平台,以收集创建智能机器人应用程序所需的所有软件。 具体来说,有三个重要步骤: ...http://www.mynw.cn/mobile/19084.html
2.宠物市场统计数据宠物和动物用品经济数据权威行业数据平台本主题内的数据 概述 宠物电商 典型企业 用户行为数据主题包图表报告形式呈现本主题所有数据 本数据主题包包括 中国化妆品行业 主题下的 33条 数据包含总体概述、化妆品核心数据、典型企业等数据。 3633 PPT、PDF下载 数据来源 价格: 899 立即购买 VIP免费下载 数据主题包图表报告形式呈现本主题所有数据 本数据...https://data.iimedia.cn/data-classification/theme/13027242.html
3.上市公司001222源飞宠物个股买卖价差表相对报价价...有效数据条数 | 证券代码c | 统计年度 | 股票代码C | 股票简称 | 统计年度C | 行业代码 | 行业...https://bbs.pinggu.org/thread-12926870-1-1.html
4.宠物年龄识别数据集宠物年龄识别比赛数据集随着我国居民收入提升和养宠人群不断扩大,宠物消费相关的商品和服务类型不断丰富,国内宠物行业规模快速扩张。2017-2022年我国宠物市场高速发展,宠物市场规模已超千亿规模,随着更多的人加入养宠大军,以及养宠理念的不断升级,未来宠物市场将持续蓬勃发展。 宠物医疗保险则是宠物经济中重要的组成部分,...https://tianchi.aliyun.com/dataset/157591
5.2023肠道产业发展白皮书热心肠研究院202401.pdf包括肠道产业在内的众多行业提供有力支撑。微生 物组是肠道科学的重要组成部分,这一领域的发展 00.0 与肠道产业的兴衰密切相关。根据泛研网的数据,2010201120122013201420152016201720182019202020212022 图1-3.2010-2022年全球微生物组科研项目。检索方式:PS=微生物组;语言选 择中文和英文。来源:泛研网,热心肠研究院整理制图...https://m.book118.com/html/2024/0115/8023035042006026.shtm
6.202420242030年中国动物识别系统行业市场发展趋势与前景展望战略分析报告 摘要 2 第一章 行业概述 2 一 动物识别系统定义与分类 2 二 行业背景及意义 4 三 相关政策与法规 5 第二章 市场规模与增长趋势 6 一 市场规模及增长情况https://www.renrendoc.com/paper/343087518.html
7.新工商名录首页新工商名录本站属于名录集旗下新工商名录系列网站,数据每天更新,提供全国31个省份一亿以上工商企业信息查询,包含企业名称、地址、法人、成立时间、经营范围、企业税号、行业信息等。免费查询企业工商注册信息就上新工商名录。https://gongshang.mingluji.com/
1.数据集常见家养动物数据集25234张7类VOC+YOLO格式(鸡鸭鹅牛羊...数据集格式 Pascal VOC格式:包含XML文件,用于详细描述每个图像中的对象位置。 YOLO格式:包含TXT文件,用于简洁描述每个图像中的对象位置。 不含分割路径的txt文件:数据集不包含分割路径的txt文件,仅包含jpg图片以及对应的VOC格式xml文件和YOLO格式txt文件。 https://blog.51cto.com/u_17037082/12703066
2.犬种分类图像数据集数据说明: 该数据集包含120种犬类图像,每个文件夹大约150张图片。 品种分类:: 非洲猎犬 墨西哥无毛犬 标准贵宾犬 迷你贵宾犬 玩具贵宾犬 卡迪根犬 彭布罗克犬 布拉班克格里芬 柯伊伯犬 垂耳兔 ...http://www.dilitanxianjia.com/16976/
3.猫狗数据集+基于卷积神经网络实现的猫狗图像分类项目源码+答辩PPT...资源浏览查阅14次。猫狗数据集+基于卷积神经网络实现的猫狗图像分类项目源码+答辩PPT+数据集(高分项目),个人经导师指更多下载资源、学习资料请访问CSDN文库频道.https://download.csdn.net/download/chengxuyuanlaow/90052996
4....新成立/注册及已更改名称的公司名单香港公司名单数据集/...哈尼宠物用品香港有限公司是一家香港公司,该页面展示了哈尼宠物用品香港有限公司的中文名称、英文名称、注册编号、商业登记号、成立日期、改名日期、公司状态、变更历史等信息,提供哈尼宠物用品香港有限公司详情企业报告定购服务。 已经成立了1年8个月。 HONEY PETSMART HONGKONG LIMITED is a Hong Kong company . This...https://hkg.databasesets.com/zh-hans/gongsimingdan/number/3246906
5.宠物行业的大数据分析怎么写帆软数字化转型知识库1. 什么是宠物行业的大数据分析? 宠物行业的大数据分析是指利用大规模的数据集,通过数据挖掘、统计分析和机器学习等技术手段,对宠物市场、消费者行为、产品需求等方面的数据进行深入分析和挖掘,以发现潜在的趋势、规律和商机。通过对这些数据的分析,企业可以更好地了解市场需求,优化产品设计,改善营销策略,提升竞争力。 https://www.fanruan.com/blog/article/81179/
6.开源数据集汇总小目标检测图像分类图像识别一个包含 37 个类别的宠物数据集,每个类别大约有 200 张图像。这些图像在比例、姿势和照明方面有很大的变化。所有图像都有相关的品种、头部 ROI 和像素级三元图分割的地面实况注释。 街景门牌号 (SVHN) 数据集 数据集下载地址:http://m6z.cn/5ExMWb ...https://cloud.tencent.com/developer/article/1976096
7.全国建筑矢量数据下载,含楼层行业研究数据集全国建筑矢量数据下载,含楼层 行业研究 - 数据集 - 全国建筑矢量数据下载,含楼层多心**心酸 上传452.04 MB 文件格式 zip 全国建筑矢量数据下载,含楼层高度 点赞(0) 踩踩(0) 反馈 所需:15 积分 电信网络下载 字体-像素点数字字母-像素数字.ttf 2024-12-02 05:21:55 积分:1 ...https://www.coder100.com/index/index/content/id/2734937
8.木兰职业形堂答案汇总木兰职业形堂今日答案最新5月31日:在新村助力上岗的数据标注员的主要工作是什么?提供足够数据集 5月30日:安头屯中幡流传于河北省香河县安头屯镇,它起源于什么时期?隋唐 5月29日:银饰锻制是苗族民间独有的技艺,其中整套银饰系列之首是?银凤冠和银花帽 5月28日:人们常说“气大伤身”,猜一猜:生气对免疫系统有影响吗?有 ...https://app.ali213.net/mip/gl/888001.html
9.7月汽车出行大事件:甲壳虫停产;T3出行登陆南京据外媒报道,美国网约车公司Lyft将公开一整套开放式自动驾驶数据集,公司宣称这是“业内最大的自动驾驶公共数据集”,涵盖了近5.5万张3D高清截图,且由人工审核员,按照图片分类进行手动贴标。此外,数据集还涵盖了7个车载摄像头及3个激光雷达所采集的数据,以及可供驾驶员使用的平面地图及高清空间语义数据。 https://www.iyiou.com/p/107611.html
10.行业资讯工信部拟筹建人工智能标准化技术委员会云计算机器人大...在基础支撑方面,制定人工智能数据集、基础硬件、软件平台等标准。在算法模型方面,制定人工智能基础大模型、行业大模型等标准。在运维管理方面,制定人工智能大模型应用指南应用成熟度、应用开发管理等标准。在安全治理方面,制定人工智能风险识别防范安全治理、科技伦理、数据安全、信息安全等标准。(来源:人民邮电报)...https://www.163.com/dy/article/J6M2AJTF0518C97I.html
11.宠智灵宠物AI大模型服务平台宠智灵,宠物ai大模型服务商,覆盖多种宠物行业场景:宠物医疗,穿戴,食品,美容,社交,智能设备等。提供先进的AI技术服务,全面涵盖宠物应用领域,助力企业AI化转型。https://gjpet.com/
12.温州科技职业学院是公办还是民办?答:公办电子商务、市场营销、国际商务、绿色食品生产技术、食品智能加工技术、数字媒体技术、园林工程技术、金融服务与管理、水利工程、大数据与会计、物联网应用技术、人工智能技术应用、商务数据分析与应用、园林技术、工业机器人技术、软件技术、食品质量与安全、宠物养护与驯导、环境工程技术、森林生态旅游与康养、连锁经营与...https://www.zhijiao.cn/school/bxxz/14466
13.猫科动物有哪些品种QUINI推出专属分析平台解锁宠物世界的秘密...导读:Quinireg;是葡萄酒消费者感官数据和分析解决方案的领导者,今天为葡萄酒生产商和行业利益相关者推出了下一代平台。QUINI DATA? 2.0 利用 Quini 不断增长的消费者品酒和评级感官数据集、独特的数据采集和品酒活动管理软件应用程序、消费者品酒面板网络和机器学习算法,提供深入、丰富的洞察,从而做出更明智、更快...https://www.xbgidqjl.cn/niang-zao/308066.html
14....动物检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键...同时,该系统也可以应用于宠物行业,通过对宠物行为的实时监测,提升宠物主人的管理效率,增强宠物的安全性。 综上所述,基于改进YOLOv8的动物检测系统的研究,不仅在技术上具有重要的创新意义,也在社会实践中展现出广泛的应用前景。通过对数据集的深入分析和模型的不断优化,我们期待能够为动物检测领域提供新的思路和解决...https://github.com/VisionMillionDataStudio/CAT-DETECTION431
15.巴彦淖尔市2022年12月1日招聘信息:那曲祭奠宠物福运科仪加工或生产制造型企业工作经验;一年以上生产车间管理经验,有40人以上团队管理经验;对加工工厂运行具备的相关食品安全、生产安全、设备设施有一定的了解;具有较强的责任心与执行力,有较好的组织协调及处理复杂事物的能力;如有食品加工或生产制造型企业其他相关管理经验,除专业能力以外其他水平素质在线亦可培养那曲祭奠宠物。https://fuzhoufashi.com/index.php/post/22956.html
16.天才猩猩提供AI电子宠物情感桌面智能机器人EMO,诚招全国代理...所属行业: IT/互联网-知识付费/内容变现 合作地区: 全国 有效时间: 2026-09-24 合作联系方式 点击查看联系方式 合作类型: 项目找代理 加盟/代理费: 0-5万 提供资源详情: EMO是由Living Ai公司开发的智能机器人,也是一款拥有emopet智能情感语音、交互陪伴功能的桌面电子宠物。它不仅是一款技术产品,更是一个...https://www.bdwork.com/thread-1065858-1-1.html
17.安同良自选集——创新与产业发展第一章科技创新与产业发展的趋势...它更像人脑的工作方式,具有从大量无标注样本集中学习数据集本质特征的能力。同时,深度学习能够与大数据契合得更好,深度学习将要学习的东西看成一大堆数据,它的预测效果随着数据量的增长而增长,不像传统的算法存在性能瓶颈。除了会下棋,基于深度学习的人工智能已经有了一些能够落地的应用场景。 2.人工智能的主要应用 (1...https://fanqienovel.com/reader/7327950107289062462