预测下个token就能通往AGI,智源Emu3有世界模型的味儿了模态上下文

OpenAI前首席科学家、联合创始人IlyaSutskever曾在多个场合表达观点:只要能够非常好的预测下一个token,就能帮助人类达到通用人工智能(AGI)。

虽然,下一token预测已在大语言模型领域实现了ChatGPT等突破,但是在多模态模型中的适用性仍不明确,多模态任务仍然由扩散模型(如StableDiffusion)和组合方法(如结合CLIP视觉编码器和LLM)所主导。

2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。该模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。

Emu3在图像生成、视频生成、视觉语言理解等任务中超过了SDXL、LLaVA、OpenSora等知名开源模型,但是无需扩散模型、CLIP视觉编码器、预训练的LLM等技术,只需要预测下一个token。

图注:在图像生成任务中,基于人类偏好评测,Emu3优于SD-1.5与SDXL模型。在视觉语言理解任务中,对于12项基准测试的平均得分,Emu3优于LlaVA-1.6。在视频生成任务中,对于VBench基准测试得分,Emu3优于OpenSora1.2。

Emu3提供了一个强大的视觉tokenizer,能够将视频和图像转换为离散token。这些视觉离散token可以与文本tokenizer输出的离散token一起送入模型中。与此同时,该模型输出的离散token可以被转换为文本、图像和视频,为Any-to-Any的任务提供了更加统一的研究范式。而在此前,社区缺少这样的技术和模型。

此外,受益于Emu3下一个token预测框架的灵活性,直接偏好优化(DPO)可无缝应用于自回归视觉生成,使模型与人类偏好保持一致。

Emu3研究结果证明,下一个token预测可以作为多模态模型的一个强大范式,实现超越语言本身的大规模多模态学习,并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到token本身,能在大规模训练和推理中释放巨大的潜力。下一个token预测为构建多模态AGI提供了一条前景广阔的道路。

目前Emu3已开源了关键技术和模型。(开源模型和代码地址在文末)

Emu3一经上线便在社交媒体和技术社区引起了热议。

有网友指出,“这是几个月以来最重要的研究,我们现在非常接近拥有一个处理所有数据模态的单一架构。”

“Emu3是一种非常新颖的方法(至少在我看来是这样),它有机会将多模态合并为一,只需将它们都视为token即可。虽然还处于初期,但演示效果很不错。想象一下,我们可以无限扩展视频和生成多种模态。”

甚至有网友评价:“也许我们会得到一个真正开放的OpenAIv2?”

“Emu3在各行各业的广泛适用性和开源灵活性将为开发者和企业解锁人工智能创新能力的机会。”

“Emu3的统一方法将带来更高效、更多功能的AI系统,简化多模态AI的开发和应用以及内容生成、分析和理解的新可能性。”

"Emu3改写了多模态人工智能的规则...Emu3重新定义了多模态AI,展示了简单可以战胜复杂。多模态AI的未来变得更加精炼与强大。"

1

效果展示

视觉理解

Emu3展现了强大的图像及视频的感知能力,能够理解物理世界并提供连贯的文本回复。值得注意的是,这种能力是在不依赖于基础LLM模型和CLIP的情况下实现的。

1.图像输入

用户问题:Describethelandmark.

模型回答:TheimageshowcasestheBrooklynBridge,aprominentsuspensionbridgeinNewYorkCity,recognizedbyitsdistinctivetowersandthewebofcablesthatsupportit.ThisiconicstructureconnectstheboroughsofBrooklynandManhattan.

用户问题:Pleasedescribetheimageindetail.模型回答:Theimageisthecoverofamagazinetitled"Parktakes,"whichistheFall2017issue.Thecoverfeaturestwoindividualsinawhitekayak,paddlingonabodyofwater.Thekayakispositioneddiagonally,withthetwoindividualsseatedtowardsthefront.Bothindividualsarewearinglifejackets,whichareredwithblackstraps,andtheyareholdingpaddleswithorangeblades.Thepersonontheleftisawomanwithlongdarkhair,wearingsunglassesandablacktop.Thepersonontherightisamanwithshorthair,wearingagreenshirtandalight-coloredcap.Theybothappeartobesmilingandenjoyingtheirtimeonthewater.

Thebackgroundshowsanaturalsettingwithtreesandgreenery,indicatingthattheyarelikelyinaparkornaturalreserve.Thewateriscalm,andtheskyisnotvisible,suggestingasereneandpeacefulenvironment.

Themagazinecoverincludesseveraltextelements:

1.**Title**:"Parktakes"isprominentlydisplayedatthetopinlarge,bold,blueletters.

2.**Fall2017Issue**:Theissueismarkedinthetoprightcornerinasmaller,whitefont.

3.**MainFeature**:"EnjoyFallAdventuresinParks"iswritteninalarge,bold,orangefont,emphasizingthethemeofoutdooractivities.

4.**AdditionalFeatures**:Thecoverlistsseveraltopicscoveredinthemagazine:

-"Birding,Boating,andHiking"

-"SeasonalFestivals"

-"NewAttractions"

5.**RegistrationInformation**:Atthebottom,thereisacalltoactionto"RegistrationbeginsAug.1forfullclasses"andawebsitelink:"www.fairfaxcounty.gov/parks."

AnalysisandDescription

Thecoverof"Parktakes"effectivelyconveysthethemeofoutdoorrecreationalactivities,particularlyinparks.Theimageofthetwoindividualsinakayaksuggeststhatthemagazinefeaturescontentrelatedtokayaking,canoeing,andotherwatersports.Theinclusionoflifejacketsindicatesafocusonsafetyandpreparednessforwateractivities.Thementionofseasonalfestivalsandnewattractionsimpliesthatthemagazineincludesinformationonvariouseventsandattractionswithintheparks.

Thecoveralsohighlightsthemagazine'scommitmenttoprovidingacomprehensiveguidetooutdooractivities,withaclearemphasisonsafetyandaccessibility.Theregistrationinformationsuggeststhatthemagazineisaresourceforplanningandparticipatinginvariousoutdooractivities,likelytargetingawideaudienceinterestedinparksandrecreationalactivities.

Insummary,themagazinecoverisdesignedtoattractreadersinterestedinoutdooradventures,safety,andseasonaleventswithinparks.Theuseofakayakandlifejacketsemphasizesthemagazine'sfocusonwatersportsandsafety,whiletheinclusionofvariousfeaturesandregistrationinformationsuggestsawell-roundedresourceforparkvisitors.

2.视频输入

用户问题:Whatisthemandoinginthevideo模型回答:Themaninthevideoappearstobeperformingafiredance,aformofentertainmentwhereapersonusesfiretocreatedynamicandvisuallyappealingmovements.Thesparklersheholdsproduceamesmerizingdisplayoflightandshadows,capturingtheintensityofhisperformance.

图像生成

Emu3通过预测下一个视觉token来生成高质量的图像。该模型自然支持灵活的分辨率和不同风格。

视频生成

与使用视频扩散模型以从噪声生成视频的Sora不同,Emu3只是通过预测序列中的下一个token来因果性的生成视频。

视频预测

在视频的上下文中,Emu3可以自然地扩展视频并预测接下来会发生什么。模型可以模拟物理世界中环境、人和动物。

Emu3技术细节

数据

Emu3是在语言、图像和视频混合数据模态上从头开始训练的。

语言数据:使用与Aquila模型相同的语言数据,一个由中英文数据组成的高质量语料库。

图像数据:构建了一个大型图像文本数据集,其中包括开源网络数据、AI生成的数据和高质量的内部数据。整个数据集经过了分辨率、图片质量、类型等方面的过滤过程。训练了一个基于Emu2的图像描述模型来对过滤后的数据进行标注以构建密集的图像描述,并利用vLLM库来加速标注过程。

视频数据:收集的视频涵盖风景、动物、植物和游戏等多个类别。

整个视频处理流程包括了场景切分、文本过滤、光流过滤、质量评分等阶段。并使用基于图像描述模型微调得到的视频描述模型来对以上过滤后的视频片段打标文本描述。

统一视觉Tokenizer

架构

Emu3保留了主流大语言模型(即Llama-2)的网络架构。不同点在于,其扩展了Llama-2架构中的嵌入层,以容纳离散的视觉token。网络中使用RMSNorm进行归一化。其还使用了GQA注意力机制、SwiGLU激活函数和一维旋转位置编码(RoPE)等技术,并并去除了注意力模块中QKV层和线性投影层中的偏置。此外,还采用了0.1的dropout率来提高训练的稳定性,使用QwenTokenizer对多语言文本进行编码。详细架构配置表。

预训练

在预训练过程中,首先要定义多模态数据格式。与依赖外部文本编码器的扩散模型不同,Emu3原生集成了用于生成图像/视频的文本条件信息。在视觉和语言的固有token中新增了五个特殊token来合并文本和视觉数据,以为训练过程创建类似文档的输入。生成的训练数据结构如下:

[BOS]{captiontext}[SOV]{metatext}[SOT]{visiontokens}[EOV][EOS]

其中,[BOS]和[EOS]是QwenTokenizer中的原始特殊token。额外新增的特殊token包括:[SOV]表示视觉输入(包含图像和视频的meta信息部分)的开始,[SOT]表示视觉token的开始,[EOV]表示视觉输入的结束。

训练细节:Emu3模型在预训练期间利用非常长的上下文长度来处理视频数据。为便于训练,采用了张量并行(TP)、上下文并行(CP)和数据并行(DP)相结合的方法。同时将文本和图像数据打包成最大上下文长度,以充分利用计算资源,同时需要确保在打包过程中不会分割完整的图像。

预训练过程分为两个阶段,第一阶段不使用视频数据,训练从零开始,文本和图像数据的上下文长度为5,120;在第二阶段,引入视频数据,并使用131,072的上下文长度。

SFT阶段

1.视觉生成

质量微调:在预训练阶段之后,对视觉生成任务进行后训练,以提高生成输出的质量。使用高质量数据进行质量微调。

直接偏好优化:Emu3在自回归多模态生成任务中采用直接偏好优化(DirectPreferenceOptimization,DPO)技术,利用人类偏好数据来提高模型性能。

2.视觉语言理解

预训练模型经过两个阶段的视觉语言理解后训练过程:1)图像到文本的训练以及2)指令调整。

第二阶段:利用LLaVA数据集中的约320万个问答对进行指令微调。低于512×512或高于1024×1024的图片将被调整到较低或较高的分辨率,同时保持相应的长宽比,而其他图片则保持原始分辨率。

开源地址

除了先前经SFT的Chat模型和生成模型外,智源研究院还在近日开源了Emu3生成和理解一体的预训练模型以及相应的SFT训练代码,以便后续研究和社区构建与集成。

未来方向

Emu3为多模态AI指出了一条富有想象力的方向,有机会将AI基础设施收敛到单一技术路线上,为大规模的多模态训练和推理提供基础。统一的多模态世界模型未来有广泛的潜在应用,包括自动驾驶、机器人大脑、智能眼镜助手、多模态对话和推理等。预测下一个token有可能通往AGI。

THE END
1.SDMA高就一定是肾衰吗SDMA高不一定是肾衰引起的。 SDMA是二甲基精氨酸,是肾脏的一种代谢产物。如果二甲基精氨酸多浓度升高,说明患者存在肾脏疾病或者是继发性的肾脏损伤,比如急慢性肾炎、肝肾综合征、中毒等,不一定是肾衰竭。建议到正规医院进行进一步的检查,明确病因并采取针对性的治疗,以免病情加重,对身体的健康造成更严重的危害。 https://www.myzx.cn/article/1591314
2.SDMA是什麼意思SDMA在線翻譯英語讀音用法例句SDMA 英美 n.順序分配多路存取 Created with Highcharts 3.0.2释义常用度分布图海词统计 顺序分配.. 分享单词到:http://dict.cn/big5/SDMA
3.SDMASDMA 点赞0 收藏 SDMA是空分复用接入(Space Division Multiple Access)是一种卫星通信模式,它利用碟形天线的方向性来优化无线频域的使用并减少系统成本。这种技术是利用空间分割构成不同的信道。举例来说,在一颗卫星上使用多个天线,各个天线的波束射向地球表面的不同区域。地面上不同地区的地球站,它们在同一时间、...https://baike.c114.com.cn/view.asp?word=SDMA
4.sdma是什么?网友(匿名用户)职场问答SDMA是一种卫星通信模式,利用碟形天线的方向性来优化无线频域的使用并减少系统成本。这种技术是利用空间...https://zq-mobile.zhaopin.com/question/5884708
5.SDMA是什么意思SpaeeDiviSDMA 英文全称Spaee Division Multiplex Access 中文解释容分 缩写分类电子电工, PCI支付卡产业联盟 PBOC中国人民银行 COS卡操作系统 EMV欧陆卡,万事达卡,维萨卡联合组织 NTMs非关税措施 NSC国家标准委员会 NRTC国家道路运输委员会 NORAMET北美度量衡合作 NML国家计量实验室...https://suoxie.bmcx.com/sdma7pqg9__suoxieshow/
6.SDHCADMA和SDMA区别上表是32位地址描述符表,每个描述符行由64位(8byte)组成,Attribute用于控制描述符。下表为Length阈定义和64位地址描述符表 4. ADMA2框图 Host驱动在系统内存中创建描述符表,32位的系统需要32位的描述符表,相应的,64位系统需要64位的描述符表。ADMA2不会为描述符指针使用32-bit的SDMA System Address Register...http://www.ppmy.cn/news/298019.html
7.通信原理学习12空分多址(SDMA)方式是指在卫星上安装多个天线,这些天线的波束分别指向地球表面上的不同区域,于是,不同的信道占用不同的空间。不同区域的地球站所发射的电波互不重叠,即使不同区域的地球站使用相同的频率,它们之间也不会产生干扰。但是,当地球站比较多时,要求天线波束的指向要非常准确。如果一个通信区域内有几个地...https://www.jianshu.com/p/3687c82313cf
8.SDMA抗体SDMAantibody一抗该SDMA 抗体产品的背景资料具体详情查看Immundiagnostik厂家提供的产品说明书。 应用类型 该SDMA 抗体产品的应用类型具体详情查看Immundiagnostik厂家提供的产品说明书。 免疫原 该SDMA 抗体产品的免疫原具体详情查看Immundiagnostik厂家提供的产品说明书。 来源宿主 https://www.amyjet.com/products/IDK-A%201072.2.shtml
9.TDTD-SDMA基本原理 TD-SCDMA基本原理 2009.07 TD-SCDMA多址方式 中国 3G 频谱分配 TD-SCDMA具有高频谱利用率 三种3G标准的技术比较 上行同步 下行同步 定义:上行链路各终端信号在基站解调器完全同步。 目的: CDMA码道正交; 降低码道间干扰; 提高CDMA容量; 简化硬件、降低成本。 上行同步的建立 上行信道的首次发送在...https://max.book118.com/html/2018/0703/7126024020001136.shtm
10.SDMA的宠物医疗临床价值与应用针对犬猫肾脏疾病发病率高,传统评估肾功能指标无法提早诊断出早期功能下降这一情况,临床中急需一种能在早期肾功能下降时即能检测出的指标,这使得对称性二甲基精氨酸(SDMA)的研究和临床应用在过去数年内一直在进行。 SDMA是精氨酸甲基化形成的一种小分子物质,在蛋白质降解过程中释放入血液,主要经肾脏排泌。Schwedhelm...https://www.360doc.cn/article/66695600_1080189788.html
11.德语助手德汉汉德词典SDMA是什么意思词典 SDMA 发音 生词本: 添加笔记: 有奖纠错 | 划词 德汉-汉德词典 AI解释 词组搭配 德语维基词典 全文检索德语专业词典 【】 【计算机】Space Division Multiple Access 用户正在搜索 Abers, Abersaat, Abert, abertausend, Abertausende, Abertausends, Aberwitz, aberwitzig, aberziehen, abesche Zahl, ...http://dict.eudic.net/dicts/de/SDMA
12.一篇很好的介绍SDMAOFDM的文章本文很好地介绍了SDMA-OFDM系统,详细分析了系统模型,以及多用户检测算法,对于初学者有很好的帮助。 SDMA-OFDM2010-10-19 上传大小:1548KB 所需:50积分/C币 MIMO-OFDM for LTE,WIFI and WIMAX 英国南安普顿大学的关于无线通信的经典之作,此书为有志于无线通信新技术B3G的研究生、工程师提供有价值的参考与学习。https://www.iteye.com/resource/slide86-2766894
1.sdma是什么意思sdma的中文翻译例句用法This method may use in the SDMA and cell location system. 此方法对蜂窝定位,空分多址系统的实现也有实用价值。 2. SDMA technology provides the advantage of splitting one of the three slots to provide two-slot functions. SDMA 技术提供了一种优势,就是将三个时隙之一进行分离,使之具备两个时 隙的...https://danci.gei6.com/sdma__ntcbco9c.html
2.SDMA入門兩種選擇:結果同樣可靠 院內Catalyst SDMA 檢測,附有多種 SDMA 相容之檢測項目套組可滿足您執業與病患的需求。 IDEXX SDMA 檢測,包含在每種生化檢測項目組合中,或可作為 IDEXX 參考實驗室的獨立檢測。 立即訂購 注意事項:SDMA 是對稱二甲基精氨酸。http://www.idexx.com.tw/zh-hant/veterinary/analyzers/sdma/get-started/
3.SDMA技术SDMA是一种信道增容的方式,可以实现频率的重复使用,充分利用频率资源。空分多址还可以和其他多址方式相互兼容,从而实现组合的多址技术。在由中国提出的第三代移动通信标准TD-SCDMA中就应用了SDMA技术;此外,在卫星通信中也有人提出应用SDMA。 ;;; 由于SDMA技术需要智能天线的支持,所以只有当传感器节点能够安装智能天线...https://m.hqew.com/tech/fangan/1397656.html
4.#yyds干货盘点#SDMA的功能介绍求密勒的技术博客?处理Arm平台内存映射和SDMA核心数据之间的地址对齐问题。这使得内核能够从突发的DMA中读取或写入32位数据,而相应的Arm平台地址不是32位对齐的。这大大提高了SDMA脚本的效率,因为每次传输32位的相同循环可以使用,而不管Arm平台内存空间中的起始和结束地址。 https://blog.51cto.com/u_15409503/4640940
5.FreshMeisSDMA高音质在线试听Fresh歌词歌曲下载外部播放此歌曲> Meis、SDMA - Fresh 专辑:Fresh 歌手:MeisSDMA 还没有歌词哦https://www.kugou.com/mixsong/98qvzq6c.html
6.I.MX6DMA驱动测试历程imx6sdmamemtomemdemo资源memory to memory sdma copy demo,飞思卡尔的imx6 sdma驱动mem to mem的例子 imx6 sdma内存复制驱动, linux内核3.0.35版本! SDMA例子,亲测可用飞思卡尔的i.mx6驱动,飞思卡尔的i.mx6驱动内存到内存的sdma驱动例子,测试通过; 聚散内容到聚散内存的复制,编译方法是写一个makefile 然后设定内核编译环境的环境变量,...https://download.csdn.net/download/mynameislinduan/9741421