1、蚂蚁大模型存储加速蚂蚁大模型存储加速PCache蚂蚁大模型存储加速团队1.1.大模型存储的问题和挑战大模型存储的问题和挑战2.2.蚂蚁蚂蚁AIAI存储加速方案存储加速方案(整体架构+各场景方案)3.3.未来计划未来计划1.1.大模型存储的问题和挑大模型存储的问题和挑战战训练任务训练任务各各IOIO阶段的影响阶段的影响数据加载阶段(数据读取数据加载阶段(数据读取+预处理)预处理)数据读取:IOwait会导致GPU资源浪费。预处理:计算性能不足会导致GPU资源闲置。CheckpointCheckpoint阶段阶段写chkpt:IOwait会导致GPU资源浪
2、费。降低写入频率同样会导致GPU资源浪费。e.g.,chkpt/3h,故障时浪费3hGPU资源。文件类型文件大小数量读写操作图片1KB100KB百亿级顺序读视频10MB1GB千万级随机读Checkpoint1GB10GB百万级顺序读、写NLP文本10MB10GB千万级顺序读,随机读列存结构化数据100MB1GB百万级顺序读,随机读AIAI数据读取的挑战数据读取的挑战数据规模大数据规模大多模态任务的训练集达到百亿,PB级数据。数据数据&读写操作类型多读写操作类型多图片、视频、文本、checkpoint,以及结构化数据等多种类型。涵盖顺序读和随机读,甚至在一次数据加载中。流量特性
3、复杂流量特性复杂各类大模型训练任务数据读取时流量特性多样。CheckpointCheckpoint写入的挑战写入的挑战CheckpointsizeCheckpointsize不断增大,对写入性能要求越来越高(可靠性不断增大,对写入性能要求越来越高(可靠性+吞吐)吞吐)千亿参数checkpointTB级万亿参数checkpoint10TB级为了减少为了减少GPUGPU故障对训练的影响,故障对训练的影响,checkpointcheckpoint频率越来越快频率越来越快从天级-小时级-分钟级-每个step虽然FSDP等并行模式可以减少每卡的写入量,但是per
4、step的写入频率对存储高并发下写入性能的要求仍然非常高。多云数据互通问题多云数据互通问题算力资源紧张,多算力中心(私有云算力资源紧张,多算力中心(私有云+公有云)公有云)数据分布在多中心,跨云访问效率低。缺少数据同步工具,导致训练效率低。数据管理混乱,多云存在重复数据,导致存储空间浪费。2.2.蚂蚁蚂蚁AIAI存储加速方存储加速方案案PCachePCache整体架构整体架构多类型+多语言API,支持结构化和非结构化多计算场景的缓存加速需求。基于联邦集群的横向扩展,Proxy统一数据操作入口屏蔽用户对联邦集群的感知。Master负责元数据服务,支持内置存储和分离KV两种模式。
5、Worker负责数据块的读写、副本、生命周期、存储分层管理,以及UFS的管理。云原生存储支持多类型持久化存储分布式数据集成系统用户接入用户接入PCachePCacheRuntimeRuntime基础设施层基础设施层AIAI数据链路数据链路&部署部署架构架构部署形态的变化,存储分离部署形态的变化,存储分离-混部混部低成本:充分利用GPU机器上的存储和计算资源。高性能:Co-locate带来的局部性能提升,尤其在写场景。扩展性:存储能力能够随着训练集群规模扩大而自然增长。多模态场景碰到的问题多模态场景碰到的问题挑战挑战11:支持海量图片的训练数据:支持海量图片的训练数据如何支
6、持亿级甚至百亿级的元数据管理。如何保障百亿规模下的元数据读写性能。挑战挑战22:多模态场景下数据读取性能:多模态场景下数据读取性能图片、视频、音频、文本等不同模态数据读取时如何保障顺序+随机混合读取的性能。文件折叠文件折叠减少元数据规模减少元数据规模性能提升性能提升大幅减少元数据数量和读取请求。线上的多模态任务的数据读取性能提高24倍。训练效果训练效果从trainingloss等指标来看,从文件变为chunk级别的shuffle,对训练效果没有影响。多维度折叠多维度折叠除了数量单一维度的折叠外,现在也出现了越来越多的多维折叠需求,e.g.,卫星图片场景下的时空维度。元数据
7、管理优化元数据管理优化元数据存储元数据存储&服务分离服务分离Serverlessmaster提供横向扩展能力。支持内置和外置两种metastore模式。联邦集群联邦集群提供集群级别的元数据横向扩展能力。通过Proxy屏蔽用户对联邦集群的感知。预取优化预取优化启发式的预取启发式的预取根据历史的读取操作,动态的调整预取窗口大小。在混合读取场景下,能够有效减少抖动,提高整体吞吐。预取的问题预取的问题对顺序读友好,随机读时有读放大问题。在混合读取时,开启预取有明显的抖动。Note:窗口策略可调整,从简单的2分到基于历史的movingwindow,甚至是预测。NLP场景碰到的
8、问题挑战:支持大规模训练任务挑战:支持大规模训练任务checkpointcheckpoint的高频写入的高频写入文件大:千亿参数checkpointTB级,万亿参数checkpoint10TB级。写入频率高:为了减少故障时的GPU资源浪费,需要提高checkpoint写入频率,甚至到每个step。Note:从统计上看,当前千卡以上集群平均每天发生一次failover,如果3小时做一次checkpoint,那对千亿参数的训练任务来说平均每天就会浪费3小时的GPU资源。用户态用户态FUSEFUSE+RDMARDMA用户态用户态FUSEFUSE消除用
9、户/内核态、线程多次切换拷贝,加速中大文件访问。大文件读写场景有1.52倍左右的性能提升。RDMARDMA提高吞吐、网络延迟&毛刺、客户端CPU开销。CheckpointCheckpoint写方案写方案本地加速本地加速+写入流程异步化写入流程异步化优先写入本地worker,加速写入性能。让副本同步和持久化异步化,不会阻塞chkpt过程。效果效果配合FSDP等并行模式,千亿参数的chkpt在训练每个step的开销占比可以降低到0.1%,实现chkptperstep。save_chkpttimetrain_loss基于云原生的方式部署服务基于云原生的方式
10、部署服务POD管理计算资源,PVC管理存储资源故障时的自动回复故障时的自动回复通过PODname、PVCname的管理,保障容器重启后对外服务地址不变,数据不丢。物理机故障下线时,通过K8s编排能力,在容器恢复后,自动做数据预热。稳定性优化稳定性优化-云原生存储云原生存储多云数据同步多云数据同步解决多算力中心下的数据问题解决多算力中心下的数据问题支持多种持久化存储,能够在多云环境提供加速。统一管理多云环境的数据集,避免大量重复数据。集成高性能分布式数据集成工具,提高数据迁移效率。3.3.未来计未来计划划面向面向AIAI数据特性的缓存策略数据特性的缓存策略AIAI数
第一上海:2023年投资策略报告(184页).pdf
华夏理财:2022年度中国资管行业ESG投资发展研究报告(89页).pdf
生态环境部:全国碳排放权交易市场第一个履约周期报告(18页).pdf
吴晓波年终秀2023:中国营销技术生态图谱(64页).pdf
智能仓储物流技术研习社:智慧物流园区建设方案(47页).pdf
阿里云:第三届云原生实战峰会资料合集(2022)(143页).pdf
动脉橙:2022年全球糖尿病创新诊疗价值趋势报告(20页).pdf
巨量&月狐&凯度:2022巨量算数年度观察报告之小确幸大乐趣篇(15页).pdf
数智化思享会:现代化智能仓储物流解决方案(74页).pdf
中国信通院:数据要素白皮书(2022年)(52页).pdf
网经社:2022年Q4中国电子商务投融资数据报告(41页).pdf
艾瑞咨询:2022上半年中国基础云市场数据追踪系列报告(18页).pdf
果集集瓜:2023年社媒电商下品牌的破圈之路(29页).pdf
彭博:中国房地产业2023年信展望报告(20页).pdf
苇渡科技:干线物流自动驾驶商业化落地路径探讨(12页).pdf
英敏特:2023年全球美容与个人护理趋势报告(20页).pdf
红杉资本:在不确定的时机下的领导力(英文版)(28页).pdf
供应链管理协会:2023年供应链十大趋势(英文版)(19页).pdf
红杉资本:危机之下如何延长赛道(英文版)(24页).pdf
【蚂蚁】蚂蚁集团AI大规模存储加速实践.pdf
蚂蚁-刘志伟-检索增强在大模型落地中的实践应用.pdf
申敏-蚂蚁代码大模型的评测实践.pdf
刘东阳-vivo大模型计算集群建设实践.pdf
大模型AI训练的数据存储加速-肖文聪.pdf
山海医疗大模型的构建及其应用实践-刘升平.pdf
肖斌-智能研发的点与面:蚂蚁代码大模型落地实践.pdf
1-3刘进步-大模型在可观测AIOps方向的实践和思考.pdf
刘凯宁-蚂蚁故障应急全流程体系构建及应用实践.pdf
超大规模集群下大语言模型训练的最佳实践-刘育良.pdf
CBNData:2024新健康消费生活趋势报告(39页).pdf
数字100:2024摇摆的消费者-消费者体验营销手册(95页).pdf
中国航空学会:2024低空经济场景白皮书(1.0)(167页).PDF
红杉:2024年企业数字化年度指南(62页).pdf
华为:智能世界2030报告(2024版)(741页).pdf
英敏特:2025全球消费者趋势报告(27页).pdf
启信数据:2024年新质生产力引领下十大重点产业趋势解读报告-氢能篇(39页).pdf
中国联通研究院:2024中国生成式人工智能应用与实践展望白皮书(中英文版)(147页).pdf
炼丹炉:2024银发经济趋势洞察报告(49页).pdf
懂车帝&中国汽车工业协会:2024年促进汽车消费与用户洞察白皮书(55页).pdf