阿里首款AI芯片含光800重磅发布,全球最强AI推理芯片如何练成?雷峰网

上周,平头哥以产品命名猜想为话题预告本周将发布重磅新品。2019年杭州云栖大会上,阿里巴巴集团首席技术官兼阿里云智能总裁张建锋发布了阿里的首款AI芯片含光800,该芯片是一款云端AI芯片,也是全球最高性能的AI推理芯片。含光800主要应用于视觉场景,已经在阿里巴巴集团内多个场景大规模应用,其它企业可以通过阿里云获得含光NPU的算力。

阿里巴巴集团首席技术官兼阿里云智能总裁张建锋

据悉,含光为上古三大神剑之一,该剑含而不露,光而不耀,正如含光800带来的无形却强劲的算力。

含光800为何能打破记录?

根据张建锋的说法,在业界标准的ResNet-50测试中,含光800推理性能达到78563IPS,比目前业界最好的AI芯片性能高4倍;能效比500IPS/W,是第二名的3.3倍。

要知道,芯片作为典型的长周期产品,想加速芯片的商用,在硬件和软件方面都需要有很强的实力,特别是在AI时代,软硬一体化的重要性更加突显。平头哥就得益于阿里在软硬件方面的积累,算法方面,阿里巴巴达摩院机器智能实验室过去两年构建了完整的算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等方向,并且取得多个世界领先水平的成果;硬件方面,阿里巴巴此前已在服务器、FPGA以及存储等领域拥有多年研发经验,此外,平头哥团队在体系结构、编译技术等领域拥有深厚的技术储备。

含光800性能的突破得益于软硬件的协同创新,芯片架构方面,含光800采用创新的架构,针对深度学习中使用的大量权重参数和张量数据,在支持稀疏压缩与量化处理的基础上,通过独特设计的数据访存与流水线处理技术,大大减低了I/O需求和数据的搬移。NPU同时深度优化了卷积,矩阵乘,向量计算和各种激活函数,通过高有效的硬件资源调度和全并行的数据流处理,把AI运算的性能和能效都推向极致。

其中,性能的提升必须解决内存墙问题。所谓的内存墙,是指采用采用冯诺依曼结构的处理器,存储和运算处理分离,当进行深度神经网络处理时,算力得到了提升,但大量读写运行操作会受到带宽限制,芯片的整体性能提升也同时受到限制。

平头哥的做法是通过自研架构大幅减少对内存的访问,在保证性能的情况下,把芯片功耗降到最低水平。具体而言,含光800会根据神经网络推理运算特征,设计特定的硬件、高速连接的存储结构以及专用指令集,对内存和计算单元实现高效组织管理,实现单条指令完成多个操作,提高计算效率和内存访问效率。

3个月发3款芯片新品,阿里“硬”了

阿里首款AI芯片发布之后,其从云端到终端的产品布局已经十分明确。这些产品也都密集在最近几个月发布,今年7月的阿里云上海峰会上,阿里巴巴集团副总裁戚肖宁发布了高性能RISC-V架构处理器玄铁910。玄铁910集成16个核心,主频2.5GHz,采用12级乱序流水线,最大支持8MB二级缓存,搭载AI增强的向量计算引擎,可用在人工智能加速器、网络通信和自动驾驶等领域。现场公布的数据显示,玄铁910较业界主流芯片性能提高40%,较标准指令性能高出20%。

8月,平头哥又发布SoC芯片平台“无剑”,无剑平台由SoC架构、处理器、各类IP、操作系统、软件驱动和开发工具等模块构成,面向AIoT提供的集芯片架构、基础软件、算法与开发工具于一体的整体解决方案。根据官方的说法,无剑能够帮助芯片设计企业将设计成本降低50%,设计周期压缩50%。

需要指出,7月发布的玄铁910是基础单元处理器IP,无剑是芯片设计平台,所以含光800是阿里的首款AI芯片。这也意味着,阿里的C-Sky系列、玄铁系列AIoT终端芯片IP,一站式芯片设计平台无剑,以及最新发布的云端AI芯片构建了阿里端云一体的芯片生态,平头哥端云一体全栈芯片产品家族雏形已现。

RISC-V架构的玄铁处理器以及无剑SoC平台也已有客户,包括人工智能企业云天励飞、老牌芯片公司炬芯科技等。

含光800也已经实现了大规模应用,应用于阿里巴巴集团内多个场景,例如视频图像识别/分类/搜索、城市大脑等,未来还可应用于医疗影像、自动驾驶等领域。同时,阿里云作为全球前三的云服务提供商,含光的能力将通过云服务对外提供。张建锋现场宣布,基于含光800的AI云服务也正式上线。

另外,在生态建设方面,平头哥还将成立芯片开放社区。

不仅如此,平头哥还在研发用于阿里云神龙服务器的SoC专用芯片。未来,阿里还将进一步完善产品形态,推出包括云端AI训练芯片和终端AI推理芯片,满足更多场景的算力需。

自研AI芯片的终极目的是什么?

阿里从云端到终端AI芯片的布局已经明确,并且也已经有不少客户,这是否意味未来阿里不仅不需要购买芯片,还可能替代其它芯片公司?答案是否定的。在这一轮的AI浪潮中,我们看到无论是国外的谷歌、Amazon、Facebook还是国内的阿里,这些强于软件的科技巨头们都在积极研发AI芯片。

至于其中的原因,Cadence首席执行官、华登国际创始人陈立武此前接受雷锋网采访时表示:“科技巨头积极布局AI是因为他们不希望落后,因为他们都有大量的数据。当然,科技公司开始做芯片并不意味着传统的芯片厂商会被取代,科技公司希望在一些应用上用自主研发的芯片来提升效率。”

事实也确实如此,就拿阿里来说,其业务横跨电商、金融、物流、云计算、大数据、全球化等场景,用户规模庞大,对算力的需求更高,挑战也更大。传统CPU、GPU和FPGA难以满足所有需求,并且面临成本和功耗挑战。定制化的ASIC芯片能够实现更高的性能同时兼具更低功耗,因此科技巨头们基于对自身业务和需求的了解,纷纷开始自主研发AI芯片,希望在保持领先性的同时,降低整体计算成本。

从全球范围看,谷歌TPU是全球科技企业从软变硬的代表。此次含光800的发布及商用,表明阿里的优势也不再只是在软件领域,在AI芯片的加持下,未来阿里的优势也将是软硬一体的优势。

为了实现这一目标,阿里几年前就开始了布局。2017年云栖大会上,阿里成立达摩院,这是阿里在全球多点设立的科研机构,立足基础科学、颠覆性技术和应用技术的研究。达摩院由全球建设的自主研究中心、高校联合实验室,全球开放研究计划三大部分组成,涵盖量子计算、机器学习、基础算法、网络安全、视觉计算、自然语言处理、下一代人机交互、芯片技术、传感器技术、嵌入式系统等,涵盖机器智能、智联网、金融科技等多个产业领域。

平头哥得到达摩院和阿里云的软实力加持,基于达摩院的算法能力,才能打破了算法和硬件之间的鸿沟,基于阿里云飞天云平台的优势,得以快速形成了端云一体芯片生态。

如今,阿里自主研发芯片的目标也已经部分达成。根据云栖大会的现场演示,在城市大脑中实时处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms,使用含光800仅需4颗,延时降至150ms。拍立淘商品库每天新增10亿商品图片,使用传统GPU算力识别需要1小时,使用含光800后可缩减至5分钟。

显然,平头哥的目的并非是卖芯片,平头哥还会延续了母体阿里巴巴集团“让天下没有难做生意”的愿景,开辟了全新的商业模式,即平头哥模式(以无剑平台为核心),为企业提供普惠算力。

另据介绍,针对AIoT市场有强应用驱动和场景碎片化等特点,芯片公司按照传统的方式设计芯片很难去适应未来的需求,平头哥希望通过端云一体芯片生态为各行业提供普惠算力。

张建锋说:“在全球芯片领域,阿里巴巴是一个新人,玄铁和含光800是平头哥的万里长征第一步,我们还有很长的路要走。”

雷锋网小结

作为科技巨头,阿里此前更加擅长软件,并且拥有大量的数据。在正在到来的以数据为中心的时代,能够借助AI更快挖掘出数据的价值将成为科技巨头们继续保持领先优势的关键之一。因此,无论是国外还是国内,科技巨头们纷纷开始投入巨大的资源进入技术、资金、人才都非常密集的芯片产业,阿里首款AI芯片的推出,意味着阿里已经不再只擅长软件,在其广泛的应用场景需求的支撑下,阿里将能够实现硬件的快速迭代的完善,在云端和终端进一步释放出软硬结合的优势。

THE END
1.AI训练芯片行业深度解析:市场趋势技术进展竞争格局与未来投资...- :作为我国互联网巨头,也在训练芯片领域展开布局。其推出的训练芯片在云计算、大数据等领域具有广泛应用前景。未来,有望通过其在互联网领域的优势,推动训练芯片在更多应用场景的落地。 - 寒武:寒武作为我国新兴的芯片企业,凭借其在训练芯片领域的创新能力,迅速崛起。其推出的训练芯片在性能、功耗等方面具有竞争优势,受...http://www.slrbs.com/jrzg/aizhishi/724838.html
2.AI推理CPU当道,Arm驱动高效引擎AI的训练和推理共同铸就了其无与伦比的处理能力。在AI训练方面,GPU因其出色的并行计算能力赢得了业界的青睐,成为了当前AI大模型最热门的芯片;而在 AI 推理方面,具备卓越通用性和灵活性的CPU本应发挥关键作用,但其重要性却常常被忽视。 “对于那些希望将大语言模型(LLM)集成到产品和服务中的企业和开发者来说,CPU...https://www.elecfans.com/d/6345053.html
3.从PB社今日小作文看芯片重要机会——从训练到推理——芯片方向正在从训练向推理转向,AMD 、英伟达、Groq、AI手机都在热炒推理芯片训练芯片已经涨上天,关注还在低位,有超车潜力、有引爆因素的国产推理芯片。引爆点1:Groq推“最快”AI推理芯片 比英伟达GPU快10倍引爆点2:推理芯片NPU成AI手机、AI PC最大的增量方向!NPU即神经网络处理器,它是一种专门设计用于加速终端...http://guba.sina.cn/view_144542_77.html
4.英伟达AI芯片路线图分析与解读Nvidia是一个同时拥有 GPU、CPU和DPU的计算芯片和系统公司。Nvidia通过NVLink、NVSwitch和NVLink C2C技术将CPU、GPU进行灵活连接组合形成统一的硬件架构,并于CUDA一起形成完整的软硬件生态。 在AI计算芯片架构方面,注重训练和推理功能的整合,侧重推理。围绕GPU打造ARM和X86两条技术路线。在Nvidia的AI路线图中,并没有...https://wallstreetcn.com/articles/3712058
1.昇腾训练芯片和推理芯片的区别昇腾训练芯片和推理芯片在人工智能(AI)领域扮演着不同的角色,它们之间的区别主要体现在以下几个方面: 一、服务阶段与功能 训练芯片:主要用于AI模型的训练阶段。在这个阶段,芯片需要处理大量的数据和复杂的计算,以优化模型参数,提高模型的准确率和泛化能力。训练芯片的设计重点在于提高计算速度和精度,以支持大规模并行计...https://blog.csdn.net/fuhanghang/article/details/141310666
2.全民AI时代来了!但是你了解大模型AI芯片吗?(附国内外AI芯片参数...AI芯片一般可以理解为能运行AI算法的芯片,能处理AI应用中大量计算任务的模块,AI大模型算力的需求主要来源于训练(training)和推理(inference)这两环节,但是这两有什么区别? 训练是指基于一大堆的数据训练出一个复杂的大模型,训练芯片主要用于机器学习和深度学习,需要有强大的并行处理能力,此外还需要配备空间够大且高效的...https://www.xcc.com/news/detail/5555377
3.AI训练推理云边端对AI芯片的需求及挑战(1)云端:即数据中心,关注算力、扩展能力、兼容性。云端部署的AI芯片包括训练芯片和推理芯片。 (2)边缘端:即手机、安防摄像头等领域,关注综合性能,要求低功耗、低延时、低成本。边缘端部署的AI芯片以实现推理功能为主。 云端推理占比逐步提升,AI落地应用数量增加。根据IDC数据,随着人工智能进入大规模落地应用的关键时...https://www.eet-china.com/mp/a289837.html
4.解读AI通用计算芯片:GPU训练CPU推理,用最优的成本降低AI算力支出...AI计算方面,由于CPU有着更强的逻辑运算能力,就更加适合推理;而GPU拥有大量的计算单元,就更适合训练。 当前,人工智能已经成为推动企业业务创新和可持续发展的核心引擎。我们知道,算力、算法和数据是人工智能的三大核心要素,缺一不可。今天,笔者就从通用计算芯片这个维度出发,跟大家详细聊聊关于算力的相关技术与市场竞争态...https://www.51cto.com/article/784165.html
5.碾压H100!英伟达GH200超级芯片首秀MLPerfv3.1,性能跃升17%...使用了 NVLink-C2C 的 GH200 Grace Hopper 超级芯片仅使用 3% 的推理时间就完成了相同的传输。 由于具有更高的内存带宽和更大的内存容量,与 MLPerf Inference v3.1 的 H100 GPU 相比,Grace Hopper 超级芯片的单芯片性能优势高达 17%。 推理和训练全面领先 ...https://www.ithome.com/html/string/718598.htm
6.中昊芯英拥有自研AI训练芯片及推理芯片两大产品线,并已经完成...中昊芯英拥有自研AI训练芯片及推理芯片两大产品线,并已经完成了数十项发明专利的布局。核心AI训练芯片刹那TM算力可达204TFLOPS/396TOPS以上,自主研发的多至1024片的片间互联构架,为大https://ir.p5w.net/question/0001D0BF57F06A4E450E98FB4EC15B01DAF8.shtml
7.AI算力芯片天下一分为四,中国实力渐显艾瑞专栏谷歌介绍,Anthropic现在是首批大规模部署Cloud TPU v5e的企业之一。Cloud TPU v5e是谷歌云迄今为止最多功能、效率最高且可扩展性最强的AI加速器。这种芯片让Anthropic能以高性能且高效的方式为其Claude大语言模型(LLM)服务。 亚马逊:训练芯片Trainium、推理芯片Inferentia...https://column.iresearch.cn/b/202311/970854.shtml
8.计图支持国产统信操作系统和飞腾CPU芯片,实现GPU加速的训练和推理计图(Jittor)是由清华大学发布的首个动态编译深度学习框架,在5月8日兼容寒武纪芯片之后,计图目前又在国内自主研发操作系统统信UOS+国产CPU飞腾FT2000的架构下,成功实现了CPU和GPU的训练推理。 图1使用统信操作系统进行GPU训练图例 图1为国内自主操作系统统信UOS的操作界面,通过在终端中运行数行命令,就可以完成计图的...https://cg.cs.tsinghua.edu.cn/jittor/news/2021-06-21-00-00-fc/
9.芯片代理商:英伟达的H100训练芯片为啥受欢迎?训练芯片对数据传输速率和算力有较高要求,而推理芯片则需要低延迟。鉴于英伟达在训练芯片领域具备算力优势和软件方面的优势,他们成为科技公司首选的厂商,因此更多科技公司倾向于使用H100。 即使在推理应用场景下,英伟达仍然有一些替代方案可供选择,但在训练芯片领域,英伟达几乎是唯一的选择。这是因为英伟达在训练芯片领域的...http://www.htt-ic.com/index.php?m=home&c=View&a=index&aid=1952
10.AI上海范上海云端推理芯片中国AI算力再加速AI芯片是指面向人工智能应用开发的芯片,针对人工智能算法做了特殊加速设计。当前,从架构角度看,AI芯片以GPU、FPGA、ASIC等为主。从应用场景看,AI芯片分为云端芯片、边缘端芯片和终端芯片,其中云端AI芯片是指在服务器端完成人工智能相关运算的芯片。从实现功能看,AI芯片主要分为训练芯片和推理芯片。https://app.sheitc.sh.gov.cn/gydt/691342.htm
11.国产推理芯片上“硬菜”!大模型和边缘计算都不在话下人工智能芯片从功能上可以分为训练芯片和推理芯片,前者注重绝对的计算能力,而后者更注重综合指标,是实现AI应用落地终端的“最后一公里”。 “训练不是目的,生产大模型不是目的,千行百业的落地和应用才是最终的目的。”陈宁表示,不论是机器人、无人驾驶汽车智能传感,还是各类智能硬件,甚至脑机接口芯片,都需要大模型的...https://www.seccw.com/Document/detail/id/25807.html