AI训练和推理指南:AI芯片设计途径评估标准和测试基准

随着AI及其应用越来越广泛,科技巨头之间开发更便宜、更快芯片的竞赛可能会加速。公司可以从亚马逊AWS的Sagemaker服务等云服务提供商那里租用这些硬件,也可以购买他们的硬件。如果能够保持较高的利用率,自有硬件可以降低成本。否则,公司最好依赖云供应商。

AI芯片也称为AI硬件或AI加速器,是专门为基于人工神经网络(ANN)的应用程序设计的加速器。大多数商业人工神经网络应用都是深度学习应用。

人工神经网络是AI的一个分支。ANN是一种受人脑启发的机器学习方法。它包括多层人工神经元,这些神经元是受人类神经元工作方式启发的数学函数。人工神经网络可以构建成多层的深层网络。使用这种网络的机器学习应用程序被称为深度学习。

深度学习有两个主要用例:

(1)训练(Training):深度人工神经网络被输入成千上万的标记数据,因此它可以识别模式。训练对于计算资源来说是耗时且密集的。

(2)推断(Inference):作为训练过程的结果,ANN能够根据新的输入做出预测。

虽然通用芯片也可以运行ANN应用程序,但它们不是这些软件的最有效解决方案。有多种类型的AI芯片,因为在不同类型的人工神经网络应用中定制是必要的。例如,在一些物联网设备需要依靠电池运行的物联网应用中,AI芯片需要体积小,并且能够在低功耗下高效运行。这导致芯片制造商在为不同的应用设计芯片时做出不同的架构选择。

虽然通用芯片也可以运行ANN应用程序,但它们不是这些软件的最有效解决方案。目前,一些主流AI芯片厂商有:AMD、Apple、Arm、Baidu、Google(Alphabet)、Graphcore、Huawei、IBM、Intel、Microsoft、Nvidia、Texasinstruments、Qualcomm等。

通用硬件使用算术块进行基本的内存计算。串行处理不能为深度学习技术提供足够的性能。这表现在:

(1)神经网络需要许多并行/简单的算术运算

(2)强大的通用芯片不能支持大量简单的同时操作

(3)AI优化的硬件包括许多功能较弱的芯片,支持并行处理

与使用通用硬件相比,AI加速器具有以下优势:.

(1)更快的计算。AI应用通常需要并行计算能力,以便运行复杂的训练模型和算法。AI硬件提供更多并行处理能力?据估计,在人工神经网络应用中,与类似价位的传统半导体器件相比,这种器件具有高达10倍的竞争力。

(2)高带宽内存。专门的AI硬件估计比传统芯片多分配4-5倍的带宽。这是必要的,因为由于需要并行处理,AI应用程序需要处理器之间明显更多的带宽来实现高效的性能。

深度神经网络驱动的解决方案构成了大多数商业AI应用。自2010年以来,这些应用程序的数量和重要性一直在强劲增长,预计将继续以类似的速度增长。例如,麦肯锡预测AI应用每年将产生4-6万亿美元的价值。

AI芯片使用新颖的架构来提高性能。我们对这些方法进行了排序,从最常见的到新兴的方法:

GPU:图形处理单元最初是为通过并行计算加速图形处理而设计的。同样的方法在训练深度学习应用程序方面也很有效,目前是深度学习软件开发人员最常用的硬件之一。

晶片芯片:例如,Cerebras正在通过生产一个46,225平方毫米(约72平方英寸)的硅片来制造晶片芯片,在一个芯片上包含1.2万亿个晶体管。由于其高容量,芯片上有400,000个处理核心。这种大型芯片展现了规模经济,但也带来了新的材料科学和物理挑战。

可重新配置的神经处理单元(NPU):该架构提供并行计算和池化来提高整体性能。它专注于卷积神经网络(CNN)应用,这是图像识别中人工神经网络(ANNs)的流行架构。总部位于圣地亚哥和台北的低功耗边缘AI初创公司耐能获得了其芯片所基于的架构的许可;一种可重构的神经处理单元(NPU)。这种架构可以被重新配置以在模型之间实时切换的事实允许根据应用的需要创建优化的硬件。美国国家标准和技术研究所(NIST)将耐能的面部识别模型评为100MB以下性能最佳的模型。

神经形态芯片架构:这是一种利用材料科学和神经科学等相邻领域的新方法来模仿脑细胞的尝试。这些芯片在训练神经网络的速度和效率方面具有优势。自2017年以来,英特尔一直在以Loihi和Pohoiki的名义为研究界生产这种芯片。

基于模拟内存的技术:建立在0和1基础上的数字系统主宰了当今的计算世界。然而,模拟技术包含不断变化且没有特定范围的信号。IBM研究团队展示了大型模拟存储设备阵列在深度学习应用中实现了与GPU相似的精度水平。

团队的需求是最重要的标准。如果您的团队可以依赖云提供商,AWSSagemaker等解决方案可以让团队通过扩展他们的软件来在众多GPU上运行,从而快速试验模型训练。但是,与内部部署模式相比,这带来了更高的成本。因此,云可能是一个很好的初始测试平台,但可能不适合大型团队构建成熟的应用程序,为公司自己的AI硬件提供高利用率。

一旦你决定你的公司需要购买自己的AI芯片,这些是在评估中使用的芯片的重要特征:

处理速度:AI硬件使用神经网络实现更快的训练和推理。更快的训练使机器学习工程师能够尝试不同的深度学习方法,或者优化他们的神经网络结构(超参数优化)。

开发平台:在独立芯片上构建应用具有挑战性,因为芯片需要得到其他硬件和软件的支持,以便开发人员使用高级编程语言在其上构建应用。缺少开发板的AI加速器将使这种设备在开始时难以使用,并且难以进行基准测试。

电源要求:依靠电池工作的芯片需要能够在有限的功耗下工作,以最大限度地延长设备寿命。

尺寸:在物联网应用中,设备尺寸在手机或小型设备等应用中可能很重要。

成本:与往常一样,设备的总拥有成本对于任何采购决策都至关重要。

AI硬件在深度学习应用上的客观性能基准很难获得。建议云和内部AI硬件用户首先用自己的应用程序对这些系统进行基准测试,以了解它们的性能。

虽然对云服务进行基准测试相对容易,但对自己的硬件进行基准测试可能更耗时。如果这是一个常见的AI硬件,公司可以在云服务上找到它,并对其性能进行基准测试,因为一些云服务公开共享底层硬件规格。如果这样的测试不能在云上运行,那么就需要从供应商那里请求样本硬件来进行测试。

现有的基准倾向于在速度和功耗方面比较两种不同的AI硬件。基准测试使用简单的计算机和MacbookPro等进行比较,另外还要考虑价格因素。(DonnaZhang,张底剪报)

THE END
1.AI训练芯片行业深度解析:市场趋势技术进展竞争格局与未来投资...- :作为我国互联网巨头,也在训练芯片领域展开布局。其推出的训练芯片在云计算、大数据等领域具有广泛应用前景。未来,有望通过其在互联网领域的优势,推动训练芯片在更多应用场景的落地。 - 寒武:寒武作为我国新兴的芯片企业,凭借其在训练芯片领域的创新能力,迅速崛起。其推出的训练芯片在性能、功耗等方面具有竞争优势,受...http://www.slrbs.com/jrzg/aizhishi/724838.html
2.AI推理CPU当道,Arm驱动高效引擎AI的训练和推理共同铸就了其无与伦比的处理能力。在AI训练方面,GPU因其出色的并行计算能力赢得了业界的青睐,成为了当前AI大模型最热门的芯片;而在 AI 推理方面,具备卓越通用性和灵活性的CPU本应发挥关键作用,但其重要性却常常被忽视。 “对于那些希望将大语言模型(LLM)集成到产品和服务中的企业和开发者来说,CPU...https://www.elecfans.com/d/6345053.html
3.从PB社今日小作文看芯片重要机会——从训练到推理——芯片方向正在从训练向推理转向,AMD 、英伟达、Groq、AI手机都在热炒推理芯片训练芯片已经涨上天,关注还在低位,有超车潜力、有引爆因素的国产推理芯片。引爆点1:Groq推“最快”AI推理芯片 比英伟达GPU快10倍引爆点2:推理芯片NPU成AI手机、AI PC最大的增量方向!NPU即神经网络处理器,它是一种专门设计用于加速终端...http://guba.sina.cn/view_144542_77.html
4.英伟达AI芯片路线图分析与解读Nvidia是一个同时拥有 GPU、CPU和DPU的计算芯片和系统公司。Nvidia通过NVLink、NVSwitch和NVLink C2C技术将CPU、GPU进行灵活连接组合形成统一的硬件架构,并于CUDA一起形成完整的软硬件生态。 在AI计算芯片架构方面,注重训练和推理功能的整合,侧重推理。围绕GPU打造ARM和X86两条技术路线。在Nvidia的AI路线图中,并没有...https://wallstreetcn.com/articles/3712058
1.昇腾训练芯片和推理芯片的区别昇腾训练芯片和推理芯片在人工智能(AI)领域扮演着不同的角色,它们之间的区别主要体现在以下几个方面: 一、服务阶段与功能 训练芯片:主要用于AI模型的训练阶段。在这个阶段,芯片需要处理大量的数据和复杂的计算,以优化模型参数,提高模型的准确率和泛化能力。训练芯片的设计重点在于提高计算速度和精度,以支持大规模并行计...https://blog.csdn.net/fuhanghang/article/details/141310666
2.全民AI时代来了!但是你了解大模型AI芯片吗?(附国内外AI芯片参数...AI芯片一般可以理解为能运行AI算法的芯片,能处理AI应用中大量计算任务的模块,AI大模型算力的需求主要来源于训练(training)和推理(inference)这两环节,但是这两有什么区别? 训练是指基于一大堆的数据训练出一个复杂的大模型,训练芯片主要用于机器学习和深度学习,需要有强大的并行处理能力,此外还需要配备空间够大且高效的...https://www.xcc.com/news/detail/5555377
3.AI训练推理云边端对AI芯片的需求及挑战(1)云端:即数据中心,关注算力、扩展能力、兼容性。云端部署的AI芯片包括训练芯片和推理芯片。 (2)边缘端:即手机、安防摄像头等领域,关注综合性能,要求低功耗、低延时、低成本。边缘端部署的AI芯片以实现推理功能为主。 云端推理占比逐步提升,AI落地应用数量增加。根据IDC数据,随着人工智能进入大规模落地应用的关键时...https://www.eet-china.com/mp/a289837.html
4.解读AI通用计算芯片:GPU训练CPU推理,用最优的成本降低AI算力支出...AI计算方面,由于CPU有着更强的逻辑运算能力,就更加适合推理;而GPU拥有大量的计算单元,就更适合训练。 当前,人工智能已经成为推动企业业务创新和可持续发展的核心引擎。我们知道,算力、算法和数据是人工智能的三大核心要素,缺一不可。今天,笔者就从通用计算芯片这个维度出发,跟大家详细聊聊关于算力的相关技术与市场竞争态...https://www.51cto.com/article/784165.html
5.碾压H100!英伟达GH200超级芯片首秀MLPerfv3.1,性能跃升17%...使用了 NVLink-C2C 的 GH200 Grace Hopper 超级芯片仅使用 3% 的推理时间就完成了相同的传输。 由于具有更高的内存带宽和更大的内存容量,与 MLPerf Inference v3.1 的 H100 GPU 相比,Grace Hopper 超级芯片的单芯片性能优势高达 17%。 推理和训练全面领先 ...https://www.ithome.com/html/string/718598.htm
6.中昊芯英拥有自研AI训练芯片及推理芯片两大产品线,并已经完成...中昊芯英拥有自研AI训练芯片及推理芯片两大产品线,并已经完成了数十项发明专利的布局。核心AI训练芯片刹那TM算力可达204TFLOPS/396TOPS以上,自主研发的多至1024片的片间互联构架,为大https://ir.p5w.net/question/0001D0BF57F06A4E450E98FB4EC15B01DAF8.shtml
7.AI算力芯片天下一分为四,中国实力渐显艾瑞专栏谷歌介绍,Anthropic现在是首批大规模部署Cloud TPU v5e的企业之一。Cloud TPU v5e是谷歌云迄今为止最多功能、效率最高且可扩展性最强的AI加速器。这种芯片让Anthropic能以高性能且高效的方式为其Claude大语言模型(LLM)服务。 亚马逊:训练芯片Trainium、推理芯片Inferentia...https://column.iresearch.cn/b/202311/970854.shtml
8.计图支持国产统信操作系统和飞腾CPU芯片,实现GPU加速的训练和推理计图(Jittor)是由清华大学发布的首个动态编译深度学习框架,在5月8日兼容寒武纪芯片之后,计图目前又在国内自主研发操作系统统信UOS+国产CPU飞腾FT2000的架构下,成功实现了CPU和GPU的训练推理。 图1使用统信操作系统进行GPU训练图例 图1为国内自主操作系统统信UOS的操作界面,通过在终端中运行数行命令,就可以完成计图的...https://cg.cs.tsinghua.edu.cn/jittor/news/2021-06-21-00-00-fc/
9.芯片代理商:英伟达的H100训练芯片为啥受欢迎?训练芯片对数据传输速率和算力有较高要求,而推理芯片则需要低延迟。鉴于英伟达在训练芯片领域具备算力优势和软件方面的优势,他们成为科技公司首选的厂商,因此更多科技公司倾向于使用H100。 即使在推理应用场景下,英伟达仍然有一些替代方案可供选择,但在训练芯片领域,英伟达几乎是唯一的选择。这是因为英伟达在训练芯片领域的...http://www.htt-ic.com/index.php?m=home&c=View&a=index&aid=1952
10.AI上海范上海云端推理芯片中国AI算力再加速AI芯片是指面向人工智能应用开发的芯片,针对人工智能算法做了特殊加速设计。当前,从架构角度看,AI芯片以GPU、FPGA、ASIC等为主。从应用场景看,AI芯片分为云端芯片、边缘端芯片和终端芯片,其中云端AI芯片是指在服务器端完成人工智能相关运算的芯片。从实现功能看,AI芯片主要分为训练芯片和推理芯片。https://app.sheitc.sh.gov.cn/gydt/691342.htm
11.国产推理芯片上“硬菜”!大模型和边缘计算都不在话下人工智能芯片从功能上可以分为训练芯片和推理芯片,前者注重绝对的计算能力,而后者更注重综合指标,是实现AI应用落地终端的“最后一公里”。 “训练不是目的,生产大模型不是目的,千行百业的落地和应用才是最终的目的。”陈宁表示,不论是机器人、无人驾驶汽车智能传感,还是各类智能硬件,甚至脑机接口芯片,都需要大模型的...https://www.seccw.com/Document/detail/id/25807.html