百度大脑5.0技术干货:详解飞桨五大优势,鸿鹄芯片架构细节

智东西7月8日消息,近日,2019百度AI开发者大会在北京国家会议中心举行。在上午的主论坛中,百度CTO王海峰带来了软硬一体的AI大生产平台——百度大脑5.0,宣布百度飞桨与华为麒麟芯片深度对接,并发布了智能语音芯片“鸿鹄”。

在当日下午的百度大脑分论坛中,以深度学习平台飞桨(PaddlePaddle)为代表的百度大脑AI技术和AI架构最新进展得到详实的介绍。

百度CTO王海峰、百度副总裁侯震宇携手一众百度各AI技术部门高管,对智能语音芯片鸿鹄、百度视觉语义化平台2.0、茶博士等新发布的产品及其背后的AI技术进行更为具体的解读。

据介绍,百度飞桨(PaddlePaddle)是国内唯一功能完备的开源深度学习平台,自PaddleFluidv1.0发布以来,飞桨陆续在开发、训练和部署全流程上进行全方面的升级。

而在刚刚过去的百度AI开发者大会上,百度CTO王海峰介绍了飞桨的五大优势。

在此,我们根据百度大脑分论坛的介绍,对这五大优势进行更详细的解读。

飞桨新增同时为用户提供动态图和静态图两种机制。

动态图是按着编写命令的顺序去运行,而静态图是先定义网络架构,而后运行,对定义好的图结构进行分析。

因为静态图先进行定义,再运行的时候不需要重新构建计算图,所以运行速度会更快,显存占用更低,在业务部署上线上的具有非常大的优势。

但由于静态图组网和执行阶段是分开,对于新用户理解起来不太友好,飞桨从最新版本开始,支持动态图模式,所有操作可以立即获得动态结果,而不用等到执行阶段,这使得编写、调试网络的过程变得更加便捷。

用户可以使用动态图进行调试和训练,然后把训练好的模型转换为静态图的结构,快速上线部署。

对于中国开发者,飞桨提供系统的深度学习技术服务,有非常全面的中文支持。

飞桨提供了70多个官方的、达到工业级应用效果的模型,涵盖视觉、NLP、语音和推荐等AI核心技术领域。

(1)自然语言处理模型库PaddleNLP

PaddleNLP是基于飞桨打造的工业级中文NLP开源工具集,拥有当前业内效果最好的中语义表示模型和基于百亿级大数据训练的预训练模型,支持NLP前沿研究,现已开源多种近期百度在NLP学术领域的工作。

(2)视觉模型库PaddleCV

PaddleCV提供PaddleDetection、PaddleGAN、PaddleVideo三个面向工业应用的CV开源工具集,前两者覆盖主流的检测、GAN算法。

图像分类库新增9个图像分类模型,截至目前,覆盖10种、超过25个ImageNet预训练模型。

今年4月发布的业界首个视频识别与定位工具集PaddleVideo,本次持续优化训练速度,部分模型速度优于同类产品的30%,并新增百度自研的视频动作定位模型C-TCN,这也是2018年ActivityNet夺冠方案,在PaddlePaddle上首次开源。

(3)预训练模型库PaddleHub

飞桨预训练模型管理和迁移学习组件PaddleHub,可一键加载工业级预训练模型,新增发布29个预训练模型,共为用户提供40+预训练模型,覆盖文本、图像、视频三大领域八类模型。

PaddleHub提供Fine-tuneAPI,10行代码即可完成大规模预训练模型的迁移学习。

PaddleHub还引入「模型即软件」的理念,通过PythonAPI或者命令行工具,一行代码完成预训练模型的预测。

百度产品系统主要面临四类挑战:超大规模稀疏化特征、万亿级模型参数量、百亿级训练数据、终身流式学习。

飞桨同时支持稠密参数和稀疏参数场景的超大规模深度学习并行训练,支持千亿规模参数、数百个节点的高效并行训练。分布式训练的吞吐量和加速比都呈现线性增长。

开发者在移动端部署深度学习和神经网络技术可能会遇到很多问题,比如安装包大小、运行内存占用大小、推理速度和效果等。

此前4月发布的PaddleSlim支持网络量化、剪枝和蒸馏的组合使用,可以在效果不损失的前提下,将MobileNet模型的体积压缩70%以上。

此次PaddleSlim更是进一步升级,新增基于模拟退火的自动剪枝策略和轻量级模型结构自动搜索功能Light-NAS,相比MobileNetv2在ImageNet类分类任务上精度无损情况下FLOPS减少17%。

飞桨已实现了API的稳定和向后兼容,为用户提供完善的中英双语使用文档。

同时,飞桨为合作伙伴提供系统的服务体系,还帮助高校和教育伙伴构建完善体系,为开发者提供不同层次的培养体系。

在今年的百度AI开发者大会主论坛上,李彦宏展示了小度DuerOS的全双工特性,即一次唤醒多次交互,并秀出拒绝识别技术,自动判别哪些话是跟小度说的、哪些话是跟别人说的。

除了这些技术亮点外,百度语音技术最近在识别、合成和芯片三方面实现了技术突破。

在大规模在线识别领域,百度语音技术的节奏基本上是每年一个模型上的突破,同时带来在线语音识别准确率的大幅提升。

今年,百度在这一领域的核心突破即是流式多级的截断注意力模型SMLTA。

此前注意力模型在语音上一直无法做到大规模实时在线应用,这是因为传统注意力模型用到语音必须做整句识别,这样一来就很难满足实时的需求。

百度主要做的创新是,先动态将一个完整的语音切分,将整句识别变成一段一段的流式识别,在此基础上使用多级注意力模型,构成其SMLTA技术。

这一技术已经上线百度输入法和小度音箱。SMLTA在输入法有效产品相对准确率提升15%,音箱有效产品相对准确率提升20%。

据介绍,这是国际上首次实现局部注意力模型超过整句的注意力模型,也是国际上首次实现在线语音大规模部署注意力模型。

合成方面,针对现阶段面临音库风格迁移、音色模拟和情感拟人的三大挑战,百度推出语音合成技术Meitron,可以将语音中的音色、风格、情感等要素映射到不同的子空间。

Meitron推出一个创新的技术框架,一次性解决上述三类问题,将十几个音库上千小时高质量的录音棚录来的声音,混合在一起用注意力模型进行非监督式训练,用软分类技术,独立输出三个风格的神经网络。

在解码阶段,输入文本后,根据此前训练好的三个网络进行动态特征拼合,灵活组合音色、情绪和说话风格,合成的声音更加个性化。同时降低语言合成门槛,仅需20句话就可以制作一个人的专属声音。

百度开发者大会还亮出了一个相当重磅的产品,即百度第一个在智能语音芯片上的解决方案——鸿鹄。鸿鹄芯片在流片的同时,即实现了量产,开发板也已就绪。

在技术细节方面,为了实现超低功耗、超低成本、超高精度的目标,鸿鹄芯片采用“软件定义芯片”的设计思路,让芯片架构来适应算法。

由于芯片资源有限,深度学习模型的计算和加载过程高度并行,芯片根据模型不同精度做动态加载,基于线上模型去深度优化。

据介绍,芯片架构是完全为了适应模型计算中的高吞吐率而量身定制。芯片内置2个DSP核,并针对其算法将缓存分为指令缓存和数据缓存,在此基础上,百度完整开发了其自身的音频系统。

核心参数方面,鸿鹄采用双核HiFi4架构、2.8M大内存、台积电40nm工艺,平均工作功耗在100mw左右,即可支持远场语音交互核心的阵列信号处理和语音唤醒能力。

其指令集是针对算法特别优化的自定义指令集,按照车规级标准打造,在智能硬件、无人车上都有很多应用空间。

鸿鹄芯片主要实现3个方面的边缘计算能力:

(1)数字阵列信号处理,远场收音功能,最高支持六路麦克风的阵列,支持回声消除、声源定位、波数形成等功能。

(2)语音唤醒,完全支持自定义唤醒,也支持一些基本场景的预定命令词。

(3)离线语音识别,聚焦AIoT刚性需求,采用模型波束算法,最少只用到2个麦克,可做到360度无死角收音。

5G时代,越来越多物理设备将连接到高可靠、低延时的网络空间,这将极大改变人们与环境及设备的交互方式,对视觉技术也提出更高要求。

首先,实时计算需求大增,视频、3D内容分析等对计算效率有更高要求。其次,多模态交互使得交互更加自然生动,更多物联网设备依赖边缘计算的部署方式,来高效实现云端协同。

为了应对这样的技术确实,百度发布百度视觉语义化平台2.0,主打交互升级和软硬件结合两大特性。

第一个重要升级是多模态交互技术,包括人脸/手势/肢体/环境的一体化人机交互系统和大场景物理世界交互系统。

这样的一些智能交互技术,既可以用在C端的AR特效直播、小视频、特效小程序等娱乐互动,也可以用于B端的人脸识别、情绪识别、疲劳驾驶等智能车载应用及智能家居应用。

比如百度刚刚协助奇瑞推出的星途,就是世界上第一款支持人脸识别和支付的智能车机。

除了跟人和身边物体的互动,百度还研发了更大范围的对整个物理世界的一个互动系统,创新性的将大范围3D视觉定位技术与AR技术结合,将上线虚拟信息和物理世界精准叠加。这一功能已在百度地图上线。

随着人们对计算效率和数据安全的要求越来越高,软硬件结合变得尤为必要。很多计算开始放在边缘和终端来实现。

百度对视觉语义化平台升级的第二个重要升级就是软硬件结合解决方案,包含飞桨模型压缩共聚合平台PaddleSlim、FaceID多模态人脸识别组件、软硬件一体解决方案AI相机三部分。

近年人脸识别应用如火如荼,将人脸识别系统部署到一个边缘设备时,通过PaddleSlim压缩优化后,其速度可提升9-10倍。

百度的FaceID则更进一步,采用全流程多模态应用领先的量化压缩技术,搭载了百度最强大的人脸识别的算法和模型,实现了软硬一体、即插即用的AI开发体验,已应用在超过1200多万台设备上。

此外,百度也研发了直接用于终端业务的软硬一体AI相机,将AI算法集成到智能硬件中,劲儿研发高效的商用系统。这些系统在3C卖场、品牌店、营业厅、便利店均已得到实际商用。

在智能化工程机械方面,百度基于百度领先的阿波罗自动驾驶平台基础上,采用优秀的机械控制技术,推出智能化工程机械平台,力求打造高性能、低成本的智能化装备和施工解决方案。

在百度AI开发者大会主论坛中,百度CTO王海峰展示的机械臂“茶博士”不仅能说会道,能精准地完成倒茶工作,还会高阶玩法——茶艺。

而这背后的主要功臣,正是百度服务机器人方案。

首先是语音语义联动技术解析,当用户提问,系统需要了解请求并生成可能的答案列表,当用户中断语音,系统需要知道“这”的确切含义,然后向机器人传达正确命令。

其次,基于百度3D视觉,机器人可以对茶杯的位置进行实时检测和位置追踪。

最后,通过高精度运动规划和控制,机械臂可以对工作空间进行碰撞检测,避开障碍物,实时调整位置。

目前,百度已构建百度大脑·语言与知识技术开放平台,不仅有丰富的基础技术,还形成了包括智能创作平台在内的翻译开放平台、UNIT平台、知识图谱构建与应用平台共四大应用级平台。

而此次百度大脑分论坛又带来了2个应用级的平台——行业知识图谱和智能创作平台2.0。

行业知识图谱平台有几个特点。

首先,百度将知识建模、图谱构建、图谱计算到应用全流程,进行了全流程智能化的处理,使得整个流程非常的平滑和高效。

同时,这个流程中有策略迭代和数据反馈的闭环,能帮助行业的开发者更高效的获取到自己的图谱。

针对更为复杂的行业知识,百度在该平台上推出了可灵活定制知识体系的能力,并推出多角色任务协同的人机结合机制,可以使行业专家、数据专家、技术开发人员、图谱训练师等多角色高效协同。

此外,行业知识图谱平台还具备低成本的启动和跨行业迁移的能力,这些能力均已在百度AI开放平台的知识图谱专区开放。

全新的智能创作平台2.0带来三个新的特性:实时热点关联丰富素材,全面的创作辅助能力,领先的多模生成技术。

智能创作平台2.0在创作过程中提供丰富组件,包括组稿、纠错、文本润色、素材推荐等组件,在创作结束后还能进行自动审核、文本分类和标签提取等功能。

此前智能创作平台1.0集成了百度通用知识图谱,2.0进一步推出了热点发现、热词分析、事件脉络等素材,可以进行热词的全网热度趋势的关联分析,还能通过事件脉络能够把握住整个事件的演变状态。

另外,智能创作平台2.0将于10月份进行一个邀测测试的功能是多模态自动创作,能对视频进行语义理解,在再过文本生成的技术顺利程度稿件,加上知识图谱的辅助让它丰富化,加上图片的引入最后生成一篇图文并茂的作品。

反过来,对图文内容也可以进行摘要,通过语音生成、视频检索、视频获取等技术,生成很好的视频内容。

新一代神经网络模型面临建模成本高的挑战,而自主AI可以帮助工程师设计网络,自动进行网络参数调优,而不需要从头训练网络。

论坛上,百度正式发布自动化建模技术AutoDL3.0,从设计、迁移和适配三方面进行全面升级,降低建模成本、提高建模效率,减少对大数据和人工的依赖,目前已通过飞桨正式开源。

其次是迁移学习,AutoDL3.0通过一个网络训练一次,得到多个模型,然后将这些模型通过集成学习的方法组合起来,能够更好的支持迁移。

第三是模型适配问题,百度做了一个三维滤波器,可以对语音、图像、目标检测、自动搜索等模型进行压缩,而模型准确率几乎保持不变。

除了支持百度外部应用外,AutoDL也对百度新闻流等内部应用提供相应的支持。

侯震宇表示,支持现代化的AI的计算架构会对资源、计算、存储、网络等计算机体系架构上的几大核心,都带来了非常大的新挑战。

AI时代,计算与连接无处不在,对此百度提供一个从底层芯片到上层框架,软硬一体的、端到端的全栈式AI大基础设施配套。

侯震宇认为,面对即将到来的AI+5G时代,计算将无处不在。真正的计算会发生在设备(Device)、边缘(Edge)和云(Cloud)中。

不同场景对计算基本单元有不同要求,这些不同要求需要有不同的设计,因此在芯片设计领域,D-E-C(DSA-DomainSpecificArchitecture)会是接下来需要重点研究的问题。

与此同时,包括芯片之间、系统之间、设备之间的互相连接,将帮助不同场景中的计算连接在一起,产生更大的计算力。

在基础设施层面,百度整个AI计算集群能提供百万级TOPS的AI算力。芯片之上,百度有自研的软硬一体的GPUBOX、X-MAN服务器。

再往上是集群侧的AutoCompiler,以及被百度称之为“AI时代的操作系统”的百度深度学习框架飞桨,全面升级支持D-E-C计算。

另外在互联方面,百度有大量业界成熟的方案,在内部也在积极的投入一些标准的制定,可以使我们计算的部分和大的存储部分来解耦,百度内网还建立了大型的面向大数据处理的存储池。

百度的整个数据中心内部的基础网络架构,扩展性非常强,拥有大量存储资源和计算资源,能做到让存储和计算真正的分离,同时确保存储和计算之间的访问高速通畅。

据介绍,百度大脑持续开放赋能,迄今为止已经开放210余项领先的AI技术能力,平台的调用次数同比增长108%,定制化平台模型的数量都在飞速增长,平台上的开发者数量已经达到了130万。

从基础开发能力到软硬件一体解决方案,小到个人、家庭的工作生活常用软硬件,大到工业质检和城市管理,百度大脑所提供的AI技术正在渗透到越来越多的业务场景,和各行业的开发者协同,加速产业智能化落地进程。

THE END
1.30题中国移动信息技术中心AI中国移动信息技术中心AI 工程师岗位面试真题及解析含专业类面试问题和高频面试问题,共计30道请简单自我介绍一下,包括教育背景工作经历和技能特长。面试问题:请简单自我介绍一下,包括教育背景工作经历和技能特长。考察点: 1. 语言表达能力:应聘https://www.renrendoc.com/paper/299832522.html
1.终于有人总结了人工智能知识!(非常详细)零基础入门到精通,收藏这一篇就...读者福利 |CSDN大礼包:《最新AI大模型学习资源包》免费分享(安全链接,放心点击) 1.大模型入门学习思维导图 要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。 对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家...https://blog.csdn.net/xx16755498979/article/details/144030340
2.AI:发展历程现状与基本概念腾讯云开发者社区从实现方式来看,AI 包含多种技术,如机器学习(包括监督学习、无监督学习等)、深度学习(利用深度神经网络)、自然语言处理、计算机视觉、智能机器人技术等。 AI 的目标是创造出能够像人类一样思考、学习和行动的智能系统,以帮助人类解决各种复杂的问题,提高工作效率和生活质量。然而,随着 AI 的发展,也带来了一些挑战和...https://cloud.tencent.com/developer/article/2456353
3.AI与区块链结合有哪些应用嘲挑战和注意事项?区块链技术这篇文章主要介绍了AI与区块链结合有哪些应用场景、挑战和注意事项?的相关资料,需要的朋友可以参考下本文详细内容介绍 欧易OKX 欧易(OKX)交易所- 全球三大交易所之一,立即注册可领50 USDT数币盲盒! 官网注册APP下载 AI 和区块链是这个时代最具有颠覆性的两大技术,有潜力在多个行业掀起一场创新革命,并彻底颠覆经济...https://www.jb51.net/blockchain/880346.html
4.人工智能技术专题「入门到精通系列教程」零基础带你进军人工...许多人对AI技术有兴趣,但由于其知识点繁多,难以系统学习,学习没有方向等等问题。我们的专栏旨在为零基础、初学者和从业人员提供福利,一起探索AI技术,从基础开始学习和介绍。让你从零基础出发也能学会和掌握人工智能技术。 专栏说明 本专题文章以及涉及到整体系列文章主要涵盖了多个流行的主题,包括人工智能的历史、应用...https://blog.51cto.com/alex4dream/6535665
5.一文理解AI基础架构有哪些组件优势和应用?AI 基础架构结合了人工智能和机器学习(AI/ML)技术,来开发和部署可靠且可扩展的数据解决方案。精心设计的基础架构有助于数据科学家和开发人员访问数据、部署机器学习算法以及管理硬件的计算资源。https://www.redhat.com/zh/topics/cloud/ai-infrastructure
6.共达地李苏南:0代码自动化,让AI算法赋能千行百业商业模式鲸解▍个人介绍 共达地高级市场总监;曾帮助腾讯、华为等公司B2B业务打造过亿商机的强壮获客管道;腾讯WeCity未来城市、华为无线SingleSite等领导品牌的核心缔造者与主理人。 ▍第一标签 行业首个商用AutoML自动化AI训练平台布道者 ▍公司简介 共达地创立于2020年,总部位于中国广东省深圳市,是全球领先的AutoML自动化AI训练平台提...https://www.cls.cn/detail/1154839
7.GitHubAI 推理系统与引擎实际应用推理系统与引擎,讲了太多原理身体太虚容易消化不良,还是得回归到业务本质,让行业、企业能够真正应用起来,而推理系统涉及一些核心算法和注意的事情也分享下。[Slides] AI 框架核心技术介绍 AI 框架核心技术,首先介绍任何一个 AI 框架都离不开的自动微分,通过自动微分功能后就会产生表示神经网络...https://github.com/chenzomi12/AISystem/
8.ai技术有哪些种类近年来,人工智能技术得到了广泛的应用和普及,成为许多领域中不可或缺的一部分。那么,AI技术有哪些种类呢?本文将介绍几种常见的AI技术种类及其应用场景。 1. 机器学习 机器学习是人工智能领域中的一个重要分支,它通过让计算机自动从数据中学习规律和模式,从而实现自主决策和自我优化。机器学习技术在自然语言处理、图像...https://tool.a5.cn/article/show/78139.html
9.浙江时察设计行业协会工程设计信息化专委会2023年年会暨BIM技术...天尚设计集团有限公司首席科学家周群在《AIGC与BIM》报告中,深入浅出地介绍了AIGC的理论逻辑,并分享了BIM建模中的AIGC应用、水暖电计算的AIGC应用、存档图纸的自动建模。他详细阐述了AIGC在建筑行业的应用以及对未来的展望。 AI圆桌论坛 本次年会还精心策划了一场深入探讨AI技术在建筑领域应用的“AI圆桌论坛”技术...https://www.zjkcsj.cn/newsshow.php?id=645