智谱·AI人工智能发展月报(2021年1月)
四、AI学者个人动态
1.陈文光荣获2020年“CCF杰出贡献奖”
1月18日,中国计算机协会(CCF)公告决定授予智源学者、清华大学陈文光教授2020年“CCF杰出贡献奖”,以表彰他为CSP的权威性、专业性做出的杰出贡献。该奖于2010年设立。陈文光,国内系统研究的领军人物之一,中国计算机学会副秘书长,曾任ACM中国理事会主席、ACM中国操作系统分会ChinaSys主席、ACM通讯中文版主编等。
2.张正友成腾讯首位17级杰出科学家
3、JacobZiv获得本年度的IEEE荣誉勋章
近日,90岁的IEEE终身Fellow、以色列科学家JacobZiv因其“对信息论和数据压缩技术的重要贡献和杰出研究领导地位”获得本年度的IEEE荣誉勋章。LZ77与LZ78是AbrahamLempel与JacobZiv在1977年以及1978年发表的论文中提出的两个无损数据压缩算法,二人脱离了Huffman及算术编码的设计思路,创造出了一系列比Huffman编码更有效,比算术编码更快捷的通用压缩算法。LZ77的诞生,被称为“压缩算法的开山之作”。LZ是世界上第一个成功的主流通用压缩算法,该算法及JacobZiv的分析为后来的通用算法工作奠定了基础。
4.陈国良、孙永强荣获2020年“CCF终身成就奖”
CCF奖励委员会决定授予深圳大学陈国良教授和上海交通大学孙永强教授2020年“CCF终身成就奖”,以表彰他们为中国计算机事业的发展做出的卓越贡献。“CCF终身成就奖”授予在计算机科学、技术和工程领域取得重大突破,成就卓著、贡献巨大的资深中国计算机科技工作者。该奖于2010年设立。
五、重要AI科研成果
(一)国外AI科研
1、AI将用于体外受精
2、OpenAI发布120亿参数图像版GPT-3
1月5日,OpenAI同时发布了两个与GPT有关的文本-图像工作:DALLE:个利用文本-图像数据集,有着120亿参数的“GPT-3”,可以根据文本生成各种各样的图像;CLIP:可以通过自然语言的监督来有效学习视觉概念,只需要提供要识别的视觉类别名称,利用CLIP便能够做任意的视觉分类,类似于GPT-2和GPT-3的“Zero-shot”功能。这两项工作的突破性是无疑的,但同时作为前奏,也让人更加
期待OpenAI接下来的GPT-4了。GPT-3给人们带来的深刻印象是,大模型可以执行各种文本生成任务。与利用GAN来做文本到图像的生成不同,DALLE能够为大量五花八门的句子创造出似是而非的意象,这些句子很多时候本身就是对语言结构的探索。在生成之后,DALLE采用CLIP进行排序,从中选取最优结果,整个过程
3、美学者研制出一种光学卷积神经网络加速器
近日,美国乔治华盛顿大学和加州大学洛杉矶分校的研究人员与深度科技创业公司OptelligenceLLC共同开发出一种光学卷积神经网络加速器,每秒能够处理拍字节(1拍字节=250字节)级的大量信息。这项创新利用了光的巨量并行性,预示着用于机器学习的光学信号处理新时代的到来,应用领域包括无人驾驶汽车、5G网络、数据中心、生物医学诊断、数据安全等。为了在这种光学机器学习系统中实现突破,研究人员用基于数字镜的技术取代了空间光调制器,从而开发出速度快百倍的系统。该处理器的非迭代时序,再加上快速的可编程性以及大规模并行化处理,使得这个光学机器学习系统的性能甚至超越顶尖的图形处理单元一个数量级,而且在最初的原型机之外还有进一步优化的空间。不同于目前电子机器学习硬件中按顺序处理信息的范式,这款处理器采用了傅里叶光学,即频率滤波的概念,可以利用数字镜像技术将神经网络所需的卷积执行为更简单的逐元(element-wise)乘法。
4、人工智能代理在盲文键盘上打字
布里斯托尔大学的研究人员最近进行了一项研究,旨在通过强化学习来教人工智能代理在盲文键盘上打字。盲文键盘是允许人们用盲文为计算机输入指令的设备。他们使用最先进的深度学习算法来完成在模拟和真实环境中创建的四项任务(即使用物理机器人),这些深度学习算法取得了显著的效果。
5、机器学习可以提高粒子加速器故障诊断功能
美国能源部国家加速器设施的初级粒子加速器操作员正在获得一种新工具,以帮助他们快速解决妨碍加速器顺利运行的问题。一个新的机器学习系统已经正确地识别出故障加速器组件和正在经历的故障类型。对定制机器学习系统第一次现场测试结果的分析最近发表在PhysicalReviewAcceleratorsandBeams上。连续电子束加速器设施是美国能源部的一个设施,其特点是核物理学家利用一种独特的粒子加速器来探索物质的核心。
6、德国劳恩霍夫开发可视化软件
7、亚马逊推出五大AI工具
借助五款专注于工业应用的AI工具,亚马逊云计算服务(AWS)正在努力扩大工业AI的使用范围。这些工具可以7x24小时不间断地守护制造工厂,在检测生产线和其他系统问题的同时,还可以预测所需的维护任务,能够帮助工业和制造业客户将机器智能带入他们生产流程的机器学习服务,可提高运营效率、质量控制、安保和工作场所安全。利用机器学习、传感器分析和计算视觉功能,这些工具要通过云到边缘(云计算和边缘计算)的工业机器学习服务,帮助制造业和工业运营解决常见的技术挑战。
8、牛津大学ML算法实现10万高压非晶硅原子的模拟
2021年第一期《自然》杂志封面研究中,来自牛津大学的VolkerDeringer等人展示了模拟加压非晶硅的原子机器学习模型,成功解决了这一挑战,并捕获了实验中遇到的所有结构变化。这种计算方法可以为实验条件极富挑战性的材料预测建模开启全新的方式。这是2020年12月DeepMind人工智能解决生物学50年来重大挑战之后,人工智能在又一个新的领域展现强大能力。
9、日本Fugaku超级计算机计划推出
Fugaku设定了9个对社会有重要意义的应用领域,如医学、药理学、灾难预测和预防、环境可持续性和能源。Fugaku计划于2021年在神户的Riken设施正式推出,它成为世界上第一台在原始计算速度、大数据处理、人工智能深度学习和实用模拟计算四大类别中均位居榜首的超级计算机。它是由日本理研所和富士通公司联合开发的,耗资1300亿美元。
10、IBM公司使用光学在人工智能系统中创建超快速计算
近来,IBM研究人员推出了一种新方法,该方法可以为深度学习应用程序带来巨大的变化,这些应用程序可以完全用光而不是电来执行计算。研究人员已经创建了一个光子张量核心,其基础是光粒子的特性可以以前所未有的速度处理数据,从而以极低的延迟提供人工智能应用程序。使用光学物理学,IBM开发的技术可以在单个内核中并行运行复杂的操作。结合内存计算,IBM的科学家实现了超低延迟,这是电路所无法比拟的。IBM开发的基于光的处理器具有同时执行多项操作的能力,因此所需的计算密度也较小。尽管IBM的研究人员已经成功设计并测试了一个强大的内核,但是他们需要扩展试验,以确保该技术可以在系统级集成,以确保端到端性能。
11、Nature:世界最快光子AI加速器
12、谷歌发布人类历史首个万亿级模型SwitchTransformer
近日,GoogleBrain的研究人员WilliamFedus、BarretZoph、NoamShazeer等在arxiv上提交了一篇论文“SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleandEfficientSparsity”,提出了稀疏激活专家模型SwitchTransformer。这个1.6万亿参数模型似乎是迄今为止最大的模型,其速度是Google之前开发的最大语言模型(T5-XXL)的4倍,参数规模几乎是1750亿参数的GPT-3的十倍。这应该是人类历史上发布的第一个万亿级人工智能模型。研究人员在论文中指出,大规模训练是通向强大模型的有效途径,具有大量数据集和参数计数的简单架构可以远远超越复杂的算法,但目前有效的大规模训练主要使用稠密模型。
13、新一代多模态文档理解预训练模型LayoutLM2.0,多项任务取得新突破
14、科学家利用人工智能通过粪便标测肠道细菌
哥本哈根大学的研究人员开发了一种突破性的技术,可以帮助我们揭开人类肠道细菌的某些神秘面纱。西蒙拉斯穆森(SimonRasmussen)副教授在《自然》杂志上发表他与诺和诺德基金会蛋白质研究中心的研究人员一起负责这项新研究的研究结果。西蒙拉斯穆森(SimonRasmussen)和他的研究人员开发了一种算法,该算法利用人工智能来完成粪便中细菌的DNA串。这种方法不仅限于肠道细菌。人工智能分析非常小的样品中细菌含量的能力也可用于研究粪便以外的其他物质。该算法不仅可以用于研究细菌,还可以使用它来分析健康数据,可以收集有关患者群体的大量信息,例如有关患者遗传学,蛋白质组成,血液中物质以及电子记录数据的知识。然后,利用人工智能可以分析这些非常不同的数据集,并确定模式和连接。
15、机器算法可以预测新冠肺炎患者心脏骤停隐患
16、NeuTigers推出CovidDeep
1月13日消息,普林斯顿大学分拆出来的人工智能公司NeuTigers推出了CovidDeep,这是一个经过临床验证的解决方案,可以利用可穿戴设备衍生的生理传感器数据,对需要进一步检测SARS-CoV-2/COVID-19的人进行分流。CovidDeep应用在预测一个人是无病毒还是病毒阳性方面的准确率高达90%以上,是目前体温检查和问卷调查等分流工具的两倍。CovidDeep由最前沿的人工智能深度神经网络驱动,模仿人脑如何感知、学习和解释世界。NeuTigers在普林斯顿大学电子工程系的研究联合创始人使用专有的深度神经网络从数十万个数字健康数据点和SARS-CoV-2阳性和健康参与者的特定问卷中学习。
17、马克斯-普朗克人类发展研究所:超级人工智能从理论上就无法控制
18、卡内基梅隆大学提出新的AI环境探索模型
近日,卡内基梅隆大学、脸书等机构的研究人员提出了一个新的AI环境探索模型。这个新模型综合了传统环境探索模型和基于学习方法的环境探索模型的优点,更简单和不易出错。这项研究已经发表在学术网站arXiv上,论文标题为《利用主动神经SLAM学习探索环境(LearningToExploreUsingActiveNeuralSLAM)》。为了解决全面端到端学习的局限性,卡内基梅隆大学、脸书、伊利诺大学厄巴纳-香槟分校的研究人员推出了“主动神经即时定位与地图构建(ANS,ActiveNeuralSLAM)模型”。ANS模型包括一个学习神经即时定位与地图构建(SLAM,Simultaneouslocalizationandmapping)模块,一个全局策略(globalpolicy)和一个局部策略(localpolicy)。ANS导航模型克服了之前的基于端对端学习策略的缺陷,基于更真实的数据库进行训练,最终探索效率有所提升。
19、首个3D点云+GAN新方法,让机器人“眼神”更犀利!
20、助力图深度学习研究与应用,清华团队发布CogDLv0.2
在CogDLv0.2版本中,将任务、数据集、模型和参数,统一为一个experiment接口,只需直接调用experiment函数即可完成一行实现训练。experiment接口还整合了optuna的超参搜索功能,只需提供不同超参的搜索范围即可。此外,新增pineline方法,通过调用pipeline方法可以很容易的实现一些有趣的应用,比如数据集的状态显示、节点的k-hopneighbor可视化等。pipeline接口还支持调用OAGBert模型。
21、麦吉尔大学等开发新型视觉触觉传感器
来自三星、麦吉尔大学和约克大学的研究人员,近日研发出一个全新的生成式多模态感知AI框架,能够根据物体初始状态的视觉和触觉数据,来预测出物体的运动趋势。据悉,这是第一个利用视觉和触觉感知来学习多模态动力学模型的研究。该研究团队的这项新成果能够基于触觉、视觉的双模态数据对物体的运动轨迹进行预判,并推测出物体的最终静止状态。相较于以往的运动预测技术,该研究团队实现了触觉和视觉数据的双向推测,为制造业的自动化场景提供了更多的可能性。
22、微软等提出「ZeRO-Offload」技术
微软、加州大学默塞德分校的研究者提出了一种名为「ZeRO-Offload」的异构深度学习训练技术,可以在单个GPU上训练拥有130亿参数的深度学习模型,让普通研究者也能着手大模型的训练。与Pytorch等流行框架相比,ZeRO-Offload将可训练的模型规模提升了10倍。此外,ZeRO-Offload还可以和模型并行一起使用,在一个DGX-2boxAI服务器上训练参数量超700亿的模型。与单独使用模型并行相比,这一参数量实现了4.5倍的规模提升。
23、谷歌大脑科学家QuocV.Le等提出用AutoML方式自动学习Dropout模式
近日,卡内基梅隆大学在读博士HieuPham、谷歌大脑研究科学家QuocV.Le提出了一种自动学习Dropout的方法。研究者称,通过强化学习来学习Dropout的规律,AutoDropout可以提高图像识别、语言理解和机器翻译的性能。该研究已被人工智能顶会AAAI-2021接收。AutoDropout的主要贡献是一个新颖的结构化Dropout模式搜索空间。在这个搜索空间中,人们可以为每个模型架构和任务找到适合的Dropout模式。此外,该搜索空间还泛化了很多现有的Dropout模式。
论文名称:AutoDropout:LearningDropoutPatternstoRegularizeDeepNetworks
24、GPT-Neo,最大可达GPT-3大小,已开源
近日,有个名叫EleutherAI的团队(创始成员为:ConnorLeahy,LeoGao和SidBlack),宣布推出GPT-Neo开源项目,可用于复现GPT系列的各种语言模型,也包括GPT-3。目前已经成功制造出GPT-2大小的模型。从项目代码的可扩展性来看,他们预计可以复刻出GPT-3大小的语言模型,甚至比GPT-3更大。目前,作者已经给出了详细的训练步骤。本质上,GPT-Neo有点像是GPT系列的“高仿”项目:GPT-Neo中的各种模型,设计原理接近GPT系列,但代码并不一样。作者们打算尝试各种结构和注意力类型,最终扩展出GPT-3大小的大语言模型。
25、微软“AI聊天机器人”最新专利获批
近日,微软通过了一项名为“AI聊天机器人”的专利申请。微软专利是首次通过“社交媒体数据”创建逝者的AI机器人。在某些情况下,它甚至可以使用图像和视频创建人物的3D模型来增加互动的真实感,该AI聊天机器人可以模仿逝者与亲人进行实时互动和聊天。如果在交谈时,用户提及的问题没有具体的存储数据,AI系统可以基于“人群感知”和“心理数据”给出逻辑上可能的回答。
近期,微软亚洲研究院发布了NNI2.0版本,其中加入了对“探索性训练”框架Retiarii、基于掩码的模型压缩加速工具的支持,提供了利用Python发起实验(预览功能)与多种算力混合训练的能力,并简化了自定义算法的安装方法。NNI(NeuralNetworkIntelligence)是微软亚洲研究院为研究人员和算法工程师量身定制的自动机器学习(AutoML)工具。
(二)国内AI科研
1、超大规模新型预训练模型——“文汇”
2021年1月11日,由北京智源人工智能研究院、阿里巴巴、清华大学、中国人民大学、中国科学院、搜狗、智谱.AI、循环智能等单位的科研骨干成立"悟道"联合攻关团队,发布了面向认知的超大规模新型预训练模型"文汇",旨在探索解决当前大规模自监督预训练模型不具有认知能力的问题。“文汇”模型不仅使用数据驱动的方法来建构预训练模型,还将用户行为、常识知识以及认知联系起来,主动“学习”与创造。“文汇”模型参数规模达113亿,仅次于DALLE模型的120亿参数量,是目前我国规模最大的预训练模型,并已实现与国际领先预训练技术的并跑。目前,“文汇”已支持基于认知推理的多种自然语言及跨模态应用任务,部分应用将与搜狗、阿里巴巴、学堂在线、智谱.AI、循环智能等机构合作上线。目前已有四个样例应用可用于展示模型效果。
2、清华、智源、协和联合开发乳腺癌AI诊断工具
一项基于VGG模型,对超声影像进行良/恶性检测及分子亚型分类的深度神经网络模型SonoBreast的研究团队经过数月对数据集预处理算法和训练模型的改进,根据近期公布结果,这一模型的分子分型准确率提升了近20个点,达到76%;而在二分类问题上可以达到93%的准确率。SonoBreast模型使用了卷积神经网络VGG-19进行特征提取,然后将特征送入到全连接层进行二分类,并将所有层从头开始训练。为了进一步扩大数据集,研究团队也与智源研究院的数据中心进行合作,希望通过联邦学习的技术,将多家医院的超声影像进行联合训练,从而提升模型效果。
3、百度发布预训练模型ERNIE-M,可理解96种语言
2021年伊始,百度研究院发布多语言预训练模型ERNIE-M。ERNIE-M通过对96门语言的学习,使得一个模型能同时理解96种语言,该项技术在5类典型跨语言理解任务上刷新世界最好效果。在权威跨语言理解榜单XTREME上,ERNIE-M也登顶榜首,超越微软、谷歌、Facebook等机构提出的模型。据了解,基于飞桨实现的ERNIE-M模型会于近期开源。
4、强化学习与3D视觉结合新突破:高效能在线码垛机器人
近日,国防科技大学、克莱姆森大学和视比特机器人的研究人员合作提出了使用深度强化学习求解基于动态变化观察的序列决策这一问题。该算法性能优异,实现简单,可适用于任意多个前瞻箱子的情形,摆放空间利用率达到甚至超过人类水平。同时,该团队结合3D视觉技术,实现了业界首个高效能无序混合码垛机器人。论文已被人工智能顶会AAAI2021大会接收。作者使用带约束的深度强化学习求解BPP-1问题,即只能前瞻一个箱子的情形。然后基于蒙特卡洛树搜索实现了从BPP-1到BPP-k的拓展。
5、元戎启行推理引擎亮相CES2021
在2021年CES上,L4级自动驾驶解决方案提供商元戎启行将在线上展示其针对L4级自动驾驶深度学习模型研发的推理引擎DeepRoute-Engine。该推理引擎实现了比开源深度学习框架平均高6倍的推理速度,大幅提升了自动驾驶的计算效率,令自动驾驶摆脱了对高算力计算平台的依赖。自动驾驶要做到像人类一样感知周围物体,需要通过深度学习来完成,即需要通过大规模的、复杂的深度学习网络模型来对输入的数据进行推理。在推理过程中,需要实时完成大量的计算。元戎启行选择通过自研的推理引擎——DeepRoute-Engine,让L4级自动驾驶的感知模块,可以运行在低成本、低功耗的计算平台上。
6、P-Waver提出地震预警(EEW)模型
7、AvalancheComputing开发超大规模计算技术
AvalancheComputing是一家总部位于台北和湾区的超大规模计算技术提供商,它已开发出一种单击式AI框架,该框架可提高生产速度并具有高度可扩展性。AvalancheComputing的AI框架可以在不改变算法的情况下,有效地在多个GPU上以并行或分布式模式训练你的AI模型,以降低AI项目成本,然后在一个命令中完成AI模型从一个到多个边缘设备的部署。
8、微软联合浙大提出FastSpeech2
近日,微软亚洲研究院和微软Azure语音研究团队联合浙江大学提出了FastSpeech2和FastSpeech2s。改进版FastSpeech2抛弃了Teacher-Student知识蒸馏框架降低训练复杂度,直接用真实的语音数据作为训练目标避免信息损失,同时引入了更精确的时长信息和语音中的其它可变信息(包括音高(Pitch)和音量(Energy)等)来提高合成的语音质量。研究团队还提出了加强版FastSpeech2s以支持完全端到端的从文本到语音波形的合成,省略了梅尔频谱的生成过程。
9、瞰点科技与华师大共同发布GraphSEAT
近日,瞰点科技与华东师范大学、哈佛大学、上海交通大学的研究人员合作,将论文发表在ACMCIKM2020上的面向量化投资的细粒度金融文本分类框架正式对外发布。该方法采用针对目标任务的全局和模块信息编码融合的思想,有效地提升了针对金融领域的细粒度文本分类精度,可以为中国顶级金融信息服务供应商提供金融文本分类服务。研究者利用神经序列编码器从文本的词序列中提取语义信息,并通过注意力机制融合文本学得的两个表征,最终形成了文本的整体嵌入表征并进行预测。
10、京东开源PyTorch人脸识别工具包FaceX-Zoo
今年1月,来自京东的研究人员面向人脸识别技术开发社区提出了全新的开源框架FaceX-Zoo。依靠高度模块化和可扩展的设计,FaceX-Zoo提供具备多种supervisoryhead和骨干网络的训练模块,以实现效果最优的人脸识别。此外,它还具备标准化评估模块,以便在大多数情况下测试模型效果。
11、鸿海推出非监督式学习人工智能算法
1月21日,鸿海宣布正式推出非监督式学习(UnsupervisedLearning)人工智能(AI)算法“FOXCONNNxVAE”,运用正面表列的模型训练方式,只以产品容易取得的正样本进行光学检测演算,解决产线中瑕疵样本取得的问题,适用于良率高的成熟产品线,可增加AI模型的整体容错能力,此技术已实际导入集团部分产品外观检测生产线,成功降低50%以上的产线检测人力。