现在我们把这篇JeffDean代表全体谷歌科研人员撰写的谷歌科研成果2018年年终总结全文翻译如下。
谷歌资深Fellow、高级副总裁、谷歌AI负责人JeffDean
道德准则和AI
造福整个社会的AI
洪水预警系统已经在印度的部分地区投入使用
另一个例子是我们研究如何预测地震的余震,我们展示了机器学习模型预测余震地址可以比传统的基于物理模型的方法准确得多。这项研究还有一个也许影响更为深远的方面,那就是因为我们设计的机器学习模型是具备可解释性的,科学家们得以在这个模型的帮助下对余震的活动作出更好的观察,这不仅让余震的预测变得更加准确,也让我们对余震本身有了更好的了解。
谷歌之外也有许多我们的伙伴。许多研究者和谷歌的研究员、工程师一起借助TensorFlow之类的开源软件钻研各种各样的科学和社会学问题,比如用CNN识别座头鲸的声音,发现新的系外行星,识别生病的木薯等等。
为了鼓励这个领域产生更多的新点子,我们与Google.org一同发起了「谷歌AI社会影响竞赛」,参加比赛的个人和组织研究需要一些从想法转化为现实之后可能会带来重大社会影响的项目,然后他们可以获得总数为2500万美元的资助资金,而且可以获得谷歌研究科学家、工程师、其它专家的指导。
辅助性技术
量子计算
位于SantaBarbara的谷歌量子AI实验室中,研究科学家MarissaGiustina正在安装一块Bristlecone芯片
自然语言处理
在极具挑战的GLUEbenchmark中,相比之前的最佳水平模型,BERT把分数的绝对值提升了7.6%
除了和许多谷歌内部的产品团队合作开发了上文提到的SmartCompose和Duplex之外,我们也探索改进了谷歌助手,让它能够更好地处理多语言混用的场景。我们的最终目的是希望所有的用户都可以与它自然地用语言交流。
感知
谷歌Lens可以帮助你更好地了解身边的世界。比如,Lens就分辨出了这条小狗的种类
计算图像学
在过去的几年中,手机摄像头画质以及易用性的提升可以说是叹为观止。其中一部分改进自然来自于手机摄像头使用的感光器越来越先进,但同时更大的功劳在于计算图像学领域的科学技术改进。我们谷歌的研究团队发表了自己的最新研究成果,也和谷歌的安卓系统团队、消费级硬件团队紧密协作,把这项成果搭载在最新的Pixel手机以及其它的设备上,并最终送达用户手中。早在2014年,我们就发布了HDR+技术,它让手机快速连拍多张曝光不同的照片,然后在软件中对齐这几张照片,并通过计算软件把它们合并为一张照片。最初HDR+的设计目的是让照片具有比只拍一张照片更大的动态范围,后来,快速连拍多张照片并基于它们做计算性分析已经成了一种通用的模式,2018年的手机摄像头基于这种模式开发了更多的功能,比如Pixel2手机中的运动照片,以及动作静止照片中的增强现实模式。
今年,我们在计算图像学研究上的主要努力是为手机摄像头开发了一种新的能力,夜视,可以让Pixel手机在夜里看得更清晰,这项功能也获得了媒体和用户的一致好评。当然了,夜视仅仅是谷歌团队开发的帮助用户拍出完美照片的众多功能之一,这些功能都基于软件、服务于摄像头,它们包括:用机器学习带来更好的人像模式照片,通过超级清晰变焦看得更清楚、更远,以及用TopShot和谷歌Clips捕捉特殊瞬间。
左:iPhoneXS;右:带有夜视功能的Pixel3手机
算法与理论
软件系统
TF排序库支持多项目评分架构,是传统的多项目评分的拓展
AutoML
AutoML也被称作「元学习」,主要通过机器学习方式让机器学习的某些方面实现「自动化」。多年来我们一直在该领域进行研究,目标是开发出一个懂得借鉴过往积累的见解与能力,进而自动发现并解决新问题的系统。早期我们使用得最多的是强化学习,如今我们也将目光锁定在了进化算法上。去年,我们向大家展示了如何通过进化算法为视觉任务自动发掘最先进的神经网络架构。此外,我们也探索了强化学习在神经网络架构检索以外的更多作用,最后成功证明可用于下列问题的解决上:
1)自动生成图像变换序列,提高各种图像模型的准确性;
2)找到一种全新的符号优化表达形式,比起常用的优化规则效果更好。
我们在AdaNet的工作展示了如何创建一个学习效果有保障、使用上快速灵活的AutoML算法。
AdaNet自适应地增强了神经网络的集成。它在每次迭代的过程中计算每个候选者的集合损失,再从中挑选最优秀的候选者进入下一轮迭代。
TPUs
TensorProcessingUnits(TPUs)是谷歌内部自主研发的ML硬件加速器,最开始的设计初衷就是为了用于大规模的训练与推理上。TPUs让谷歌的许多研究得以实现突破,比如广为人知的BERT(前文提过),此外,通过开源的方式,它能让世界各地的研究人员对谷歌的研究进行拓展并实现突破。最典型的例子,任何人都可以通过Colab免费在TPUs上对BERT进行微调,这里要提一下TensorFlowResearchCloud,它使数以千计的研究人员得以从大体量的免费云TPU供给的计算能力中受惠。此外,我们还将多代TPU硬件作为商用云TPUs对外出售,其中包括被称作CloudTPUPod的ML超级计算机,这使大规模的ML训练服务变得触手可及。仅就谷歌内部而言,除了让ML研究取得快速进步,TPUs还推动了谷歌核心产品的重大改进,其中包括谷歌检索、YouTube、Gmail、Google智能助理和谷歌翻译等。我们期待看到来自谷歌内部和其他地方的ML团队可以通过TPUs,以其前所未有的计算规模在ML领域取得更多突破。
单个TPUv3设备(左)与TPUv3Pod的部分部件展示(右)。TPUv3是谷歌最新一代的TensorProcessingUnit(TPU)硬件。它以云TPUv3的形式对外出售,采用液体冷却技术以获得最佳性能(计算机芯片+液体=太有意思了!),而完整的TPUv3Pod将可以为全球最大的ML任务提供高达100petaflops的计算能力。
开源软件与数据集
发布开源软件与创建全新的公共数据集,是我们为软件工程研究社区做贡献的最主要两种方式。这方面我们最大的贡献之一要属TensorFlow,这是一款发布于2015年11月的ML计算系统,这些年来倍受欢迎。2018年我们刚为TensorFlow庆祝完第3个生日,这期间TensorFlow已经被被下载超过3000万次,且有超过1700名的贡献者添加了45000次的commits。我们在2018年为TensorFlow更新了8个主要版本,增加了动态图机制和分发策略等主要功能。在研发过程中,我们启动了吸引社区注意力的公众设计评审活动,通过组建特殊兴趣小组留住贡献者。随着TensorFlowLite、TensorFlow.js和TensorFlowProbability等产品的相继推出,TensorFlow生态系统也在2018年迎来了大幅增长。
我们很高兴得知TensorFlow作为顶级机器学习和深度学习框架在Github上拥有强大的号召力。TensorFlow团队也一直致力于实现快速解决Github上存在的问题,为外部贡献者提供更顺畅的操作通道。根据谷歌学术检索,我们已公开发表的论文持续为全世界的大部分机器学习和深度学习研究提供了有效支持。TensorFlowLite仅推出1年,便在全球超过15亿的设备上获得使用;成为JavaScript使用排名第一的ML框架;同时在对外放出的短短9个月内,已在Github获得超过2百万次的内容分发网络(CDN)点击量、20.5万次下载量以及超过1万次的星星点亮。
除了继续耕耘现有的开源生态系统,2018年我们还做了以下事情:
引入一个用于灵活、可再现强化学习的全新框架
引入一个可以快速习得数据集特征的可视化工具(无需编写任何代码)
增加一个涉及learning-to-rank算法(以最大化整个列表效用的方式对项目列表进行排序的过程,适用于包括搜索引擎、推荐系统、机器翻译、对话系统甚至是计算生物学等领域)的高级机器学习问题库
发布一个快速、灵活的AutoML解决方案框架
发布一个通过TensorFlow.js执行浏览器实时t-SNE可视化工作的库
增加用于处理电子医疗数据(会在本文医疗保障环节提到)的FHIR工具&软件
通过Crowdsource软件添加到OpenImagesExtended的图片(源自印度&新加坡)
我们时不时还会给研究界树立新挑战,以便聚合大家一同来解决棘手的研究问题。一般来说,我们会通过发布新的数据集来达到这个目的,但也有例外的时候。比如今年,我们就围绕包容性图像挑战赛制定了全新的挑战,致力于创造免除偏见、更具鲁棒性的模型;iNaturalist2018挑战赛旨在让计算机得以细致区分物体的类别(如图像中的植物种类);在Kaggle上发起的"Quick,Draw!"DoodleRecognition挑战赛试图为QuickDraw游戏创建更好的分类器;还有ConceptualCaptions作为大规模的图像字幕数据集挑战赛,旨在推动更好的图像字幕模型研究。
机器人学
2018年,我们在理解机器学习如何教机器人行动这个目标方面取得了重大进展,在教机器人掌握新事物的能力方面达到了新的里程碑(2018年CORL的最佳系统论文)。我们还通过结合机器学习和基于采样的方法(2018年ICRA的最佳服务机器人论文)以及研究机器人的几何构造,在机器人运动学习方面取得了进展。我们在机器人通过自主观察更好地感知世界结构这一能力上取得了很大的进步。我们第一次成功地在真正的机器人上在线训练了深层强化学习模型,并且正在寻找新的理论方法,学习控制机器人的稳定方法。
人工智能在其他领域的应用
2018年,我们将深度学习应用于物理和生物科学的一系列问题中。使用深度学习,我们可以为科学家提供相当于数以百计的挖掘数据研究助理,从而提高他们的创造力和生产力。
我们关于神经元高精度自动重建的论文提出了一个新的模型,与以前的深度学习技术相比,它将连接体数据(connectomicsdata)自动解释的准确性提高了一个数量级。
图为我们的算法正在跟踪鸣禽大脑中的一个神经突触
将机器学习应用于科学的其他一些示例有:
通过对恒星的光曲线数据进行挖掘,发现太阳系外的新行星
识别短DNA序列的起源或功能
自动检测离焦显微镜图像
用数字技术构建同一个细胞带有污点的图像
自动绘制肽链的质谱分析图
在Fiji(图像J)里面,一个TensorFlow模型对显微镜细胞拼接图像的聚焦质量进行了评估。边界的色调表示预测的焦点质量,边界亮度表示预测的不确定性。
健康
在过去的几年中,我们一直在将机器学习应用于健康领域,这一领域影响着我们每一个人,我们相信通过机器学习可以增强专业医疗人员的直觉和经验,从而为医疗领域带来巨大的改变。我们一般会与医疗保健组织合作,解决基础研究问题(利用临床专家的反馈使我们的结果更加可信),然后将结果发表在权威的同行评审的科学和临床期刊上。一旦研究得到临床和科学验证,我们就进行用户和HCI研究,以了解在现实的临床环境中如何部署它。2018年,我们将临床任务预测也纳入了计算机辅助诊断的领域。
在2016年底,我们发表的研究表明,在一项回顾性研究中,接受过糖尿病视网膜病变体征视网膜底图像评估训练的模型在这项任务中的表现比美国医学委员会认证的眼科医师略好。2018年,我们能够证明,通过让视网膜专家对培训图像进行标记,并使用一个判定方案(在该方案中,多个视网膜专家聚集在一起,对每个眼底图像进行一次单独的集体评估),我们可以得出一个与视网膜专家相当的模型。后来,我们发表了一份评估报告,展示了眼科医生如何利用这种机器学习模型,使他们做出比单独做出比不使用机器学习时更准确的决定。我们已经在印度的Aravind眼科医院和泰国卫生部附属的Rajavithi医院等10多个地点与我们Alphabet的同事合作,共同部署了这种糖尿病视网膜病变检测系统。
左侧是一张视网膜眼底图像,被眼科专家评审小组评定为中度DR(「MO」)。右上角是模型预测得分的图示(「N」=无DR,「MI」=轻度DR,「MO」=中度DR)。右下角是医生在没有帮助的情况下给出的一组分数。
我们还发表了一个机器学习模型的研究,这个模型可以通过视网膜图像评估心血管病患病风险。这是一种新型的无创生物标记方法,它可以帮助临床医生更好地了解患者的健康状况。
在将机器学习应用于历史收集的数据时,重要的是要了解过去经历过人类结构偏差的人群,以及这些偏差是如何在数据中编码的。机器学习提供了一个机会来检测和解决偏见,并积极推进健康公平,这也正是我们正在努力推进的一个方面。
研究推广
每年,我们还通过我们的GoogleFacultyResearchAwards计划为一些研究项目的教员和学生提供支持。2018年,我们还继续在谷歌(Google)为特定领域的教职员工和学生举办研讨会,包括在印度班加罗尔办事处举办的人工智能/机器学习研究与实践研讨会、在苏黎世办事处举办的算法与优化研讨会、在桑尼维尔举办的机器学习医疗保健应用研讨会、在剑桥举办了关于公平与偏见的研讨会。
我们认为,公开向对广泛的研究群体作出贡献是支持健康、高效的研究环境的关键部分。除了开放源代码和发布数据集之外,我们的大部分研究成果都在顶级会议和期刊上公开发布,我们还积极参与各种不同学科范围的会议组织和赞助。我们参与了ICLR2018、NAACL2018、ICML2018、CVPR2018、NEURIPS2018、ECCV2018和EMNLP2018。同时,2018年谷歌还广泛参与了ASPLOS、HPCA、ICSE、IEEESecurity&Privacy、OSDI、SIGCOMM等会议。
新地方,新面孔
2018年,我们很高兴地迎来了许多具有不同背景的新人加入我们的研究机构。我们宣布成立在非洲的第一个人工智能研究实验室,它位于加纳共和国的首都阿克拉。我们扩大了在巴黎、东京和阿姆斯特丹的人工智能实验室规模,并在普林斯顿开设了一个研究实验室。我们将继续在全球各地的办公室招聘人才,您可以了解更多有关加入我们的信息。
展望2019年
这篇博文只总结了2018年我们进行的研究的一小部分。回顾2018年,我们为我们所取得成就的广度和深度感到兴奋和自豪。2019年,我们期待对谷歌的方向和产品产生更大的影响,也期待着对更广泛的研究和工程界产生更大的影响!