开通VIP,畅享免费电子书等14项超值服
首页
好书
留言交流
下载APP
联系客服
2020.02.08
2019年3月27日——ACM宣布,深度学习的三位创造者YoshuaBengio,YannLeCun,以及GeoffreyHinton获得了2019年的图灵奖。
一、简介及获奖理由
简介:杰弗里·欣顿(GeofferyHinton),在爱丁堡大学获得人工智能博士学位。现任谷歌副总裁、工程研究员、多伦多人工智能矢量研究所首席科学顾问、多伦多大学名誉教授。他是加拿大先进研究院神经计算和自适应项目(NeuralComputationandAdaptivePerceptionProgram)的创始人,还获得了包括加拿大最高荣誉勋章(CompanionoftheOrderofCanada)、英国皇家学会成员、美国工程院外籍院士、人工智能国际联合会(IJCAI)杰出研究奖、IEEE詹姆斯·克拉克·麦克斯韦金奖(IEEEJamesClerkMaxwellGoldMedal)等一系列荣誉。2017年被彭博社(Bloomberg)评为改变全球商业格局的50人之一。
主要贡献:在ACM的公告中,Hinton最重要的贡献来自他1986年发明反向传播的论文“LearningInternalRepresentationsbyErrorPropagation”,1983年发明的玻尔兹曼机(BoltzmannMachines),以及2012年对卷积神经网络的改进。Hinton和他的学生AlexKrizhevsky以及IlyaSutskever通过RectifiedLinearNeurons和DropoutRegularization改进了卷积神经网络,并在著名的ImageNet评测中取得了很好的成绩,在计算机视觉领域掀起一场革命。
简介:约书亚·本希奥(YoshuaBengio),在加拿大麦吉尔大学取得计算机博士学位。现为加拿大蒙特利尔大学教授、加拿大数据定价中心主任(IVADO)、蒙特利尔学习算法研究中心(Mila)科学主任、加拿大先进研究院主任。同时,他与杨立昆一起担任加拿大先进研究院机器与大脑学习项目的主管。他创建了目前世界上最大的深度学习研究中心——蒙特利尔学习算法研究中心(MILA),使蒙特利尔成为世界上人工智能研究最为活跃的地区之一,引来大批公司和研究室入驻。
主要贡献:Bengio的贡献主要在1990年代发明的Probabilisticmodelsofsequences。他把神经网络和概率模型(例如隐马尔可夫模型)结合在一起,并和AT&T公司合作,用新技术识别手写的支票。现代深度学习技术中的语音识别也是这些概念的扩展。此外Bengio还于2000年还发表了划时代的论文“ANeuralProbabilisticLanguageModel”,使用高维词向量来表征自然语言。他的团队还引入了注意力机制,让机器翻译获得突破,也成为了让深度学习处理序列的重要技术。
简介:杨立昆(YannLeCun),在法国皮埃尔和玛丽·居里大学获得计算机科学博士学位。现任纽约大学柯朗数学科学研究所Silver冠名教授、Facebook公司人工智能首席科学家、副总裁。他获得了包括美国工程院院士、IEEE神经网络先锋奖(IEEENeuralNetworkPioneerAward)等一系列荣誉。他还是纽约大学数据科学中心的创始人,与约书亚·本希奥一起担任加拿大先进研究院机器与大脑学习项目的主管。
深度学习可以让那些拥有多个处理层的计算模型来学习具有多层次抽象的数据的表示。这些方法在许多方面都带来了显著的改善,包括最先进的语音识别、视觉对象识别、对象检测和许多其它领域,例如药物发现和基因组学等。深度学习能够发现大数据中的复杂结构。它是利用BP算法来完成这个发现过程的。BP算法能够指导机器如何从前一层获取误差而改变本层的内部参数,这些内部参数可以用于计算表示。深度卷积网络在处理图像、视频、语音和音频方面带来了突破,而递归网络在处理序列数据,比如文本和语音方面表现出了闪亮的一面。
机器学习技术在现代社会的各个方面表现出了强大的功能:从Web搜索到社会网络内容过滤,再到电子商务网站上的商品推荐都有涉足。并且它越来越多地出现在消费品中,比如相机和智能手机。
几十年来,想要构建一个模式识别系统或者机器学习系统,需要一个精致的引擎和相当专业的知识来设计一个特征提取器,把原始数据(如图像的像素值)转换成一个适当的内部特征表示或特征向量,子学习系统,通常是一个分类器,对输入的样本进行检测或分类。特征表示学习是一套给机器灌入原始数据,然后能自动发现需要进行检测和分类的表达的方法。
深度学习就是一种特征学习方法,把原始数据通过一些简单的但是非线性的模型转变成为更高层次的,更加抽象的表达。通过足够多的转换的组合,非常复杂的函数也可以被学习。
深度学习的核心方面是,上述各层的特征都不是利用人工工程来设计的,而是使用一种通用的学习过程从数据中学到的。
深度学习正在取得重大进展,解决了人工智能界的尽最大努力很多年仍没有进展的问题。它已经被证明,它能够擅长发现高维数据中的复杂结构,因此它能够被应用于科学、商业和政府等领域。除了在图像识别、语音识别等领域打破了纪录,它还在另外的领域击败了其他机器学习技术,包括预测潜在的药物分子的活性、分析粒子加速器数据、重建大脑回路、预测在非编码DNA突变对基因表达和疾病的影响。
也许更令人惊讶的是,深度学习在自然语言理解的各项任务中产生了非常可喜的成果,特别是主题分类、情感分析、自动问答和语言翻译。我们认为在不久的将来,深度学习将会取得更多的成功,因为它需要很少的手工工程,它可以很容易受益于可用计算能力和数据量的增加。目前正在为深度神经网络开发的新的学习算法和架构只会加速这一进程。
机器学习中,不论是否是深层,最常见的形式是监督学习。
试想一下,我们要建立一个系统,它能够对一个包含了一座房子、一辆汽车、一个人或一个宠物的图像进行分类。我们先收集大量的房子,汽车,人与宠物的图像的数据集,并对每个对象标上它的类别。在训练期间,机器会获取一副图片,然后产生一个输出,这个输出以向量形式的分数来表示,每个类别都有一个这样的向量。我们希望所需的类别在所有的类别中具有最高的得分,但是这在训练之前是不太可能发生的。通过计算一个目标函数可以获得输出分数和期望模式分数之间的误差(或距离)。然后机器会修改其内部可调参数,以减少这种误差。这些可调节的参数,通常被称为权值,它们是一些实数,可以被看作是一些“旋钮”,定义了机器的输入输出功能。
在典型的深学习系统中,有可能有数以百万计的样本和权值,和带有标签的样本,用来训练机器。为了正确地调整权值向量,该学习算法计算每个权值的梯度向量,表示了如果权值增加了一个很小的量,那么误差会增加或减少的量。权值向量然后在梯度矢量的相反方向上进行调整。我们的目标函数,所有训练样本的平均,可以被看作是一种在权值的高维空间上的多变地形。负的梯度矢量表示在该地形中下降方向最快,使其更接近于最小值,也就是平均输出误差低最低的地方。
在实际应用中,大部分从业者都使用一种称作随机梯度下降的算法(SGD)。它包含了提供一些输入向量样本,计算输出和误差,计算这些样本的平均梯度,然后相应的调整权值。通过提供小的样本集合来重复这个过程用以训练网络,直到目标函数停止增长。它被称为随机的是因为小的样本集对于全体样本的平均梯度来说会有噪声估计。这个简单过程通常会找到一组不错的权值,同其他精心设计的优化技术相比,它的速度让人惊奇。训练结束之后,系统会通过不同的数据样本——测试集来显示系统的性能。这用于测试机器的泛化能力——对于未训练过的新样本的识别能力。
当前应用中的许多机器学习技术使用的是线性分类器来对人工提取的特征进行分类。一个2类线性分类器会计算特征向量的加权和。当加权和超过一个阈值之后,输入样本就会被分配到一个特定的类别中。从20世纪60年代开始,我们就知道了线性分类器只能够把样本分成非常简单的区域,也就是说通过一个超平面把空间分成两部分。
图1多层神经网络和BP算法
2.链式法则告诉我们两个小的变化(x和y的微小变化,以及y和z的微小变化)是怎样组织到一起的。x的微小变化量Δx首先会通过乘以y/x(偏导数)转变成y的变化量Δy。类似的,Δy会给z带来改变Δz。通过链式法则可以将一个方程转化到另外的一个——也就是Δx通过乘以y/x和z/y(英文原文为z/x,系笔误——编辑注)得到Δz的过程。当x,y,z是向量的时候,可以同样处理(使用雅克比矩阵)。
3.具有两个隐层一个输出层的神经网络中计算前向传播的公式。每个都有一个模块构成,用于反向传播梯度。在每一层上,我们首先计算每个节点的总输入z,z是前一层输出的加权和。然后利用一个非线性函数f(.)来计算节点的输出。简单期间,我们忽略掉了阈值项。神经网络中常用的非线性函数包括了最近几年常用的校正线性单元(ReLU)f(z)=max(0,z),和更多传统sigmoid函数,比如双曲线正切函数f(z)=(exp(z)exp(z))/(exp(z)+exp(z))和logistic函数f(z)=1/(1+exp(z))。
4.计算反向传播的公式。在隐层,我们计算每个输出单元产生的误差,这是由上一层产生的误差的加权和。然后我们将输出层的误差通过乘以梯度f(z)转换到输入层。在输出层上,每个节点的误差会用成本函数的微分来计算。如果节点l的成本函数是0.5*(yl-tl)^2,那么节点的误差就是yl-tl,其中tl是期望值。一旦知道了E/zk的值,节点j的内星权向量wjk就可以通过yjE/zk来进行调整。
一个线性分类器或者其他操作在原始像素上的浅层分类器不能够区分后两者,虽然能够将前者归为同一类。这就是为什么浅分类要求有良好的特征提取器用于解决选择性不变性困境——提取器会挑选出图像中能够区分目标的那些重要因素,但是这些因素对于分辨动物的位置就无能为力了。为了加强分类能力,可以使用泛化的非线性特性,如核方法,但这些泛化特征,比如通过高斯核得到的,并不能够使得学习器从学习样本中产生较好的泛化效果。
传统的方法是手工设计良好的特征提取器,这需要大量的工程技术和专业领域知识。但是如果通过使用通用学习过程而得到良好的特征,那么这些都是可以避免的了。这就是深度学习的关键优势。
深度学习的体系结构是简单模块的多层栈,所有(或大部分)模块的目标是学习,还有许多计算非线性输入输出的映射。栈中的每个模块将其输入进行转换,以增加表达的可选择性和不变性。比如说,具有一个5到20层的非线性多层系统能够实现非常复杂的功能,比如输入数据对细节非常敏感——能够区分白狼和萨莫耶德犬,同时又具有强大的抗干扰能力,比如可以忽略掉不同的背景、姿势、光照和周围的物体等。
在最早期的模式识别任务中,研究者的目标一直是使用可以训练的多层网络来替代经过人工选择的特征,虽然使用多层神经网络很简单,但是得出来的解很糟糕。直到20世纪80年代,使用简单的随机梯度下降来训练多层神经网络,这种糟糕的情况才有所改变。只要网络的输入和内部权值之间的函数相对平滑,使用梯度下降就凑效,梯度下降方法是在70年代到80年代期间由不同的研究团队独立发明的。用来求解目标函数关于多层神经网络权值梯度的反向传播算法(BP)只是一个用来求导的链式法则的具体应用而已。
反向传播算法的核心思想是:目标函数对于某层输入的导数(或者梯度)可以通过向后传播对该层输出(或者下一层输入)的导数求得(如图1)。
反向传播算法可以被重复的用于传播梯度通过多层神经网络的每一层:从该多层神经网络的最顶层的输出(也就是改网络产生预测的那一层)一直到该多层神经网络的最底层(也就是被接受外部输入的那一层),一旦这些关于(目标函数对)每层输入的导数求解完,我们就可以求解每一层上面的(目标函数对)权值的梯度了。
很多深度学习的应用都是使用前馈式神经网络(如图1),该神经网络学习一个从固定大小输入(比如输入是一张图)到固定大小输出(例如,到不同类别的概率)的映射。从第一层到下一层,计算前一层神经元输入数据的权值的和,然后把这个和传给一个非线性激活函数。当前最流行的非线性激活函数是rectifiedlinearunit(ReLU),函数形式:f(z)=max(z,0)。过去的几十年中,神经网络使用一些更加平滑的非线性函数,比如tanh(z)和1/(1+exp(-z)),但是ReLU通常会让一个多层神经网络学习的更快,也可以让一个深度网络直接有监督的训练(不需要无监督的pre-train)。
达到之前那种有pre-train的效果。通常情况下,输入层和输出层以外的神经单元被称为隐藏单元。隐藏层的作用可以看成是使用一个非线性的方式打乱输入数据,来让输入数据对应的类别在最后一层变得线性可分。
在20世纪90年代晚期,神经网络和反向传播算法被大多数机器学习团队抛弃,同时也不受计算机视觉和语音识别团队的重视。
人们普遍认为,学习有用的、多级层次结构的、使用较少先验知识进行特征提取的这些方法都不靠谱。确切的说是因为简单的梯度下降会让整个优化陷入到不好的局部最小解。
实践中,如果在大的网络中,不管使用什么样的初始化条件,局部最小解并不算什么大问题,系统总是得到效果差不多的解。最近的理论和实验表明,局部最小解还真不是啥大问题。相反,解空间中充满了大量的鞍点(梯度为0的点),同时鞍点周围大部分曲面都是往上的。所以这些算法就算是陷入了这些局部最小值,关系也不太大。
2006年前后,CIFAR(加拿大高级研究院)把一些研究者聚集在一起,人们对深度前馈式神经网络重新燃起了兴趣。研究者们提出了一种非监督的学习方法,这种方法可以创建一些网络层来检测特征而不使用带标签的数据,这些网络层可以用来重构或者对特征检测器的活动进行建模。通过预训练过程,深度网络的权值可以被初始化为有意思的值。然后一个输出层被添加到该网络的顶部,并且使用标准的反向传播算法进行微调。这个工作对手写体数字的识别以及行人预测任务产生了显著的效果,尤其是带标签的数据非常少的时候。
从2009年到到2012年底,较大的语音团队开发了这种深度网络的多个版本并且已经被用到了安卓手机上。对于小的数据集来说,无监督的预训练可以防止过拟合,同时可以带来更好的泛化性能当有标签的样本很小的时候。一旦深度学习技术重新恢复,这种预训练只有在数据集合较少的时候才需要。
然后,还有一种深度前馈式神经网络,这种网络更易于训练并且比那种全连接的神经网络的泛化性能更好。这就是卷积神经网络(CNN)。当人们对神经网络不感兴趣的时候,卷积神经网络在实践中却取得了很多成功,如今它被计算机视觉团队广泛使用。
卷积神经网络被设计用来处理到多维数组数据的,比如一个有3个包含了像素值2-D图像组合成的一个具有3个颜色通道的彩色图像。很多数据形态都是这种多维数组的:1D用来表示信号和序列包括语言,2D用来表示图像或者声音,3D用来表示视频或者有声音的图像。卷积神经网络使用4个关键的想法来利用自然信号的属性:局部连接、权值共享、池化以及多网络层的使用。
图2卷积神经网络内部
一个典型的卷积神经网络结构(如图2)是由一系列的过程组成的。最初的几个阶段是由卷积层和池化层组成,卷积层的单元被组织在特征图中,在特征图中,每一个单元通过一组叫做滤波器的权值被连接到上一层的特征图的一个局部块,然后这个局部加权和被传给一个非线性函数,比如ReLU。在一个特征图中的全部单元享用相同的过滤器,不同层的特征图使用不同的过滤器。使用这种结构处于两方面的原因。
卷积层的作用是探测上一层特征的局部连接,然而池化层的作用是在语义上把相似的特征合并起来,这是因为形成一个主题的特征的相对位置不太一样。一般地,池化单元计算特征图中的一个局部块的最大值,相邻的池化单元通过移动一行或者一列来从小块上读取数据,因为这样做就减少的表达的维度以及对数据的平移不变性。两三个这种的卷积、非线性变换以及池化被串起来,后面再加上一个更多卷积和全连接层。在卷积神经网络上进行反向传播算法和在一般的深度网络上是一样的,可以让所有的在过滤器中的权值得到训练。
20世纪90年代以来,基于卷积神经网络出现了大量的应用。最开始是用时延神经网络来做语音识别以及文档阅读。这个文档阅读系统使用一个被训练好的卷积神经网络和一个概率模型,这个概率模型实现了语言方面的一些约束。20世纪90年代末,这个系统被用来美国超过10%的支票阅读上。后来,微软开发了基于卷积神经网络的字符识别系统以及手写体识别系统。20世纪90年代早期,卷积神经网络也被用来自然图形中的物体识别,比如脸、手以及人脸识别(facerecognition)。
21世纪开始,卷积神经网络就被成功的大量用于检测、分割、物体识别以及图像的各个领域。这些应用都是使用了大量的有标签的数据,比如交通信号识别,生物信息分割,面部探测,文本、行人以及自然图形中的人的身体部分的探测。近年来,卷积神经网络的一个重大成功应用是人脸识别。
图3从图像到文字
尽管卷积神经网络应用的很成功,但是它被计算机视觉以及机器学习团队开始重视是在2012年的ImageNet竞赛。在该竞赛中,深度卷积神经网络被用在上百万张网络图片数据集,这个数据集包含了1000个不同的类。该结果达到了前所未有的好,几乎比当时最好的方法降低了一半的错误率。这个成功来自有效地利用了GPU、ReLU、一个新的被称为dropout的正则技术,以及通过分解现有样本产生更多训练样本的技术。这个成功给计算机视觉带来一个革命。如今,卷积神经网络用于几乎全部的识别和探测任务中。最近一个更好的成果是,利用卷积神经网络结合回馈神经网络用来产生图像标题。
基于卷积神经网络的视觉系统的性能已经引起了大型技术公司的注意,比如Google、Facebook、Microsoft、IBM,yahoo!、Twitter和Adobe等,一些快速增长的创业公司也同样如是。
卷积神经网络很容易在芯片或者现场可编程门阵列(FPGA)中高效实现,许多公司比如NVIDIA、Mobileye、Intel、Qualcomm以及Samsung,正在开发卷积神经网络芯片,以使智能机、相机、机器人以及自动驾驶汽车中的实时视觉系统成为可能。
多层神经网络中的隐层利用网络中输入的数据进行特征学习,使之更加容易预测目标输出。下面是一个很好的示范例子,比如将本地文本的内容作为输入,训练多层神经网络来预测句子中下一个单词。内容中的每个单词表示为网络中的N分之一的向量,也就是说,每个组成部分中有一个值为1其余的全为0。在第一层中,每个单词创建不同的激活状态,或单词向量(如图4)。
在语言模型中,网络中其余层学习并转化输入的单词向量为输出单词向量来预测句子中下一个单词,可以通过预测词汇表中的单词作为文本句子中下一个单词出现的概率。网络学习了包含许多激活节点的、并且可以解释为词的独立特征的单词向量,正如第一次示范的文本学习分层表征文字符号的例子。这些语义特征在输入中并没有明确的表征。而是在利用“微规则”(‘micro-rules’,本文中直译为:微规则)学习过程中被发掘,并作为一个分解输入与输出符号之间关系结构的好的方式。
当句子是来自大量的真实文本并且个别的微规则不可靠的情况下,学习单词向量也一样能表现得很好。利用训练好的模型预测新的事例时,一些概念比较相似的词容易混淆,比如星期二(Tuesday)和星期三(Wednesday),瑞典(Sweden)和挪威(Norway)。这样的表示方式被称为分布式特征表示,因为他们的元素之间并不互相排斥,并且他们的构造信息对应于观测到的数据的变化。这些单词向量是通过学习得到的特征构造的,这些特征不是由专家决定的,而是由神经网络自动发掘的。从文本中学习得单词向量表示现在广泛应用于自然语言中。
图4词向量学习可视化
图5递归神经网络
由于先进的架构和训练方式,RNNs被发现可以很好的预测文本中下一个字符或者句子中下一个单词,并且可以应用于更加复杂的任务。例如在某时刻阅读英语句子中的单词后,将会训练一个英语的“编码器”网络,使得隐式单元的最终状态向量能够很好地表征句子所要表达的意思或思想。这种“思想向量”(thoughtvector)可以作为联合训练一个法语“编码器”网络的初始化隐式状态(或者额外的输入),其输出为法语翻译首单词的概率分布。如果从分布中选择一个特殊的首单词作为编码网络的输入,将会输出翻译的句子中第二个单词的概率分布,并直到停止选择为止。总体而言,这一过程是根据英语句子的概率分布而产生的法语词汇序列。这种简单的机器翻译方法的表现甚至可以和最先进的(state-of-the-art)的方法相媲美,同时也引起了人们对于理解句子是否需要像使用推理规则操作内部符号表示质疑。这与日常推理中同时涉及到根据合理结论类推的观点是匹配的。
类比于将法语句子的意思翻译成英语句子,同样可以学习将图片内容“翻译”为英语句子(如图3)。这种编码器是可以在最后的隐层将像素转换为活动向量的深度卷积网络(ConvNet)。解码器与RNNs用于机器翻译和神经网络语言模型的类似。近来,已经掀起了一股深度学习的巨大兴趣热潮(参见文献[86]提到的例子)。
RNNs一旦展开(如图5),可以将之视为一个所有层共享同样权值的深度前馈神经网络。虽然它们的目的是学习长期的依赖性,但理论的和经验的证据表明很难学习并长期保存信息。
过去几年中,几位学者提出了不同的提案用于增强RNNs的记忆模块。提案中包括神经图灵机,其中通过加入RNNs可读可写的“类似磁带”的存储来增强网络,而记忆网络中的常规网络通过联想记忆来增强。记忆网络在标准的问答基准测试中表现良好,记忆是用来记住稍后要求回答问题的事例。
除了简单的记忆化,神经图灵机和记忆网络正在被用于那些通常需要推理和符号操作的任务,还可以教神经图灵机“算法”。除此以外,他们可以从未排序的输入符号序列(其中每个符号都有与其在列表中对应的表明优先级的真实值)中,学习输出一个排序的符号序列。可以训练记忆网络用来追踪一个设定与文字冒险游戏和故事的世界的状态,回答一些需要复杂推理的问题。在一个测试例子中,网络能够正确回答15句版的《指环王》中诸如“Frodo现在在哪?”的问题。
无监督学习对于重新点燃深度学习的热潮起到了促进的作用,但是纯粹的有监督学习的成功盖过了无监督学习。在本篇综述中虽然这不是我们的重点,我们还是期望无监督学习在长期内越来越重要。无监督学习在人类和动物的学习中占据主导地位:我们通过观察能够发现世界的内在结构,而不是被告知每一个客观事物的名称。
人类视觉是一个智能的、基于特定方式的利用小或大分辨率的视网膜中央窝与周围环绕区域对光线采集成像的活跃的过程。我们期望未来在机器视觉方面会有更多的进步,这些进步来自那些端对端的训练系统,并结合ConvNets和RNNs,采用增强学习来决定走向。结合了深度学习和增强学习的系统正处在初期,但已经在分类任务中超过了被动视频系统,并在学习操作视频游戏中产生了令人印象深刻的效果。
在未来几年,自然语言理解将是深度学习做出巨大影响的另一个领域。我们预测那些利用了RNNs的系统将会更好地理解句子或者整个文档,当它们选择性地学习了某时刻部分加入的策略。
蒙特利尔大学计算机科学系教授YoshuaBengio
从法国来到加拿大的时候,YoshuaBengio只有12岁。他在加拿大度过了学生时代的大部分时光,在麦吉尔大学的校园中接受了从本科到博士的完整高等教育,随后又前往麻省理工学院和贝尔实验室做博士后。1993年,他重回蒙特利尔,加入离麦吉尔大学不远的蒙特利尔大学担任计算机科学与运筹学系教授,继续潜心进行深度学习的研究。
从80年代到今天,深度学习从不被大多数人看好的“痴心妄想”,到席卷包括自然语言处理、计算机视觉、语音识别在内的几乎所有人工智能领域,其影响力已经全面覆盖了学术界、产业界以及人们的日常生活。YoshuaBengio几十年如一日的坚守,证明了深度学习所蕴含的、足以影响我们每个人生活的巨大价值。
深度学习的元老,超过137,000次学术引用,“AI圣经”《DeepLearning》等一系列教科书级著作的作者,笑起来极富表现力的眉毛,这些是YoshuaBengio大神给人们留下的标志性印象。
深度学习的先驱
上世纪八九十年代的AI唱衰者们不会预料到深度学习在二十一世纪的成功。作为早期开拓者中的一员,YoshuaBengio也历经了漫长的“AI寒冬”,在上世纪末的三十年中,人工智能曾两度陷入历史的最低谷。
在YoshuaBengio上大学的八十年代,深度学习在计算机科学中属于非常冷门的理论,符号主义的经典学派占据着学界与大学课堂的主流,但YoshuaBengio这位独树一帜的学生却偏偏对深度学习产生了强烈的兴趣。用神经网络模拟人脑,用机器学习去揭开人类智慧诞生的奥秘,这对Bengio来说有着巨大的吸引力。就这样,Bengio找到了他在接下来的30余年中始终钟情的研究方向。
但是在当时,几乎没有人看好深度学习的工作。因为对同一项任务来说,既然用传统方法能更轻松地达到更好的效果,为什么要费劲去训练神经网络呢?因此,大多数研究者都不愿意从事这一方向。上世界九十年代人们也曾短暂地看到神经网络的希望,但由于数据量和计算能力的限制,希望很快破灭了,神经网络仍然是痴心妄想。但即使人工智能处于低谷,Bengio仍然全身心地投入深度学习研究,不断贡献了许多新的研究成果。
直到2010到2012年,转机才真正出现。随着大数据的崛起和计算能力的大幅增长,突然之间,人们终于看到了深度学习所蕴藏的真正力量,这使得深度学习一下子被推向人们目光的中心。YoshuaBengio在过去20年中原本问津者寥寥的诸多科研积累,也迅速成为了人工智能界讨论的焦点,包括深度学习架构、循环神经网络(RNN)、对抗算法、表征学习等等。这些研究成果影响和启发了后来的大量研究者,将深度学习应用到自然语言处理、计算机视觉等人工智能的各个主要领域,对近年来深度学习的崛起和发展起到了巨大的推动作用。
1994年,在YoshuaBengio与另一位深度学习元老级人物YannLeCun共同完成的《Gradient-basedlearningappliedtodocumentrecognition》论文中,首次提出了用反向传播算法训练的多层神经网络LeNet5,它是世界上最早的也是最著名的卷积神经网络之一。
2016年,YoshuaBengio与IanGoodfellow和AaronCourville共同撰写了《DeepLearning》,这本因封面被人们亲切地称为“花书”的深度学习奠基之作,也成为了人工智能领域不可不读的“圣经”级教材。
包括YoshuaBengio在内的深度学习先驱者们让我们看到了支持长期研究的重要性,他们可贵的研究精神也值得人们敬佩。
虽然眼下深度学习风头正劲,但在几年后甚至几十年后,深度学习还会一直存在吗?在YoshuaBengio看来,人工智能研究者要不断地提出和发展新的想法,这些新想法可能是受到现有技术和概念的启发而诞生的,也将在未来成为新一轮想法的启蒙。他也坦言,虽然人工智能现在已经对社会和人类生活产生了巨大的影响,但在大多数情况下,人工智能表现出的智力还远远不及哺乳动物,人工智能还有太多潜能留待我们去发掘。
无论如何,YoshuaBengio的研究兴趣将始终围绕对智力生成机制的探索,并致力于让人工智能的发展为所有人的利益服务。
教书育人,孵化技术
无论产业界的浪潮多么汹涌,在人工智能的研究大牛纷纷入伙科技公司的时候,YoshuaBengio始终没有离开他位于蒙特利尔大学校园中的三楼办公室。
在这里,他继续潜心科研和教学工作,为人工智能培养了许多杰出的下一代人才。在刚刚进入蒙特利尔大学任教的时候,全校只有YoshuaBengio一位教授从事深度学习算法的研究,他欣然接收所有对深度学习感兴趣的学生,渐渐在蒙特利尔大学组织起研究团队,与学术界建立联系并开展合作。他建立了蒙特利尔学习算法研究所(MontrealInstituteForLearningAlgorithms,MILA)并担任科学主任,并作为联合主席共同进行CIFAR机器与大脑学习项目的研究,也担任着数据评估研究所(Theinstitutefordatavalorization,IVADO)的科学联合主任。
现在,神经网络已经渗入到所有的Facebook产品中,也成为了科技企业竞相研究的领域。
在距离Facebook门洛帕克总部约3000英里之外的曼哈顿中心,有一座米黄色的旧办公楼。在这栋楼里面,一群人正在研究更像是出现在科幻小说中,而不是适用于社交网络的项目。
这个团队是Facebook人工智能(AI)研究团队(FacebookArtificialIntelligenceResearch)。在Facebook内部,这个团队被称为FAIR。
FAIR专注于一个目标:创造跟人类具有同等智商的计算机。尽管这个目标远远没有达到,但该团队已经取得一些当前很少人认为有可能发生的进展。
他们的人工智能程序可以画出跟人类艺术家的画作几乎没有差别的画,还能完成一些主题限定于维基百科范围内的小测试,甚至会玩《星际争霸》之类的视频游戏。
它们正在慢慢地变得越来越聪明。将来有一天,它们会把Facebook从促进朋友间交流的平台变成可能成为你的朋友的东西。
FAIR不是你想象中的典型Facebook团队。该团队队员不直接研究那些非常受欢迎的Facebook产品:Instagram、WhatsApp、Messenger和Facebook本身。
他的关于人工智能的理论曾经被视如敝履,而现在被认为属于世界级水平。Facebook颁发给他的奖金就是最好的证明。
“您与数字世界、手机、计算机的互动将会发生根本性的变化。”LeCun在谈到人工智能可能意味着什么的时候如此说道。
FAIR正在提高计算机视、听和独立进行沟通的能力。他们的发现正在渗透到Facebook的各个产品中。
从NewsFeed排序,到相片滤镜,到处都有他们的研究结晶。
Facebook对人工智能进行大规模投资,不仅仅是因为人工智能很有趣,而是因为它不可或缺。在当今科技界的每一个角落,企业们都是在人工智能的基础上进行较量。
Uber的智能自动驾驶汽车是其业务战略的核心。
谷歌的基于人工智能的GoogleHome智能音箱可以回答用户口述的问题——在过去,人们遇到问题只能手动输入搜索,或在更久远的过去,只能打开纸质百科全书查询。
亚马逊正在打造只有人工智能收银员的便利店,企图进军市场规模6740亿美元的食品杂货市场。
而在Facebook,处处都有人工智能的影子。举个例子,它的人工智能驱动的照片滤镜正在帮助它击退Snapchat的挑战。Facebook的人工智能能够识别照片里的东西,还能决定向你推送哪些内容。
在人工智能的帮助下,Facebook提供了有趣的用户体验,吸引用户不断再次回头。
同样的技术还被用于监控骚扰、恐怖和色情内容。人工智能可以将这些内容标记下来并清除。
Facebook的应用机器学习(AML)团队负责人JoaquinCandela表示:“人们使用Facebook全系列产品的体验主要取决于人工智能技术。在今天,如果没有人工智能,Facebook就不可能存在。就这样。”
随着该领域不断发展,Facebook需要依靠LeCun及其团队来帮助它走在当前的和未来的竞争对手前面,因为这些竞争对手也有可能拥抱人工智能技术。
在经历多年的批评和忽视之后,LeCun终于拥有了现在的一切:80名科研人员、Facebook的巨大财力支持和大众对他的研究的信任。他现在要做的就是推出产品。
LeCun在曼哈顿
视觉
LeCun在他年轻的时候就相信,他可以让计算机拥有视觉。在今天,面部识别和图像检测已经变得十分普遍。但在20世纪80年代初LeCun在巴黎上大学的时候,计算机实际上是瞎子。它们不能识别照片里的东西,更不知道摄像机镜头里有什么。
在大学期间,LeCun偶然涉足了一种探索人工智能的途径,而这种途径自从60年代以来几乎没有人探索过。他认为,他的研究可以让机器学会完成多种任务,包括感知。
这种途径就是人工神经网络。它研究的是,如何让由小型传感器互联形成的系统把图像等内容分解成非常细小的部分,然后识别出其中的模式,最后根据所有的输入数据确定它们看到了什么。
在阅读了关于神经网络的种种反对观点——难以训练,性能不够强大——之后,LeCun决定推动这项研究。尽管遇到了质疑,但他还是在攻读博士学位期间专注研究人工神经网络。
在谈到这些批评声音的时候,他说:“我只是不相信他们说的。”
人工智能研究经常会遇到困难时期,而且困难难以解决。这样的时期获得了一个专属称呼:人工智能寒冬。
这些时期主要出现在研究人员取得的成果无法达到最初设想之后。
这让人觉得该技术不可行,进一步导致人们对人工智能失去兴趣,投资枯竭,技术进步趋于停滞。
LeCun也遇到过这样的“人工智能寒冬”。在90年代中期加入贝尔实验室从事人工智能研究之后,AT&T的内部矛盾导致了他的团队分崩离析。
当时,他们正在计划推出能读取支票的自动取款机——今天,这种基于神经网络的技术仍在使用中——就在LeCun认为这项技术取得明显进步的时候,他的项目被取消了。
LeCun说:“就在将要取得真正成功的那一天,整个项目被解散了。这真的让人感到非常沮丧。”
在本世纪00年代初,其他科研人员甚至拒绝让他在学术会议上介绍他的论文。
神经网络先驱、谷歌的工程专家、多伦多大学教授GeoffHinton表示:“计算机视觉圈子把他拒之门外。外界的看法是,他在从事在上世纪80年代看起来很有前景的研究,但现在他应该放弃这方面的研究。”
“现在没有人这样看了。”他补充说。
在那个年代,其他神经网络研究人员也遇到了类似问题。
蒙特利尔大学教授、蒙特利尔学习算法研究所所长YoshuaBengio发现,他很难找到愿意跟自己一起做研究的研究生。“我不得不强迫学生从事这方面的研究,因为他们害怕在博士毕业后找不到工作。”
2003年,LeCun为自己的重生打下了基础。那一年,他成为纽约大学教师,并与Hinton和Bengio结成非正式的联盟,共同重启对神经网络的研究。LeCun面带微笑地说道:“我们开始了我一直称之为‘深度学习阴谋集团’的合作。”
“深度学习阴谋集团”在神经网络研究领域扮演了至关重要的角色。他们坚持最初的信念,认为不需要为每一类检测对象开发专门的神经网络,你只需使用同样的模板开发一个神经网络,就可以检测图像、视频和语音。
换而言之,你没有必要为识别企鹅和猫分别开发一个神经网络,你可以开发一个能够检测两者并能识别其差异的神经网络。这种新的神经网络也可以经过修改胜任其他任务,例如检测声波,识别语音中的模式。
“深度学习阴谋集团”的研究受益于两个重要的外界因素。一方面,计算机性能大幅度提升,这使得神经网络的运行速度变得足够快,从而可以应用于实际。
另一方面,由于互联网的普及,可获得的数据(包括图片和文字)获得了指数级的增长,让神经网络得到足够的训练,变得更加智能。神经网络因此变得更加灵活、快速、准确,给人工智能领域带来了全新的可能性。
得益于LeCun及其合作伙伴打下的基础,计算机视觉在进入10年代初期出现了爆炸式增长。计算机开始学会识别图像中的物体,接着又能识别视频中的物体,最后又发展到能够识别摄像头拍摄的实时画面中的物体。
现在,当你把摄像头指向一个篮球时,人工智能可以知道摄像头前方有什么。LeCun迅速从人工智能领域的边缘人物变为行业领导者。
2013年12月,LeCun加入Facebook。对于有意将人工智能研究应用于图像识别的科研人员来说,Facebook是一个理想的研究环境。
Facebook平台上有数十亿张图像,这给LeCun及其团队提供了用于践行新想法的丰富资源。FAIR团队经常跟AML团队合作,在Facebook平台上将研究成果付诸实践。
这两个团队共同开发新的系统,让整个Facebook公司都能受益于技术的进步。
AML团队使用FAIR团队的研究成果来识别用户NewsFeed中的内容,或将Facebook的内部内容翻译成其他语言。他们还将这些研究成果应用于Facebook相机,让相机根据用户动作生成各种特效。
FAIR推出的计算机视觉工具SharpMark
思维
教会计算机观察能力是教会它们理解这个世界的运作方式的第一步。人类知道这个世界是如何运作的,原因是我们反复观察了相同的场景,渐渐地知道这些场景将会如何展开。
举个例子,当一辆汽车沿着道路高速地向我们站着的地方驶来时,我们预测这辆汽车可能会撞上我们,于是我们会让开。当天黑之后,我们知道按一下电灯开关会带来光明,于是我们会按一下开关。
例如,如果你反复向人工智能系统展示水瓶在人的头顶上倒过来的视频,那么它可以预测,这样的动作会导致有人被弄湿身。
“在某种程度上,智能的本质就是预测。”LeCun解释说,“如果你可以预测你的行为将导致什么结果,那么你就可以做出计划。你可以计划一系列行为,从而达到特定的目标。”
目前,教会人工智能预测能力是这一领域所面临的最棘手的挑战。其主要原因在于,在许多情况下,多个预测结果在理论上都是正确的。
LeCun说,想象一下,你在桌子上方垂直地拿着一支笔,然后放手。如果你问计算机,一秒钟之后这支笔将会位于何处,你不会得到准确的回答。
机器知道这支笔会掉下来,但它无法准确预测这支笔最终会落在哪里。因此,你需要告诉系统,这个问题有多个正确的答案,事实上发生的结果只是多个可能性中的一个。这就是在具有不确定因素的情况下作出预测时存在的问题”。
帮助人工智能理解和接受不确定性是人工智能研究的一个分支。这个分支被称为“无监督学习”(unsupervisedlearning),是机器学习的最前沿领域。在人工智能进行足够多的观察之后,它会懂得这个世界是如何运作的,并学会预测。
那时,它会开始像人类那样思考,并获得健全的判断力。LeCun认为,这是让机器变得更智能的关键。
语音
去年12月,扎克伯格公布了一段视频,展示他亲自动手编程打造的人工智能管家“贾维斯”(Jarvis)。
贾维斯可以给他烤面包,能够在识别出扎克伯格父母的脸之后给他们开门。他甚至还会教他的女儿说汉语。
扎克伯格在使用智能管家贾维斯
这个智能管家看起来非常酷炫。但在LeCun看来,这没什么特别的。
“它主要是用脚本写成的,比较简单。而且,从某个角度看来,它的智能程度很低。”LeCun说道。
LeCun想要开发能够真正听懂你的话语的智能助手。“这是一种能够跟你进行对话的机器。”LeCun解释说,“它们能够实现做好计划,它们不会蠢到让你生气。”
打造这样的机器没有蓝图可依,不过FAIR团队正在研发构建部件。让人工智能对这个世界有初步的理解,并训练它预测这个世界上可能会发生的事情属于其中的一个部件。
利用神经网络教会它阅读和写作是另外一个部件。对计算机来说,一个图像是一串数字。一个口语句子也可以用一串数字来代表,文本也一样。因此,LeCun等人可以使用神经网络架构来识别图像中的物体,语音中的单词,或者文本的主题。
人工智能当前仍然无法像理解图像那样理解文字,但LeCun已经看到未来的贾维斯会是什么样子的。他理想中的智能助手将具有基本判断力,并能跟其他助手沟通。
例如,如果你打算跟朋友一起去听音乐会,你让你的智能助手协调一下,它会根据你喜欢的音乐类型、你的日程安排和即将上演的音乐会向你提供切实可行的建议。
Facebook目前正在试验一个被称为“M”的简单版本数字助手。这个基于FAIR团队研究成果的项目由Messenger团队运作。
FacebookMessenger最近推出了“Msuggestions”(M的建议),让M在认为自己可以提供帮助的情况下加入用户的对话。
M只是Facebook使用人工智能理解意义的其中一个例子。这家公司还在考虑把人工智能技术用于其他用途,甚至可能利用人工智能来打破外界最近指责它帮忙竖起的壁垒。
同时研究神经学和人工智能的Boureau曾花一个夏天来观察她的朋友在Facebook上和人互撕,没有一点兴趣听取反对意见,于是她决定从事这方面的研究。
她解释说:“如果我们能够更多地了解他们这种的心态背后的驱动力,理解意见如何形成,如何固化成型,了解他们不能彼此沟通的原因,这将是一件大好事。”
Boureau想创造这样一个世界:在人们付诸行动之前,可以看到尽可能多的不同意见。
人工智能可以帮助我们从文本中找出模式,理解哪些环节出了问题,并找出办法让偏离轨道的对话回到正轨。
“如果我们能够通过数据进一步了解对学习过程以及人们的信念是如何形成的,那么我们就能够知道怎样才能进行更多的具有建设性的对话。”Boureau说道。
在2016年美国大选之后,LeCun公开表示,Facebook有技术能力使用人工智能过滤假新闻。有人觉得这种方式还可以用来解决美国的两极分化问题,但LeCun称这个任务最好还是留给第三方解决,而不是交给可能存在偏见的机器。
现实
对人工智能来说,炒作周期可能会引起危机。LeCun深知这一点。而现在,我们似乎就处于这样一个周期。
在谈到人工智能的未来时,LeCun措辞非常谨慎。他说:“人工智能离我们的目标还非常远,还达不到我们想要的效果”。事实上,正如LeCun警告的那样,人工智能还远远达不到人类的智力水平,即所谓的通用人工智能。
然而,有时候LeCun也无法抑制自己的热情。让他感到尤其兴奋的是对抗性训练。这是一种相对比较新的人工智能研究领域。有助于解决当前人工智能领域面临的预测和不确定性挑战。
对抗性训练让两个人工智能系统互相对抗,从而让它们更了解真实世界。比如,在FAIR团队的一个实验中,研究人员让一个人工智能系统画画,并骗过第二个人工智能系统让其以为这是人类画的,第一个人工智能系统接着利用第二个人工智能系统的反馈把画画得更好。
在今年早些时候的一个会议上,LeCun展示了一些更先进的东西:第一个人工智能试图让第二个人工智能相信,它创造的一段视频中几幅画面属于后者已经看过的一个视频中的一部分。LeCun表示,对抗性训练“是机器学习领域过去10年或者20年来最棒、最酷的想法。”
LeCun会继续研究对抗性训练,再一次把人工智能研究推向新的极限。他一路走来,从20年前默默无闻的年轻研究员变成现在人人仰慕的大牛。
尽管LeCun会第一个告诉你,对人工智能的研究远未结束,成功不属于他
YoshuaBengio长达15年的实验室组织与管理经验也让他形成了一套自己的方法论,“不要将每个学生束缚在他们自己的项目中,而要让他们灵活合作。学生们与教授也不是一对一的关系,应该将整个实验室的人组成一个大的网络。”
对高校人才培养的执着投入,不代表YoshuaBengio对产业动向毫不关心,YoshuaBengio希望现有的人工智能技术能更快地进入人们的生活,真正帮助人们去完成各种各样的任务。
可以说,YoshuaBengio不仅在人工智能研究上推动蒙特利尔成为了世界深度学习的一大重镇,也为他所期待的人工智能生态系统添砖加瓦,促成了蒙特利尔如今在人工智能领域的良好学术和创业氛围。
现年54岁的YoshuaBengio不仅学术著作等身,在大多数学术权威会议中,你都可以看到这张熟悉的面孔。他不仅是加拿大统计学习算法研究主席,在2009年担任了机器学习顶级会议NIPS的主席,还在2013年牵头创办国际学习表征会议(ICLR),让ICLR在短短几年内迅速跻身顶会行列,成为首屈一指的专注深度学习领域的顶级会议。
YoshuaBengio也获得了许多重量级的名誉和奖项,他是加拿大皇家学院(RSC)及加拿大高等研究院(CIFAR)院士,且在2017年获得了代表加拿大公民最高荣誉的“加拿大总督功勋奖”。尽管如此,Bengio在生活中一直保持着低调,除了演讲之外,很少出现在媒体和大众的视线中。
30多年来,GeoffreyHinton一直徘徊在人工智能研究的边缘,以一个局外人的角色坚持着一个简单的命题:计算机可以像人类一样思考,使用直觉而不是规则。当一个朋友描述全息图是如何工作的时候,这个想法在Hinton心里生根发芽:数不清的光束从一个物体上反射出来,被分散在一个巨大的数据库上。Hinton出身于一个有点古怪的、一代又一代的科学家家庭,他立刻意识到人类的大脑也是这样工作的ーー我们大脑中的信息在一个巨大的细胞网络中传播开来,连接着一张无穷无尽的神经元地图,沿着数十亿的路径发射、连接和传递。他想知道:一台计算机的行为方式是否也是如此?
根据学术界主流的观点,答案是否定的。他们认为,计算机在规则和逻辑上学得最好。此外,Hinton的概念——神经网络——后来成为'深度学习'或'机器学习'的基础ーー已经被证明是错误的。早在50年代后期,一位名叫FrankRosenblatt的康奈尔大学科学家发明了世界上第一台神经网络机器。它被称为感知器,有一个简单的目标ーー识别图像。理论上,当向它展示一个苹果的图片,就会吐出'苹果'。感知器运行在IBM的主机上,它很丑陋:一连串交叉的银线,看起来像是有人把一个炉子过滤器的内脏粘到了冰箱门上。尽管如此,这个设备还是引发科幻般的夸张。1958年,《纽约时报》发表了一项预测,预测它将成为第一个像人类大脑一样思考的设备。'(感知器)将能够行走,说话,看见,写作,再现自己,并意识到它的存在。'
感知器最终并没有走路或说话ーー它几乎不能分辨出左边和右边ーー而变成了一个笑话。在学术界,神经网络被认为是边缘学科的追求。尽管如此,Hinton并没有被吓倒。'大脑必须以某种方式工作,而且肯定不是某个人写程序并把它们固定在那里的,'辛顿说。'我们没有被编程,我们有常识。'他相信,神经网络的想法并没有错,主要的问题是能量。当时的计算机无法通过数以百万计的图像进行连接和寻找意义,样本的尺寸太小了。
大约在2009年,当计算机终于有能力挖掘大量数据的时候,超级神经网络开始在语音和图像识别方面超越了基于逻辑的AI。业界注意到,微软、Facebook、谷歌等大型科技公司开始投资。2012年,该公司的最高机密实验室谷歌x实验室宣布,它已经建立了一个由16000个计算机处理器组成的神经网络,并把它放到了YouTube上。谷歌大脑是公司的深度学习人工智能分支,由该部门的高级研究员JeffDean领导,他们通过新的超级计算机从YouTube上随机输入了数以百万计的未贴标签的视频框架,并对其进行编程,以便弄清楚它看到了什么。Youtube是猫咪视频的最重要的储存库,它认识到ーー除其他外ーー猫。这是人工智能的一个激动人心的时刻。'我们在训练中从来没有说过'这是一只猫','JeffDean当时说。'它基本上发明了猫的概念。'
这一突破使Hinton和他的追随者成为人工智能运动的领袖。JeffDean在2013年招募Hinton加入谷歌兼职。'我们显然是站在外面,试图证明传统的智慧是错误的。有趣的是,现在我们已经成为了一个机构,'Sutskever说。Hinton,一个曾经被排斥的人,突然成了这个行业最重要的人物,从默默无闻变成了明星。那个瘦长的,、年老的英国人先生发现这一切都枯燥有趣。
'我之所以有这么大的影响力,是因为我是极少数相信这种方法的人之一,所有自发相信这种方法的学生都来和我一起工作。我不得不从那些最好的人那里挑选出来,他们都很有判断力,'他笑着说,'良好的判断力意味着他们同意我的观点'。
在他俯瞰市中心校园中央动脉的UofT办公室里,Hinton正在走路,吃着三明治,在白板上涂鸦,试图填补我在神经网络方面的知识空白。他停下来画了一只猫(雪人形状的小耳朵),在我们的文化中,人们可能会把狗看成是雄性,而猫则是雌性。这种描述(以及很多性别歧视)没有逻辑可言,但是,Hinton说,我们通过一千种联想和类比来理解,狗是有攻击性的,毛茸茸的,块状的;猫是狡猾的,聪明的,家庭的。前者是男性,后者是女性。这些都不能用逻辑来证明,但它存在于我们大脑中隐藏的表象中。机器可以凭直觉感知这些相同的表现:知识来自于生活,充满了积累的意义和经验,存在的神秘实质。这就是神经网络的美妙之处。'它更接近弗洛伊德的观点,即意识和深思熟虑的推理和所有这些渗透的东西在下面。下面的东西并不是有意识的深思熟虑的推理,而是其他的东西——一种类比的东西,'Hinton说。
'你躺在去布法罗的公共汽车后座上,你可以在水牛城搭乘芝加哥到纽约的卧铺,你把玛丽女王送到南安普敦,你站起来反抗伦敦,你得到的欧洲之星到巴黎,你站起来反抗巴黎。然后你就可以睡到柏林,在那里你可以躺下。你可以乘坐一辆小小的老火车去罗斯托克,那里是在海边,以前是在东德,你可以看出来。然后你乘渡船去赫尔辛基。'Hinton经常用这种方式说话:把数据切成易懂的部分,眼睛聚焦在距离上,小嘴唇上露出微笑。
Capsule网络在科技领域受到了极大的欢迎。纽约大学的一位教授在《连线》杂志上滔滔不绝地说道:'每个人都在等待,并且都在寻找Hinton的下一个伟大飞跃。'
1947年,杰夫·辛顿出生在温布尔顿,霍华德·辛顿是一位昆虫学家,同时也是一位教师母亲,玛格丽特·克拉克。辛顿描述的童年时代是LemonySnicket、哈克贝利·费恩历险记和天才一族的混合物,显微镜。他和他的三个兄弟姐妹在布里斯托尔的一所大房子里长大,那里充满了动物。有一只猫鼬——'它占据了很大的空间'ーー车库里的蝮蛇战机被关在一个坑里。年轻的杰夫·辛顿曾经挥舞着一块手帕,让他们去打它,但是有一个人来到他的手边,差点把他给杀了。他还照顾了十几只中国海龟,这些海龟是他父亲在1961年的中国巡回演讲中获得的。虽然中国基本上对游客关闭了,皮埃尔·特鲁多也参观了这里,他和他的高级同事Hinton也共用了一家酒店,还有一间浴室。根据家族传说,Hinton把海龟放在浴缸里,至少有一次阻止了Trudeau的洗澡计划。
Hinton也曾回忆起他的好奇心是如何诞生的。他四岁的时候,和母亲在乡下乘公共汽车旅行。公共汽车上有一个向后倾斜的座位,朝着车架。Hinton从口袋里掏出一枚硬币放在座位上,但是它没有滑向后面,而是滑向前面,看起来向上移动,对抗重力。这个令人费解的现象,激发了Hinton十多年的想象力。在他十几岁的时候,他发现硬币的动作与天鹅绒座套和巴士的振动有关,这是一个非常令人满意的答案。'有些人完全有能力看到他们不理解的东西,并且能够接受它。我不能接受有什么东西,侵犯了我的世界模型。我真的不能接受那样的事情。'Hinton说。
Hinton的母亲很有爱心,但他的父亲却令人生畏,不管是身体上(他都可以用一只手做俯卧撑,这一壮举曾让瘦小的杰弗里震惊)和智力。'他喜欢人们思维清晰,如果你说的东西有点多余,他会称之为垃圾。他不是一个敏感的思想家。他不是虐待狂,但他非常强硬。'
Hinton就读于一所叫Cliftoncollege的私立学校——Hinton说“不是最好的学校'。他和他的朋友InmanHarvey,后者现在是一名计算机科学家,同时也是人工智能萨塞克斯大学的访问研究员,习惯于搭便车,偷笑,周围附近的村庄,如Piddlehinton。Hinton回忆起,在选举期间,家人在厨房的餐桌旁谈论社会主义,并在选举期间为工党写信。
'Hinton的父亲对我非常好,但他是一个爱出风头的父亲,很喜欢与别人竞争,'Harvey说。'Hinton继承了一点竞争优势。他的父亲是英国皇家学会的成员,然后杰夫成为了皇家学会的成员。他可能觉得有必要满足父亲的期望。'
Hinton的青年时代与随心所欲的60年代和70年代发生了冲突,他走了一条迂回的路线来实现Hinton家族的与生俱来的权利。1966年,大学前的夏天,Hinton和Harvey背包穿越美国和墨西哥。这些青少年身无分文,他们有时会乘夜间公共汽车,以避免支付酒店费用。在墨西哥南部的一个小渔村,他们在大浪中游泳时,在沙滩上留下了一个行李袋,他们的钱和护照被偷了。每天下午,这对夫妇都会步行7公里到最近的村庄,经过警惕的保安,看看他们的替代旅行支票是否已经到达银行。他们想出了如何靠3美元生存一个星期,并试图在高温下把香蕉皮放在罐子里来制作香蕉汁——这是一个失败的实验。
在70年代,在完成了一个实验心理学学位之后,Hinton正在做一些奇怪的工作和木工活。1972年,他开始攻读人工智能博士学位,但对自己的研究感到沮丧和矛盾。一个周末,他参加了一个研讨会,类似于'EST-y,自我实现疗法'。他讨厌这样。有八个人,一小时一小时地打开心扉,探索他们的需求和需求。在最后一天,每个参与者必须宣布他们真正想要的生活。人们说他们真的想被爱。'原始和无拘无束的东西,'Hinton回忆道。他冻僵了,不知道该说些什么。当他们围着这个团队喊出他们的秘密欲望时,Hinton惊讶地发现:'我真正想要的是博士学位!”他大吼大叫。这个宣言重新点燃了他对神经网络研究的热情。
面对学术上的冷漠,Hinton在90年代初成为单身父亲时遇到了一个更严重的私人障碍。在他和他的第一任妻子Ros收养了他们的孩子后不久,Ros死于卵巢癌。Hinton习惯了在自己的脑子里和实验室里生活,他被扔进了一个真实的世界,养育了两个小孩。他的儿子患有注意力不集中症和其他学习困难,即使有保姆,Hinton也不得不在下午6点回家,为他的儿子管理支持,还要赶着去Gap买袜子。
1997年,他的第二任妻子Jackie的婚礼上,以及Hinton已经拥有的两个孩子,8岁托马斯和6岁的艾玛。
1997年,他再婚,嫁给了英国艺术史学家Jackie。三年前,她被诊断出患有胰腺癌病,而现在Hinton正处于失去第二任妻子的边缘。
对于一个克制的英国人来说,Hinton通常会把自己的人工智能信仰传给其他人,最好的例子是他对于深度学习在改革医疗保健方面的潜力热情洋溢。'我看到医疗专业人员使用数据的效率低下。在病人的病史中,有比被利用的更多的信息。我发现医生们真的不能很好地阅读CT扫描。如果你让两个放射科医生读同样的扫描,他们会得到两个不同的结果。'
在三个不同的场合,医务人员告诉他的妻子,根据CT扫描读数,她患上了继发性肿瘤,每次都是错误的。Hinton认为,人工智能最终会让放射科医生失业ーー或者至少消除工作中的“看片子”部分。认知是人工智能的核心,也是成功诊断和治疗的核心。Hinton说:'最终,人工智能的工程师将会研究如何训练免疫系统攻击癌细胞。'Hinton说。
Vector第一批项目中,有一个由Hinton发起,希望能够将神经网络与多伦多医院的大量数据联系起来。当PeterMunk最近向他的同名心脏护理中心捐赠了1亿美元时,医院被指定为数字心血管健康领域的世界领先者,而Vector将得到其中的一部分资金。通过访问大量的数据集本质上就是MunkCentre这样的研究所的病历档案,人工智能技术可以用来实现大量的突破,包括远程监控病人的心跳,帮助医生确定理想的放电时机。Vector的合作伙伴之一——多伦多深层基因组公司(DeepGenomics)正在开发能够读取DNA的人工智能,这将有助于早期发现疾病并确定最佳治疗方案。深基因组学的创始人,BrendanFrey,另一个身份是Hinton的学生。
经过几十年的缓慢步伐,深度学习进展迅速,Hinton似乎陷入了洛伦佐石油的束缚,迫切地推动科学进步,试图摆脱爱人生命中的时钟滴答声。但是,胰腺癌在早期阶段是残酷而难以诊断的。'恐怕对她来说可能已经太迟了,'Hinton用自己慎重的方式说道。
YoshuaBengio是蒙特利尔大学深度学习领域的先驱,他和Hinton和Facebook的YannLeCun一样,是科技圈中被标记为'加拿大人工智能黑手党'的成员。几十年来,当本吉奥在多伦多有工作要做时,他一直呆在Hinton的附属房子里,和他一起散步(Hinton走遍了每一个地方,因为他的背部只有在直立的时候才不受伤,如果坐交通工具就必须坐着)。他一直在观察Hinton成为科技界名人的地位,并对他的朋友表现出一定程度的警惕。'他不是神。他很容易犯错误。他只是一个做人类事情的人,'Bengio说。'有时候他能用墨镜看东西。他的个人生活对他来说并不容易。他有自己的黑暗时代。'
VectorInstitute是多伦多对人工智能人才流失问题的答案,它有一种新车的“味道”,这个名字很适合超级反派的老巢和第一天的学校氛围。加拿大最新的人工智能研究所,位于大学的七楼,去年秋天正式启用。它的玻璃墙面临着女王公园和多伦多大学罗马式的建筑,这两所大学都是Vector的合作伙伴。Vectore目前目前已经获得了超过1亿元的融资和国家资助,同时还获得了30家私企给出的8000万美元,后者包括加拿大银行、加拿大航空、Telus、Google。这也让Vector成为了一家公私兼容、同时混合了学术界、公共机构和行业的机构。到目前为止,20名科学家已经开始寻找技术上的答案来解决一些世界上最大的问题::如何利用人工智能诊断儿童的癌症,并在言语中发现痴呆症?我们如何建造机器来帮助人类看到动物或者创作美妙的音乐,或者利用量子计算来加速分析人类每天产生的大量数据呢?Vector招聘的关键人物之一拉克尔乌尔塔逊(RaquelUrtasun)将同时在Vector和Uber工作,她在后者的岗位上开发自动驾驶汽车。
去年夏天,Hinton和我在市中心Google餐厅吃午饭。这个空间拥有大多数互联网公司的风格:明亮的颜色,沙发和一系列健康的午餐可供很多30岁以下的人们享用。在天井上有一个迷你推杆和一个传粉蜂巢。一台浓缩咖啡机发出巨大的声响。很难想象这是机器入侵的起点,但是。
但是,这种对机器的依赖是如何改变我们的呢?我告诉他,每当我的手机提示我一个建议的回应('听起来不错!'、'那里见!')我觉得自己好像失去了控制权。我自己也变得机械化了。自2001年《太空奥德赛》以来,流行文化就一直将这种精确的理解汇集起来。在娱乐方面,机器的进步被认为是个人的孤独,是一种损失。就好像机器变得越来越人性化,我们变得不那么人性化了。
Hinton听了我的话,看我的眼神并不是不友好,而是带着一丝怀疑。'当你使用计算器的时候,你会觉得不那么人性化吗'他问道。在他身边,千禧一代吃着沙拉,喝着咖啡,他们的钥匙卡在屁股上摇摆。几乎所有人都在用手机,或者拿着手机。'我们是机器,'Hinton说。'我们只是生物学上的产物。大多数做人工智能的人并不怀疑我们是机器。我们只是极其奇特的机器。我不应该说只是。我们是特别的,奇妙的机器。'