YoshuaBengio亲自解答机器学习81个问题及答案（最全收录）菜鸡一枚|如何将想法变成发明_宠物保险

这是Quora的最新节目，针对特定话题进行系列的问答。如果你不了解Quora，可以把它看作美国版的知乎，不过里面大咖云集，奥巴马、ElonMusk、BillGates都会在上面回答问题。

这是针对特定话题的问答系列，而有什么能比机器学习更适合作为开头的第一个话题呢？机器学习无疑是今天最炙手可热的技术之一，在过去几年间实现了深度学习等许多进展，而许多企业也将注意力和资源投向了这一领域。

这个Quora机器学习问答系列将会邀请众多这个领域的大神来答疑解惑。

现在仍然在完善嘉宾名单，不过已经有另外6位也确认了会参加这次活动。

包括：

吴恩达

百度首席科学家，斯坦福大学计算机科学系和电子工程系副教授，人工智能实验室主任。吴恩达是人工智能和机器学习领域国际上最权威的学者之一，同时也是在线教育平台Coursera的联合创始人。曾与谷歌顶级工程师合作建立全球最大的“神经网络”——“谷歌大脑”。

2014年5月16日，吴恩达加入百度，担任百度公司首席科学家，负责百度研究院的领导工作，尤其是BaiduBrain计划。

PedroDomingos

PedroDomingos是华盛顿大学的教授，他是机器学习领域的领头研究者，并且因研究出能够进行不确定推理的马尔可夫逻辑网络而著名。Domingos获得了里斯本技术大学的本科和硕士学位，然后在加利福尼亚大学尔湾分校拿到了硕士和博士学位。在IST做了两年的助理教授后。它与1999年加入华盛顿大学并且现在是一名教授。

KevinMurphy

谷歌总部研究科学家，在谷歌研究人工智能、机器学习、计算机视觉与自然语言理解。他于2011年加入谷歌，此前是加拿大温哥华英属哥伦比亚大学的计算机科学和统计学终生副教授。他已发表80多篇会议或期刊论文，是《机器学习：概率视角》的作者，该教材长达1100页，由麻省理工出版社2012年出版，并获得2013DeGroot统计科学最佳书籍奖。

IsabelleGuyon

咨询公司ClopiNet（为模式识别、机器学习、统计数据分析、以及数据挖掘提供咨询服务）的创始人兼总裁，纽约大学健康信息学和生物信息学中心（CHIBI）客座教授。她在机器学习领域是国际知名的学者，与DrsVapnick和Boser一起发明了核SVM分类器，也发明了基于SVM的特征选择方法RFE。

AlexSmola

卡耐基梅隆大学教授，MarianasLab公司的CEO。研究方向包括以下几个方面：

算法的可扩展性:这意味着推动算法达到互联网一般的规模，使的他们在不同机器分布，设计出融合和修改模型来适应这些要求。

Kernels方法是线性方法非线性化和非参数画的有效手段。我的研究兴趣包括支持向量机(SVM)，高斯过程和条件随机场。

统计建模:贝叶斯非参数是解决许多建模问题的好方法。很多时候综合运用Kernels方法和可扩展性可以得到让人满意的方案。

ThorstenJoachims

康奈尔大学计算机科学系和信息科学系教授。他于2001年完成博士学位后加入该系。主要研究方向是机器学习、支持向量机、数据学习理论、文本分类、文本挖掘等。他是ACMFellow,AAAIFellow和HumboldtFellow。

论文下载

回复0121按照本文中标注的序号如Q1a,Q1b来下载相应的论文

以下是81个问题：

Q1：在理解深度学习工作原理的道路上，我们已经前进了多远？

与有些人的想法相反，我相信我们对于深度学习的基础已经有了不错的基本理解，例如：

我们理解了卷积结构和递归结构的分布式表征、深度、以及元素与函数空间中的偏好（或者更通俗的说法是，先验，priors）相对应，并且我们有理论来解释为何其中一些偏好可以带来重要的（有时候是指数级增长的）统计优势（这意味着可以用更少的数据达到相似的准确度）；我的书中有更多的对于最近一些论文的详细描述，我最喜欢的一篇是NIPS2014的“关于深度神经网络线性区域的数量（OntheNumberofLinearRegionsofDeepNeuralNetworks）”（Q1a）。过去和现在，研究人员对于各种深度学习模型的解释力也做了许多工作。

我们更好地理解了为什么训练深度网络时涉及到的优化问题可能并不像我们先前以为的那样棘手，在某种意义上来说，绝大多数的局部最小值可能实际上都与非常好的解决方案相对应。这个问题上有两篇很好的论文：NIPS2014的“识别和攻击高维度非凸优化的鞍点问题（Identifyingandattackingthesaddlepointprobleminhigh-dimensionalnon-convexoptimization）”（Q1b）以及AISTATS2015的“多层网络的损失面（Thelosssurfaceofmultilayernetworks）”（Q1c）。

不过，当然，我们需要更多更多的理论！许多时候我们都会处于无法理解实验结果的境地里。

Q2：你怎么看强化学习？它是像YannLeCun说的那样，是画龙点睛的一笔吗？

如果我们只使用强化信号来引导学习，那么我同意YannLeCun的说法，它是画龙点睛的最后一笔。糟糕的是：当使用的全局强化信号并不是对于特征的已知可微函数时（这种事经常发生），扩大能根据这个信号而训练的隐藏单元的数量（或是行动维度）就会有严重的问题。行动的样例数量、随机样本数量、或是尝试次数，随着单元数量的增加，可能不得不至少以线性的速度增长，才能在质量的信度分配方面达到和反向传播技术差不多的水平。如果行动空间很大，这会是一个很麻烦的问题。然而，就像在Yann提到这件事时说的那样，我们在做强化学习的时候也应该做非监督式学习。那么它就会变得更具可信度，能够在大规模的环境下发挥作用。

Q3：理解大脑对于理解深度学习来说有多重要？反过来呢？

就像许多早期从事神经网络研究的人（包括我的同事GeoffHinton和YannLeCun）一样，我相信，当我们思考我们对于大脑已经知道了什么的时候，我们会有不错的机会来从中学习一些对于搭建AI来说有用的东西，并且这一点随着神经科学家们收集了越来越多的大脑数据而变得越来越确定。这个信念与相反的想法也是有联系的——为了真正理解为何大脑让我们拥有智能，我们需要对于大脑中发生的事构建一个“机器的学习”的解释，也就是说，搭建一个计算的、数学的模型来解释我们的大脑是怎样学习如此复杂的东西、又怎样表现出如此成功的信度分配的。为了验证这个解释，我们应该能够运行一种机器学习算法，它拥有从神经生物学中提取出来的基本原则，但它没有必要理解这些原则（但是可能有必要将这些原则在它的“大脑”中实现，或是为它提供一些我们与生俱来的知识）。就我所知的而言，我们对于大脑怎样做一些反向传播技术做得很好的事情还没有一个可信的机器学习解释——也就是说，还没有明白，脑内神经元突触应该怎样产生变化，才能让作为一个整体的大脑对于世界有更好的理解、做出更好的行为。这是这些日子经常在我脑海中徘徊不去的话题之一。

Q4：有没有深度学习永远不能学会的东西？

这取决于你说的深度学习指什么。如果你指的是现在我们知道的算法，那么答案很有可能是“是的”。但是，毫无疑问，随着这个领域的研究不断探索，深度学习还在继续演化，很明显深度学习的应用范围有不断扩大的趋势。神经网络曾经在模式识别问题上非常成功，音素识别和物体识别都是很好的例子。然而，我们可以看到越来越多神经网络方面的工作正在靠近传统的AI领域，比如推理、知识表征、以及操作符号数据。我相信，这些近期的工作只不过是冰山一角，但是当然我的手里并没有水晶球来做预言。如果我们未来对于深度学习的定义中，包括了以受神经启发的算法来复制所有人类认知能力的能力，那么“这个领域中没有深度学习学不会的事情”的假设就是相当合理的。不过，到时候，可能会有一些人类永远不能学会的任务；对于这些任务，很容易得出结论：没有机器能完美地完成这些任务，因为用来训练的样本数量太局限了。

Q5：你对于Kaggle和其他机器学习竞赛有什么看法？

Q6：深度学习研究将去往何方？

研究从定义上来说就是在不断探索的，这意味着（a）我们不知道什么能起效，以及（b）我们需要探索许多途径，我们需要整个科学社区在研究方向上有很大的差异性。所以我只能告诉你我目前的直觉，我在哪些地方看到吸引了我直觉的重要挑战和机遇。这里是其中的一些：

非监督式学习是关键，我们现在的做法还并不正确（我和其他人在这一方面写过、说过很多观点试图纠正）

深度学习研究可能会继续扩张，从原本的传统模式识别任务扩张到AI的全部任务，包括符号操作、记忆、规划和推理。这对于完整地理解自然语言和与人对话（也就是说，通过图灵测试）来说将会非常重要。相似的是，我们见证着深度学习正在延伸到强化学习、控制、以及机器人学的领域，而这只不过是一个开始。

对于AI，我们可能仍然需要再获得许多知识，更好地理解大脑并尝试找到大脑运作的机器学习解释。

最大似然可以加以改进，当在复杂的高维度领域中学习时（非监督式学习和结构化输出情景中兴起的情况）它不一定是最佳的目标。

基于深度学习的AI（不只是消费者产品）将会很大地受益于计算力的大幅提高，这可能意味着出现专门的硬件；这是因为，AI需要大量关于世界的知识（然后对它们进行推理），这就需要用非常大量的数据来训练大型模型，这一切都需要比我们现在使用的高得多的计算力。

其他见我对于Q12“开放的研究领域”问题的答案。

Q7：2015年你读过的哪一篇机器学习研究论文最让你感到激动？

没有哪一篇能够完全胜过其他任何论文，而我意识到了跟人们说“不同的研究员会对不同的科学贡献印象深刻”，所以我对于如下进展的选取是非常主观的：

批量正态化的论文很激动人心，因为它已经对于训练无数架构都产生了影响，并且已经被作为标准来采用。

梯型网络的论文很激动人心，因为它让非监督式学习的想法重获新生（文中提到的是特别有趣的堆叠式消噪自动编码器），能够与直白的监督式学习能够共同竞争——特别是在半监督式的情境中。

今年，生成式对抗网络——LAPGAN和DCGAN——的论文，通过让人印象深刻的方式、真正地提高了对于图像的生成式建模的标准，瞬间让这种方法脱颖而出，为非监督式学习在去年的快速进展贡献良多。它们能与另一个基于变分自动编码器的深度生成式建模——包括去年早些时候那篇让人印象深刻的DRAW论文——相媲美。

去年，有不计其数的论文用了基于内容的注意力机制。我看着它从我们的使用注意力机制的神经机器翻译开始，之后是神经图灵机（再之后是端到端记忆网络），还有许多对于这种处理方式激动人心的用法——比如生成对于图片的描述和菜做数据结构（我特别喜欢Pointer网络和其他关于可微数据结构操作的论文，包括堆栈、序列、教机器阅读和理解等等）。所以这种架构的设备已经到来…

还有许多其他的我不能准确地评价的论文…

Q8：一个人怎样才能开始机器学习？/对于一个熟悉机器学习基本概念的人来说，开始接触深度学习时有什么不错的资源？

首先你需要在数学和计算机科学方面有适当的基础。深度学习方面，你可以看看MIT出版社的《深度学习》（现在可以在线阅读，最终MIT出版社会将它印刷成册）第1部分，重温一下数学和计算机科学的知识、或是看一下数学和计算机科学中哪些领域与深度学习最有关系。然后你需要了解一些机器学习方面的知识（有一些不错的书，比如ChrisBishop写的和KevinMurphy写的，视频的话比如有吴恩达的coursera课程和HugoLarochelle的神经网络授课视频，你也可以从《深度学习》这本书的第5章中获得许多基本知识的总结）。然后你需要开始练习，也就是说，亲手编写一些学习算法、用数据来训练它们——比如说，尝试参加一些Kaggle竞赛。试着成为优化超参数和选择恰当模型方面的专家吧。同时，继续保持阅读。如果你对于深度学习感兴趣，我的书《深度学习》中第3章将会为你使用大多数常见的算法打下基础。到那时，你应该有了足够的背景知识、能够以稳定的频率来阅读勾起你兴趣的论文了。

自我推销真是非常厚脸皮的一件事，但是我们真的为这本书做了许多努力…IanGoodfellow、AaronCourville和我写了一本为你们准备的书)

Q9：你怎么看OpenAI？

Q10：目前对于深度学习的炒作是否言过其实？

如果它是炒作，它就会夸大实际情况。这种夸张是存在，我见到过。当有人认为人工智能的研究比实际情况更加接近人类表现时，这就是炒作，而这种想法通常是依据人们在电影或科幻作品中见到的AI场景而得出的心理印象。

在我的生涯中，我经常会觉得，通常情况下，人类很贪婪。我们在短期目标中会花费很多精力，如果我们在长期目标中持续这种状态的话，我们会收获更多。而这意味着要接受很多事实：在AI领域还有很多根本性挑战；我们不知道还要用多久才能解决这些挑战（我们也有可能永远无法成功解决）。我感觉人类有一种存在于本性中的倾向：更倾向于“利用”知识，而非“探索”收集更多的知识。这种倾向对于我们的祖先来说是很有意义的，因为他们每天都面临危险。于是成功存活下来就变成了一种短期顾虑。公司想要快速赚钱。投资人对它也有需求。政府官员想要在其四年任期结束之前加快经济发展，而且他们也受到公司和非常富有的人的影响而被败坏，进而他们根本不在乎这对于人们的长期回报。学术界应该担负起担忧长远未来的责任，但是他们经常被卷入到政府和公司的短期想法中（他们为研究提供资金），或者陷入——“出版或死亡”和“短期增加研究强度以提高基准测试的表现”——的逻辑中而无法自拔。

这即是说，没有被夸大的是：深度学习已经有很好的表现（经过适当的设计并得到所需的数据后），而且也有可能被转成重大经济影响和增长。我们可能在某些非常有限的领域中找到了接近人类表现的方式，或者说，在之前技术基础上提升很多以至于有非常明显的经济价值。但是这距离人类级别的智能还非常遥远。

Q11：今年（2016）会有深度学习夏令营吗？

描述：YoshuaBengio、RolandMemisevic和YannLeCun2015年在蒙特利尔举办过一个深度学习夏令营。在蒙特利奥或其他地方会有相似的事情发生吗？

在2016年8月应该会有。静待通知。

Q12：在深度学习方面有哪些开放的研究领域？

这补充了之前的Q5。

每个研究人员对此都有看法，这很好。这里是我的想法：

非监督学习真的会发挥巨大作用

生成模型会根据一系列变异度很大的自然图像和声音来生成简洁的图像和声音

半监督学习会发挥作用，即使被标记的数据集不微小；

学习数据到空间的双向转换方式，空间中的变量是相互纠缠的（或者大部分独立的）

将（迭代式）推理带入到深度学习中来处理隐性变量的非因子后验概率

在我们的模型中引入更多推理能力

大规模自然语言理解和知识表征

训练将计划（能够理解假设分析场景，也许随机地通过一个生成式组件）作为一部分学习步骤的模型（而且还能做决定）

将强化学习扩展到较大的活动空间中

最大似然定理有一些已知的不足（例如在训练和测试情况下有错配现象），而且我们需要绕过它们（也许连最大似然定理一起抛弃）

弥合深度学习和生物学之前的空白

加速理论理解深度学习（优化问题是一方面，表征或统计方面也需要更多的理论）

研究特殊的硬件以支持离线训练模型来开发消费者产品，但这从科学的角度看可能更重要，训练更大的模型来捕捉更多的知识，进而为人类级别的AI研究开辟道路

很多应用还欠开发，我特别想看到在健康方面的研究工作（如缺失值等特定问题，还有通过迁移学习利用小型研究数据）。

Q13：有了Torch和谷歌发布的TensorFlow对工业的强大支持，你对Theano和其使用寿命的看法是什么？

TensorFlow对Theano有很大的威胁，它们建立在相同的基本想法中，即构建并操作一个计算图，以符号形式来表征数字计算。然而，TensorFlow需要更多的工作，而且谷歌看起来很想提高它，并让它成为更有用的工具。这要看事情以后的发展，学生和研究人员如何选择。我对以下两者感到很自豪：我们Theano的完成情况，和谷歌相似地构建了一些更好的东西，但是Theano对于我来说不是一种信仰。我喜欢对开放而有前瞻性地研究具有高级而灵活的探索能力的工具。

Q14：深度学习能像在视觉和语音领域中那样在自然语言处理领域中取得成功吗？

Q15：深度学习与机器学习有怎样的不同？

Q16：你为什么会在神经网络（而非其他机器学习领域）上花费很多精力？

Q17：一个没有PhD学位（但是从技术上来说）自学过ML的人如何向你这样的人证明他已经足够优秀来为你工作？

见我回答的《对于正在进入机器学习领域的年轻研究人员，你有什么建议？》（Q18）和《对于一个熟悉机器学习基本概念的人来说，那些是开始学习深度学习的好资源？》和《某人应该如何开始学习机器学习？》

Q18：对于正在进入机器学习领域的年轻研究人员，你有什么建议？

Q19：非监督深度学习预训练有用吗？何时有用？

非监督预训练在自然语言处理中使用得很频繁，例如当我们使用非常大的文本语料库来预训练词汇的表征时，接着在小型标记好的数据集上使用或微调这些预训练表征。然而，我们一直（从2008年和HugoLarochelle一起写作的ICML论文《ClassificationusingDiscriminativeRestrictedBoltzmannMachines》开始）（Q19a）知道的是，结合监督式和非监督式方法来共同训练参数会更好。最近这类方法的成功应用是《LadderNetwork》（Q19b）。

Q20：AI对人类有生存威胁吗？

我们未来某天可能实现的这类能够达到甚至超过人类表现的AI有很多不确定性。即使我站在乐观主义的一方（因为这种不确定性），我们不能否认存在这种可能：我们不想发生的事情发生了。这就是我签下了未来生活公开信以开发一个稳定而有益的AI的原因。

然而，请记住这种潜在威胁现在还离我们很远。媒体总喜欢夸大其词来吸引注意力。这会妨碍AI研究。相反的，我们应该鼓励相应领域的研究来更好的理解这些问题，进而如果某天出现一些事情要具体处理时，我们也能更好的准备并开发对人类来说更安全的AI。

谈到这里，我相信将媒体的注意力从AI带来的长远角度科幻性质的恐惧转移到短期更具体的政治经济问题上是很重要的。但我们应该提前考虑这些问题，而不是等到人类受到伤害（例如，失去工作）虽然会有少数幸运的人会变得超级富有而且有很大的权力。我们整体需要对如何利用AI带来的进步做出英明抉择，为全体利益着想而非少数。为了适应科学技术带给我们愈来愈强大的力量，丛林法则是不适用的：我们需要在个体和整体上都有英明的远见，这不仅是为了我们，也为了我们的后代。

Q21：你的书何时会上市吗？

Q22：你对只用一个学习算法解决问题是怎么看的？

Q23：在学术界做深度学习研究与在产业界相比有哪些好处和挑战？（为什么你是仍坚守在学术领域的为数不多的深度学习研究人员之一？）

据我所知：

好处:

为大众的利益而工作的满足感，为人类，而不是财富占有者或者投资人，在更加开放的环境中工作而没有专利使用限制的困扰

身边会有很多聪明的研究生和博士后，下一代研究人员而且也会影响他们

挑战:

只有访问公开数据集的权利（但我认为这其中有很多有趣的数据集）

没有大的工程团队来开发大型系统

没有很多计算资源

然而，我必须承认我在后两件事情上做的很好，这要感谢我当前接收到的（经常从大学那里）慷慨的资金和赞助。我很庆幸我的大学高度珍视我的存在而且只限定我每年一次（除了学术休假）教学研究生课程，在过去的15年中。当然这些只是我幸运地得到了这样的环境。

Q24：你曾说过当前机器学习算法的主要限制是它们学习需要太多的数据。你能详细说明这一点吗？

在孩子的前两年生活中（甚至在学会语言之前），他们本质上是通过看没有被标记的数据学习。孩子们在童年看到的自然语言比现在训练得出的最好的语音识别器和机器翻译系统所需的文本数量要少得多。这种差距是指数级别的。为什么？人们似乎能够更好的利用他们能够得到的较少的数据集，而且我相信这是因为他们自己对周围的世界建立了一个能够捕捉因果关系的模型。这让我们能够预测在某些假定条件下什么会发生，即使这些条件与我们以往经历过的条件有明显的不同。我从来没有真实经历过车祸（例如），但是我的大脑可以充分的模拟它（并预见结果），进而我可以自动的做出计划来规避这样的不幸。所以未来还有很多事情需要我们发掘。

Q26：为什么非监督学习很重要？深度学习在其中起什么作用？

Q27：你对MaxWeling的论文《ML和统计是互补的吗》是如何评价的？ML因为深度学习正在远离统计学吗？

所以，是的，表面上看深度学习似乎正让机器学习远离统计学，但是正像Max所说，他们在未来发展的多个方面可以起到重要作用。

Q28：你认为，深度学习未被研究透彻的众多部分中，哪个是最令人困惑的？

深度学习到处都是迷！看我之前回答《在深度学习方面有哪些开放研究领域？》（Q12）来找深度学习研究方向。

这里是一个研究得很不充分且真的令我疑惑不解的一个例子：

Q29：神经网络可以有一个关于它们内在原理的纯概率式解释吗？

通常情况下，没有事物真的是简单而纯粹的，但是大部分神经网络都有一个清晰的概率解释（事实上，近年来，我在自动编码器的概率解释中做出过一些贡献，和GuillaumeAlain一起）。监督式深度学习只是学习条件概率，然而很多不同类型的非监督学习方法直接或间接地估计了数据生成分布的联合分布。

然而，它们的工作原理不是概率问题。这涉及了统计问题还有优化问题。

Q30：“机器学习领域最新的重要进展大部分是关于工程和计算能力的”，这句话对吗？

我不同意这个观点。我会说，计算能力和数据集的大小是必要的要素。在现代的深度网络中，有几个计算要素（ingredient）实际上带来了不少的不同：修正器(rectifiers，及其变体)，丢弃法（dropout），批量正则化，还有某些情况里的半监督式学习和迁移学习。这其中甚至还都没有说到，由于出现了在十几二十年前没有人能想象到的算法，我们在生成式模型方面取得了惊人进展。

Q31：你认为传统的统计学习是否会在不久的将来再次战胜深度学习（或者任何基于神经网络的方法）？

神经网络是统计学习方法。

Q32：你对于进入机器学习领域的年轻研究者们有什么建议？

确认你在数学和计算机科学领域(包括实际的部分，也就是编程)有扎实的背景。读书和（大量的）论文，但这还不够：你需要培养出你的直觉，这可以通过（a）亲手编写相当多的学习算法，比如重现论文中的结果，以及（b）学习怎样微调超参数以及怎样探索（架构、对象函数等方面的）变种。然后，找到合作者，你可以与他们一起对想法进行头脑风暴，并与他们一起分担探索和测试新想法的工作量。当然与一个已形成的团队一起工作非常理想，或者如果你是一位大学教师的话，你可以招募你自己的学生，和他们一起进行工作。

Q33：一个人要怎么才能想出新的深度学习架构？只是通过试错吗？

是，也不是。不是，因为对于一个单纯的随机搜索来说，能起作用的算法的空间太大了（均匀随机的话，找到好东西的几率非常小）。是，因为这会是一种高度引导式的随机探索，就像任何其他科学努力一样。但请尽量弄清到底发生了什么，这无疑会给你带来更多的好处。这不仅仅是与在算法的空间中进行搜索有关，它也与在这一旅途上理解更多普适的概念有关。这就是随机探索中“引导”的那一部分。它不同于只是想胜过基准测试，而且从长远来看,它对其他人来说会更有用。提出理论来解释你所看到的现象，然后通过建立一个专门为了打败这个理论而设计的实验来进行测试。不断重复这个过程。这就是科学的历久弥坚的方法。

Q34：你怎么看DeepMind？

那是一个好地方！许多我以前的学生都在那里工作。他们的研究成果很惊人。他们显然是全球进行深度学习研究（为数不多的）最好的地方之一。而且我喜欢这个想法：Google之类的公司正在向一个与产品并不紧密相连的团队所作的长远研究投入如此之多的资金。其他公司（如Facebook）已经在朝着这个方向行进，而现在我们也有了（小得多的）OpenAI。所有这些开放和长期研究投资对科学进步都很有帮助。但我相信这无法取代学术界的作用。

Q35：我们什么时候才能看到深度学习的理论背景和数学基础？

理论一直是神经网络研究的一个部分。参见我对于《Q1：在理解深度学习工作原理的道路上，我们已经前进了多远？》的回答。

我觉得我们对于为什么深度学习能发挥作用有了许多根植于理论的洞见，但是我很确定我们还会做到更多！

Q36：在研究预料之外的实验结果时，比如你觉得某个想法应该会有效、结果在实验里却没有效果，你会用到什么技术？

好吧，通常来说，这要么是一个bug，要么就是更有趣的情况：它证明了你脑海中的模型应该改一改了！你需要变得善于寻找bug（这需要练习），在机器学习中这并不是一件容易的事，因为许多bug仍然会允许及其继续学习，只不过效果不那么好了。但无论如何，当实验结果与你的期望不符时，不要无视它！这是一个你应该为之热切期盼的机会;-)

有时候你脑海中的模型是错误的，但是别人可能不觉得你的结果让他们惊讶，于是你将需要通过交流（可能是写一篇论文，或者是与其他研究人员探讨）来找出错误。

我最好的调试工具是我脑海中的模拟系统。让模型在你的脑海中运转，越详细越好，然后试着想象有什么事可能发生。

Q37：如果“深度学习”这种词语组合不存在的话，你会怎样称呼它？

神经网络也是一个不错的词语组合。

Q38：深度学习之后机器学习中的“下一个”大事会是什么？

Q39：你对概率图模型是怎么看的？

Q40：在自然语言方面，未来的深度学习会有怎样的发展。

我相信，对于深度学习，自然语言处理是最让人兴奋的研究领域之一。这是一个长期存在的挑战，而深度学习正试图解决它们，而且我相信我们这套正确的工具能够取得巨大进步。

Q41:ILSVRC12,14,15这三个先进的解决方案分别包含5层，23层，152层的卷积神经网络。您认为基于深度学习的视觉识别在朝着什么方向发展？

应该注意这样的数据：如果每一层激活函数更具线性，那么更深的神经网络实质上不会给你带来更多东西。我认为基于深度学习的视觉识别技术将会继续被改善（尽管可能不是在ImageNet这一基准测试上，因为它几乎达到了人类的水平。）在多变场景下的全景理解还没有取得任何进展，更别说“理解一个电影了”。从某些方面来说，更好的视觉理解需要更好的AI技术，也即更好的理解世界运行机制的机器，这包括理解人与人之间的交流。

Q42：你为什么会对机器学习感兴趣？

那是在1986年，我正在为我的计算机理学硕士学位寻找一个研究主题，并且我开始阅读一些基于神经网络学习的早期联结主义论文。我一见钟情。自那以后，我对其一直很有热情并且成为它的忠诚信徒。

Q43:除了重构输入数据（例如像是自编码器这样的深度神经网络，其工作原理即是重构输入数据），还有其它什么任务能够证明对深度网络中的无监督学习有用？

许多！

就我们目前知道的就有很多，例如：

在给定其它变量的情况下，预测另一个变量（伪似然函数）

给定其它的情况下，预测多个变量的子集（广义的伪似然函数）

给定了以某种顺序排列的前部分变量，预测下一个变量（完全可视的贝叶斯网络，自回归网络，NADE，生成式循环神经网络）

给定一个有噪声的输入，恢复原始干净的信号点（去噪过程）

预测输入信号是来自于数据生成分布还是其他分布（像是一个概率分类器）（对比噪声估计）

学习一个可逆函数，使其变换分布尽可能是阶乘式的。（NICE，并且考虑到近似一个可逆函数，利用变分的自编码器就有这样的特性）

学习一个随机变换，基于此，如果我们多次运用这个随机变换，我们能够使我们的模型模型收敛到接近于数据生成分布的输出。（生成随机网络、生成去噪自编码器、扩散反演=非平衡态热力学系统）

学习生成分类器不能从训练样本中辨别出的样本（生成对抗网络）

或者最大化某个概率模型中数据的似然概率

并且我确定我忘记了一些，并且会出现越来越多的基于无监督式学习的模型。

Q44：你认为自己将来某一天会在Coursera上开讲深度学习课程吗？

当编写有关深度学习的书时，我感觉我自己用尽了我全部的精力。我需要回复一些元气。或者其他人会来教授关于机器学习的网络公开课，而且他们可能会比我做的更好！最令我感到满意的感受之一就是看到所有这些聪明的研究者沉浸在深度学习研究中。

Q45：你认为NIPS会议取得了多大的成功？

太成功啦！

NIPS委员会正在考虑应该怎样来应对参会人员的增长。随着参会人数数量呈指数式地增长，一些像是在每个海报周围预设多少围观人数才合理之类简单的问题都是不容易得到解决的。

你认为我们应该尝试多声道口述？当房间里有数千人时，继续单声道口述有意义吗？为了自己的利益，NIPS是不是太大了呢？同样的问题之后也在ICML上出现了。

Q46：关于统计学习理论，你有什么想法？

统计学习理论是机器学习的部分理论基础（对深度学习同样适用）。我们需要用新的和更多的理论来解释用我们观察到的今天的学习算法所产生的现象。

Q47：你认为利用AI技术能够捕捉到人类失去理性的行为和思考过程吗（例如信任）？

当然。你所谓的非理性即是指“错的”。可能不能充分适用于这种情况。信任思维是非常理性的。理性于我而言就是:“利用可用的知识，做出正确的决定。”信任，以及其它许多的人类举动都是非常理性的。如果我们不相信任何人，我们哪里也去不了。最重要的是做对的事情。生物、文化的发展以及我们自己的经历已经在我们心中对世界建立了一个模型。但是我们没有意识到它的大部分。理性对于我来说，不是可以用几句话或者几个词就能够解释的。它对于我来说就是意味着最优的决策。

Q49:你认为我们拥有一个支持或解释深度学习原理的理论框架有多重要？

我认为追求更多的关于深度学习的理论研究是一件非常有价值的事。

几年前，我认为它之所以重要是为了为人们提供便利。现在，实践结果如此强大，以至于当初的动机已经开始转移了。将来更好的理论能够帮助我们建立更好的算法。

Q50：在机器学习中解释一个模型有多重要？

这个问题就像是在问“一个人能够完全解释他的每个想法有多重要？”

那当然很好啦，但是对于我们发现人类（或机器）是否一个好伙伴来说，不一定必要的。可解释性已经被大肆地热议过了。在使用一个模型前我们真正需要的是对一个训练模型泛化能力的可靠保证。（这也正是围绕一个训练模型不断计算其测试的错误率以及不断评估其不确定性要达到的目标）。那即是指：我们应该尽我们所能来理解机器学习模型的内部到底是如何工作的，因为只有这样，才能够帮助我们排除模型中出现的故障，并且了解到模型的局限性，进而建立更好的模型。

Q51：你认为有可能让算法从通常被当做是噪音的数据中提取出有用的信息吗？

只有当其中存在一些潜在统计结构时！（即使我们没有看到它）

我确定，听见我说话的猫只是认为我在发出一些有趣的噪音（例如，对于猫来说，当声音变得响亮或声调高时，这些噪音才包含信息）。当我听到一个完全不同的专业人士用各种专业词汇谈论某个话题时，这也很快也会变成噪音。只有当我们构建了合适的模型时，才能把噪音变得有规律，例如，用与众不同的方式来预测，会承载有用信息。

Q52：我们如何让深度学习在计算能力较低的设备（如手机）上运行？

开发专业硬件，设计相应的学习算法。在我的实验室中，我们研究在很低的分辨率下且不需要使用任何乘法运算的神经网络的实现方法。这在很大程度上会减少计算消耗。

Q53：和你一起工作有哪些非学术的方式？

我经常和不在我实验室的人远程合作（例如在这个星球上的其他本科学生）。

Q54：加拿大蒙特利尔有哪些有趣的初创公司？

Imagia、Mantika、Datacratic、Apstat、Maluuba（不再是一家初创公司，起源于Waterloo）。

Q55：你对哪些有志于PhD项目的学生有哪些意见？

见我之前的回答：Whatareasneedtobecoveredformachinelearninganddeeplearninginparticular.（深度学习和机器学习方面需要有哪些背景？）

THE END

YoshuaBengio亲自解答机器学习81个问题及答案（最全收录）菜鸡一枚

40个发明原理：转变到新维度原理创新者

创意可以是多种多样的，那么我们可以从哪些方面去启发我们的创意呢？（）分析用户

蔚园专利人滁州学院彭靳:偶然想法发明多路心电监护仪

一个想法可以申请发明专利吗

教师资格证面试——小学语文教案10篇！转需！

只有想法应该如何申请专利？

100个创意发明想法

俩小伙造神奇苹果皮iPod瞬间变身iPhone

YoshuaBengio亲自解答机器学习81个问题及答案（最全收录）菜鸡一枚

最新科技创新大赛方案科技创新大赛方案模板(12篇)

纪念晶体管的诞生——改变世界的30款芯片