Ask me anything: 深度学习专家 Yoshua Bengio 答 Reddit 网友问

999 查看

reddit 上有一个很有名的 Ask Me Anything (问我任何事)栏目,会邀请一些牛人来回答网友的问题。本文节选了 Yoshua Bengio 机器学习领域的领军人物在 AMA 上的一些精彩回答,和大家分享。

mdooder:是什么仍然激励着您留在学术界?您对于工业界那种生产率和创新为导向的研究实验室有什么看法?研究的自由度(多多少少做你想做的事情)是否在你的决定中起到很重要的作用?

yoshua_bengio:我喜欢学术界,因为我可以选择研究我工作的内容,我可以为长期的目标工作,我可以为全人类的福利工作,而不是为某一个特定的公司的工作,而且我可以自由地讨论我的工作。注意,在不同的程度上,我那些值得尊重的同行在大公司的实验室里也享有类似的自由。

alercadford:你好,我是一个本科生,你和 Hinton 的工作给了我很大的启发。我有一大堆问题想问,您可以全部回答,也可以一个都不回答,请随意。

Hinton 最近在 Coursera 上开设了神经网络的公开课(MOOC)。该课程所提供的资源和课件让包括我在内的很多人自己构造一个网络并真正进入这个领域。如果这个领域前沿的其他研究者也能提供这样的课程,那会是一个非常棒的资源。你在这方面有计划么?

作为该领域的领军教授,你个人如何看待当代神经网络重新获得如此之多的关注的现象呢?您认为它确实值得注目,还是夸大其词?或是两者兼有?或者是别的完全不同的愿意?还有,你对大众媒体对神经网络的描述有什么看法?

我对于利用无监督技术来学习自动数据选择,以增加算法的通用性能非常感兴趣。我希望它是监督学习和非监督学习的令人期待的结合,这和跟传统的预训炼不同。你所在的实验室已经在这方面取得了很多进展,使用“简单”的数据选择方法,例如高斯噪声选择法,还有我们在DAE语境下现在称为 input dropout 的方法。MNIST 上的一些初步结果看起来是成功的(约 0.8% 的排列不变量),如果你感兴趣,我可以把有关的代码发给你。你认为这个方向算不算有潜力呢?你能给我推荐一些相关的论文资料么?我很难找到它们。

没有人有水晶球,但是在你看来你接下来推进你的你的工作最有趣的领域是什么。比如,过去几年单纯的监督学习为 dropout 的成功留下了许多空间。感谢你这次的 AMA,有你在这里答疑真是太棒了!

yoshua_bengio: 我目前没有明确的MOOC计划,但是以后可能会开一门。最近我在写一本全面的深度学习的新书(与Ian Goodfellow和Aaron Courville一起合作)。过几个月可能会放出几章草稿,非常欢迎社区和同学们提出反馈。注意Hugo Larochelle(我之前的博士生,现在是 Hinton 的博士后)有一个很好的深度学习视频(在他个人主页上还可以找到掩饰文档)。

我觉得最近大家对于神经网络的兴趣飙升,主要是因为机器学习界浪费了很多年的时间,没有在这方面探索,特别是1996到2006这20年。现在确实有一些夸大其词,尤其是在媒体上。这是非常不幸的,同时也是非常危险的,会被一些想要一夜暴富的公司所利用。危险在于泡沫,天花乱坠的许诺,缺乏出色的实验结果作为根据。科学在大部分时候都是小步前进的,我们必须保持谦卑。

我没有水晶球,但是我相信改进我们联合分布的建模能力(通过非监督的方式,或适应特定输入,隐式或显式地学习良好的表征)对未来深度学习的进展,尤其是朝向人工智能级别的机器理解世界方面,非常重要。

另外一个比较容易做出的预测是我们需要并且将在高效地训练更大的模型方面取得进展。这涉及到改进我们训练模型的方式(包括数值优化),也涉及到更高效的计算(比如通过并行或者其他的技巧来避免在每个样本上进行牵扯到整个神经网络的计算)。

你可以在arxiv上找到我的论文 “looking forward”:http://arxiv.org/abs/1305.0445

Sigmoid_Freud:传统的(深度或非深度的)神经网络看起来有一定的局限性,因为它们无法保留上下文信息。每个数据点/样本都是独立对待的。回归神经网络(Recurrent Neural Network,RNN)克服了这个问题,但是它们看起来非常难以训练,已经很有不同设计的尝试,看起来也不怎么成功。

您觉得RNN在未来会更流行么?在什么应用上,使用什么样的设计?非常感谢你抽时间回答!

yoshua_bengio:回归或者递归网络,在各种类型的依赖结构或不定长对象的建模上,非常有用。我们在如何训练RNN有了一些进展,这也是当前深度学习社区研究工作的重要部分。应用的例子有:语音识别(特别是语言部分),机器翻译,情感分析,语音合成,手写合成与识别等等。

omphalos:我很好奇,想听听你对liquid state machine(LSM)和深度学习的看法。

yoshua_bengio:liquid state machine和echo state networks(ESN)不会学习回归权重,换句话来说,它们不学习表征。相反,深度学习的核心目的,就是学习好的表征。从某个角度上来讲,LSM/ESN跟SVM很像,即给定一堆确定的特征,使用一个线性的预测器。这里用到的特征是跟以前的序列有关的函数,通过一些巧妙设置的初始回归权重。这些特征非常好,但是加以学习,它们能变得更好!

PasswordIsntHAMSTER:Bengio 好,我是McGill大学的本科生,从事类型论研究。感谢你参与 AMA。问题:

  • 我所在的领域很注重形式化证明,机器学习领域是否很关注形式化证明呢?如果没有的话,怎么保证学科的严谨性?
  • 有没有人研究用深度学习生成程序呢?我的直觉是渐渐地我们可以用类型论来声明一个程序,然后用深度学习来“搜索”符合要求的一个实例,但我觉得我们离这还很远。
  • 你可以举几个例子,关于机器学习中独特的数据结构么?
  • 我如何从零开始进入深度学习领域呢?我不知道应该看什么样的资料。不过如果我能做出一些雏形,我非常愿意应聘你团队的研究职位。

yoshua_bengio:有一种简单的方法使你无需证明就能够得到科学的严谨性,在科学上用得非常多:它叫做科学方法,它依赖实验和猜想的验证。另外,深度学习的论文里逐渐出现越来越多的数学。有一段时间,我曾对证明深度和浅度架构的属性很感兴趣(可以看我和 Delalleau 的论文,以及最近和 Pascanu 一起合作的更多论文)。我还跟Nicolas Le Roux一起在RBM和DBN的近似特性上做了一点工作。我建议你去看看 Montufar 的文章,其中有很炫的数学。

从零开始学习深度学习?有很多材料值得参考,有些在 deeplearning.net 上也有列出:

  • 我2009年的论文/书(正在写新版)
  • Hugo Larochelle的神经网络课程还有youtube 视频 (他的个人网页上有演示文档)
  • 深度网络训练实用推荐
  • 最近的一篇综述

PokerPirate:我从事概率编程语言方面的研究,你觉得会不会有“深度学习编程语言”(不管它是什么意思)呢?让新手更容易构建自己的深度学习模型。

ian_goodfellow:我是 Yoshua 的研究生,我们实验室现在开发了一个Python库,叫做Pylearn2,它可以让非专家人员相对容易地尝试深度学习。你仍然需要对算法有一定了解,它们是用来做什的,但是至少你不需要自己实现它们了。

wardnath:Bengio 博士,在您的论文“Big Neural Networks Waste Capacity”中,您提出梯度下降法在神经元很多的时候没有少量神经元的情形下好。为什么增加的这些神经元链接导致了更糟的局部极小值?您觉得类似 Hessian Free (Martens 2010)的方法是否足够克服这个问题?

参考:

Dauphin, Yann N., and Yoshua Bengio. "Big neural networks waste capacity." arXiv preprint arXiv:1301.3583 (2013).
Martens, James. "Deep learning via Hessian-free optimization." Proceedings of the 27th International Conference on Machine Learning (ICML-10). 2010.

dhammack:我觉得这个问题的答案是增加的神经元链接导致了更多的曲率(非对角海森矩阵)。梯度下降法,作为一阶方法,回忽略这些曲率(它假设海森矩阵是单位矩阵)。所以神经元多了以后,梯度下降法就会在极小值附近跳来跳去。

yoshua_bengio:这个回答的精神和我对这个问题的理解是一致的。当我们讨论局部极小值的时候还不是很明显,我想把它叫做有效的局部极小值,因为训练开始出问题了(它们可能是鞍部的点或者是其他类型的平滑区域的点)。我们也知道二阶方法在大多数情形下也不能创造奇迹。所以这里还有一些我们目前还不理解的机制。

问:我居住在蒙特利尔,在创业公司工作。我对你的工作非常感兴趣。非常感谢你参加这个 AMA。我花了很大力气才挑出最想问的一个问题:貌似机器学习专家以及学术界对 Kaggle 之类的竞赛不是很感兴趣。我知道获胜的概率确实比较低,让投入的时间和产出不成比例。但是很多机器学习爱好者趋之若鹜,他们获胜的概率和投入产出比应该更低。一个机器学习领域的专家花上几个小时应该就可以带来一些贡献。你可以想象一个开放、协同的角度,专家和爱好者一起高效地协作?

答:这了有一个专家赢得Kaggle竞赛的例子,这里则是一个赢得Netflix的例子

不过我觉得他们不参与这种竞赛的原因,可能是因为表现不佳的 ML 研究者不会获胜,因此不会发表结果。而有好结果的人能从企业那里得到数以百万的报酬。因此何必参加类似的比赛呢?


原文 AMA Yoshua Bengio
翻译 SegmentFault