Twitter?上有个帐号
StatMLPapers
会每天摘录20篇左右机器学习相关论文分别发推,2017年一年共发送了五千多条论文推特。我们找出了其中点赞最多的10条论文推特,给大家看看是哪10篇论文在twitter上得到了最多的关注。
Top 1. Don't Decay the Learning Rate, Increase the Batch Size
论文地址:
https://arxiv.org/abs/1711.00489 内容简介:当学习曲线不理想的时候,大家通常的选择是选用更小的学习率。然而在这篇论文中作者提出此时应该换用更大的 batch size,这对 SGD、带有动量的 SGD、动量 Nesterov、Adam 都有效。更大的 batch size 在同样的训练 epoch 之后可以达到同等的测试精度,而所需的参数更新操作更少,这让更高的并行度和更短的训练时间都成为可能。作者们还讨论了几个训练参数之间如何协调。作者们最终用高达 65536 的 batch size 在 ImageNet 上训练了 Inception-ResNet-V2,只经过 2500 次参数更新就达到了 77% 的验证准确率。
神经网络训练和参数选择对研究人员们来说往往是玄学般的存在,这篇论文确实帮大家解答了一些疑惑、给出了新的观点和方法,同时也引发了研究者们之间的更多讨论,是一篇有价值的论文。
Top 2. Stopping GAN Violence: Generative Unadversarial Networks
论文地址:
https://arxiv.org/abs/1703.02528 内容简介:这是一篇非常严肃的论文(误)。根据作者们所述,随着生成性对抗式网络 GANs 在研究界的流行,其中的「对抗性」也越来越多地激发了人性中的暴力。所以在这篇论文中,作者们对 GANs 引发的财经、社会、信仰、文化、语言以及皮肤问题进行了量化讨论,并据此提出了生成式不对抗性网络(Generative Unadversarial Networks,GUNs),以便为和平做出贡献。网络中的生成器 G 会尽力捕捉自己喜欢的数据分布,而鼓励器 M 则会帮助 G 达到自己的目标。两个模型间的冲突是绝对禁止的,而且它们能学会尊重它们之间的差别从而变得更好。这是一场共赢的比赛,双方选手需要肩并肩尝试达到最高的分数。实验表明,在和睦的协作中,所提的模型得以同时占据道德和对数似然的高地。论文的工作基于积蓄已久的、经过反复详细讨论的匿名 YouTube 评论中的观点立场,而这也表明了解决网络和网络之间的暴力问题需要 GUNs(guns)。
这篇论文正文中还有非常多的笑料,欢迎阅读雷锋网 AI 科技评论详细报道文章「用充满爱与和平的GUNs挑战GANs?我可能看了篇假论文」
Top 3. Deep Probabilistic Programming
论文地址:
https://arxiv.org/abs/1701.03757 内容简介:这篇论文中,作者们提出了一种图灵完备的概率编程语言「Edward」。论文中展示出,概率编程的灵活性和计算高效性就和传统的深度学习一样好。Edward 也可以集成在 TensorFlow 中,相比其它现有的概率系统取得了明显的性能提升。这篇论文也被 ICLR 2017 接收。
4. Generalization in Deep Learning
论文地址:
https://arxiv.org/abs/1710.05468 内容简介:如题,这篇论文围绕深度学习领域最令人迷惑的开放性问题之一进行了讨论,对深度学习模型虽然有很大的容量、可能的算法不稳定、不鲁棒、尖锐极点等问题,但还是具有优秀的泛化性的性质给出了自己的解答。基于作者们的理论见解,这篇论文还提出了一组新的正则化方法,其中最简单的方法也可以帮助基准模型在?MNIST?和?CIFAR-10?中取得有竞争力的表现。此外,这篇论文还提出了依靠数据和不依靠数据的泛化保证,并带有更高的收敛速度。
5. Deep Learning: A Bayesian Perspective
论文地址:
https://arxiv.org/abs/1706.00473 内容简介:这篇论文中,作者们把贝叶斯概率方法引入深度学习中,为深度学习找到更高效的优化算法和超参数调节方法。传统的数据降维方法,PCA、PLS、RRR、PPR 等,在基于深度学习的降维方法面前都显得效果一般。另一方面,贝叶斯正则化方法也可以在寻找网络的权重和连接中起到重要作用,在预测偏差和稳定性之间取得更好的平衡。
6. GPflowOpt: A Bayesian Optimization Library using TensorFlow
论文地址:
https://arxiv.org/abs/1711.03845 内容简介:又一篇贝叶斯相关的论文,这确实是今年的热点话题之一。这篇论文介绍了用于贝叶斯优化的新 Python 框架 GPflowOpt。代码库基于热门的高斯过程库 GPflow,同时也利用到了自动微分、并行化和 GPU 加速等等 TensorFlow 提供的功能。框架已经经过了彻底的测试,文档也编写精美,同时提供了一定的拓展性。论文发表时的 GPflowOpt 发行版提供了标准的单一目标获取函数、最先进的最大熵搜索以及贝叶斯多目标等方法。GPflowOpt 也提供了易用的自定义建模策略。
7. Dance Dance Convolution
论文地址:
https://arxiv.org/abs/1703.06891 内容简介:2017 年 3 月的时候游戏 AI 还没有现在这么火热,所以这篇用循环神经网络和卷积神经网络合力玩游戏的论文在当时马上引发了关注。这款游戏名为 Dance Dance Revolution(劲舞革命),玩家需要跟着音乐的节奏,按游戏的提示按下上下左右键,而这款 AI 的要做的就是为歌曲生成新的动作单(满足玩家的新鲜感)。AI 模型也就很自然地分为了两个部分,一部分决定何时布置下一个动作,另一部分选择一个方向。作者们用 RNN+CNN 从低阶音频特征中提取节奏特征用来预测布置动作的时间;而方向选择的生成式 LSTM 也比传统的 n 元、固定窗口方法有更好的表现。
雷锋网 AI 科技评论详细报道请见「人工智能也能玩音乐游戏,自动学习编曲变身劲舞大师」
8. How Well Can Generative Adversarial Networks (GAN) Learn Densities: A Nonparametric View
论文地址:
https://arxiv.org/abs/1712.08244 内容简介:这篇论文讨论了生成性对抗式网络 GANs 学习数据密度时的收敛速度,同时加入了一些非参数化统计中的思想。作者们提出了一种改进的 GAN 估计器,通过利用目标密度和评价指标的一定光滑性,达到了更高的收敛速度,同时也理论上可以缓解其它文献中提到的模式崩溃问题。作者们构建了一个极大极小下界,显示出当维度很高是,这个新的 GAN 中的收敛速度的指数已经逼近了最优值。对于读者来说,可以把这篇文章看作是对于「在层次化的评估指标下,GAN 学习各种各样的、带有不同的光滑性的密度的能力有多好」的回答。
9. A Closer Look at Memorization in Deep Networks
论文地址:
https://arxiv.org/abs/1706.05394 内容简介:这篇论文研究了深度学习的记忆能力,尝试在网络容量、泛化能力和对抗性样本的鲁棒性之间建立联系。虽然深度神经网络有能力记忆数据噪声,不过作者们的研究结果表明,网络还是倾向于先学习简单的模式的。作者们通过实验揭示了基于梯度优化的深度神经网络在学习噪声和真实数据之间的量化区别。同时,作者们也表明,对于适当选择的显式正则化方法(比如?dropout),用噪声数据训练网络时可以降低网络的表现,同时并不影响网络在真实数据上的泛化性水平。作者们的分析还指出,独立于数据集的“有效容量”这一概念并不能解释用梯度方法训练的深度神经网络的泛化性表现,因为训练数据自身就能够对网络的记忆水平产生影响。
10. On Unifying Deep Generative Models
论文地址:
https://arxiv.org/abs/1706.00550 内容简介:生成式对抗性网络 GANs 和变分自动解码器 VAEs 都是强有力的深度生成学习范式,人们也往往把它们看作两种迥异的方法,分别进行深入研究。这篇论文通过一种新的 GANs+VAEs 方程在这两种方法之间建立了正式的联系。作者们表明,GANs 和 VAEs 根本上都是在缩小各自的后验概率和推理分布的 KL 距离,只不过是在不同的方向上,从而分别产生了这两种分时激活的算法。这篇论文中提出的统一视角为分析现有的各种模型变种提供了一个有力的工具,并且可以帮助前沿研究人员们以正式的方法交流观点。量化实验结果也表明了不同方法之间互相借用的拓展方法的通用性和有效性。
这十篇论文中毫不意外地包含了工程技术讨论和新开发框架介绍的论文,而独树一帜的?GUNs (搞笑)论文也让我们期待起2018年会不会有更多一本正经地搞笑、甚至就是完全开脑洞的论文呢?论文作者们自黑起来毕竟毫不客气啊。希望2018年大家都能在做出成果、推动学术进步的同时,也在学术研究和社会生活中获得更多的乐趣。