您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
雷峰网
  • AI研习社
  • 雷峰网公开课
  • 活动中心
  • GAIR
  • 专题
  • 爱搞机
此为临时链接,仅用于文章预览,将在时失效
人工智能学术 正文
发私信给skura
发送

0

NeurIPS 2017 论文 2018 年引用量排名揭晓,这里是排名前三的论文解读

本文作者: skura 编辑: 汪思颖 2018-12-19 13:01 专题:NeurIPS 2018
导语:2017 年在 NeurIPS 上发表的论文在 2018 年引用量超过 100 的有 19 篇,attention is all your need 占榜首~

雷锋网 AI 科技评论按,12 月上旬,NeurIPS 2018 在加拿大蒙特利尔会展中心(Palais des Congrès de Montréal)成功举办,雷锋网对此进行了报道。今年的会议在主题活动、投稿论文数量和参会人数上,相比往年都上了一个新台阶。NeurIPS 2018 吸引了近九千人参加,最终 1010 篇论文被接收,其中,有四篇论文被评为最佳论文,接收的覆盖了十大研究领域。

看完新论文,别忘旧论文。日前,学术头条对入选 NeurIPS 2017 的论文在 2017.12 至 2018.12 之间的引用量进行了统计,引用量超过 100 的论文有 19 篇,论文名单如下:

NeurIPS 2017 论文 2018 年引用量排名揭晓,这里是排名前三的论文解读NeurIPS 2017 论文 2018 年引用量排名揭晓,这里是排名前三的论文解读

可以看到,引用量排名前三的论文分别是 Attention Is All You Need、Improved Training of Wasserstein GANs 和 Dynamic Routing Between Capsules。此前,雷锋网对这几篇论文也有过解读,今天,就和大家一起再复习下吧。

  • Attention Is All You Need

这是谷歌与多伦多大学等高校合作发表的一篇论文,他们提出了一种新的网络框架——Transformer。Transformer 是完全基于注意力机制(attention mechanism)的网络框架,放弃了 RNN 和 CNN 模型。

众所周知,在编码-解码框架中,主流的序列传导模型都是基于 RNN 或者 CNN,其中能完美连接编码器和解码器的是注意力机制。而谷歌提出的这一新框架 Transformer,则是完全基于注意力机制。

Transformer 用于执行翻译任务,实验表明,这一模型表现极好,可并行化,并且大大减少了训练时间。Transformer 在 WMT 2014 英德翻译任务上实现了 28.4 BLEU,改善了现有的最佳成绩(包括超过 2 个 BLEU 的集合模型),在 WMT 2014 英法翻译任务中,建立了一个新的单一模式,在八个 GPU 上训练了 3.5 天后,最好的 BLEU 得分为41.0,这在训练成本最小的情况下达到了最佳性能。由 Transformer 泛化的模型成功应用于其他任务,例如在大量数据集和有限数据集中训练英语成分句法解析的任务。

注意力机制是序列模型和传导模型的结合,在不考虑输入输出序列距离的前提下允许模型相互依赖,有时(但是很少的情况),注意力机制会和 RNN 结合。

模型结构如下:

编码器:编码器由 6 个完全的层堆栈而成,每一层都有两个子层。第一个子层是多头的 self-attention 机制,第二层是一层简单的前馈网络全连接层。在每一层子层都有 residual 和归一化。

解码器:解码器也是由 6 个完全相同的层堆栈而成,每一层有三个子层,在编码栈的输出处作为多头的 attention 机制。

注意(attention):功能是将 Query 和一组键-值对映射到输出,那么包括 query、键、值及输出就都成为了向量。输出是值的权重加和,而权重则是由值对应的 query 和键计算而得。

  • Improved Training of Wasserstein GANs

在该论文中,蒙特利尔大学的研究者对 WGAN 进行改进,提出了一种替代 WGAN 判别器中权重剪枝的方法。

论文摘要

生成对抗网络(GAN)将生成问题当作两个对抗网络的博弈:生成网络从给定噪声中产生合成数据,判别网络分辨生成器的的输出和真实数据。GAN 可以生成视觉上吸引人的图片,但是网络通常很难训练。前段时间,Arjovsky 等研究者对 GAN 值函数的收敛性进行了深入的分析,并提出了 Wasserstein GAN(WGAN),利用 Wasserstein 距离产生一个比 Jensen-Shannon 发散值函数有更好的理论上的性质的值函数。但是仍然没能完全解决 GAN 训练稳定性的问题。

所做工作

通过小数据集上的实验,概述了判别器中的权重剪枝是如何导致影响稳定性和性能的病态行为的。

提出具有梯度惩罚的 WGAN(WGAN with gradient penalty),从而避免同样的问题。

展示该方法相比标准 WGAN 拥有更快的收敛速度,并能生成更高质量的样本。

展示该方法如何提供稳定的 GAN 训练:几乎不需要超参数调参,成功训练多种针对图片生成和语言模型的 GAN 架构。

WGAN 的 critic 函数对输入的梯度相比于 GAN 的更好,因此对生成器的优化更简单。另外,WGAN 的值函数是与生成样本的质量相关的,这个性质是 GAN 所没有的。WGAN 的一个问题是如何高效地在 critic 上应用 Lipschitz 约束,Arjovsky 提出了权重剪枝的方法。但权重剪枝会导致最优化困难。在权重剪枝约束下,大多数神经网络架构只有在学习极其简单地函数时才能达到 k 地最大梯度范数。因此,通过权重剪枝来实现 k-Lipschitz 约束将会导致 critic 偏向更简单的函数。如下图所示,在小型数据集上,权重剪枝不能捕捉到数据分布的高阶矩。

NeurIPS 2017 论文 2018 年引用量排名揭晓,这里是排名前三的论文解读

由于在 WGAN 中使用权重剪枝可能会导致不良结果,研究者考虑在训练目标上使用 Lipschitz 约束的一种替代方法:一个可微的函数是 1-Lipschitz,当且仅当它的梯度具有小于或等于 1 的范数时。因此,可以直接约束 critic 函数对其输入的梯度范数。新的 critic 函数为:

NeurIPS 2017 论文 2018 年引用量排名揭晓,这里是排名前三的论文解读

使用 GAN 构建语言模型是一项富有挑战的任务,很大程度上是因为生成器中离散的输入输出序列很难进行反向传播。先前的 GAN 语言模型通常凭借预训练或者与监督最大似然方法联合训练。相比之下,使用该论文的方法,不需采用复杂的通过离散变量反向传播的方法,也不需要最大似然训练或 fine-tune 结构。该方法在 Google Billion Word 数据集上训练了一个字符级的 GAN 语言模型。生成器是一个简单的 CNN 架构,通过 1D 卷积将 latent vector 转换为 32 个 one-hot 字符向量的序列。

该文提供了一种训练 GAN 的稳定的算法,能够更好的探索哪种架构能够得到最好的生成模型性能。该方法也打开了使用大规模图像或语言数据集训练以得到更强的模型性能的大门。

本论文在github上开源了代码: github

本论文同时也提供了详细的数学证明,以及更多的示例,进一步了解请阅读原论文: Improved Training of Wasserstein GANs

  • Dynamic Routing Between Capsules

为了避免网络结构的杂乱无章,Hinton 提出把关注同一个类别或者同一个属性的神经元打包集合在一起,好像胶囊一样。在神经网络工作时,这些胶囊间的通路形成稀疏激活的树状结构(整个树中只有部分路径上的胶囊被激活),从而形成了他的 Capsule 理论。Capsule 也就具有更好的解释性。

Capsule 这样的网络结构在符合人们「一次认知多个属性」的直观感受的同时,也会带来另一个直观的问题,那就是不同的胶囊应该如何训练、又如何让网络自己决定胶囊间的激活关系。Hinton 这篇论文解决的重点问题就是不同胶囊间连接权重(路由)的学习。

解决路由问题

首先,每个层中的神经元分组形成不同的胶囊,每个胶囊有一个「活动向量」activity vector,它是这个胶囊对于它关注的类别或者属性的表征。树结构中的每个节点就对应着一个活动的胶囊。通过一个迭代路由的过程,每个活动的胶囊都会从高一层网络中的胶囊中选择一个,让它成为自己的母节点。对于高阶的视觉系统来说,这样的迭代过程就很有潜力解决一个物体的部分如何层层组合成整体的问题。

对于实体在网络中的表征,众多属性中有一个属性比较特殊,那就是它出现的概率(网络检测到某一类物体出现的置信度)。一般典型的方式是用一个单独的、输出 0 到 1 之间的回归单元来表示,0 就是没出现,1 就是出现了。在这篇论文中,Hinton 想用活动向量同时表示一个实体是否出现以及这个实体的属性。他的做法是用向量不同维度上的值分别表示不同的属性,然后用整个向量的模表示这个实体出现的概率。为了保证向量的长度,也就是实体出现的概率不超过 1,向量会通过一个非线性计算进行标准化,这样实体的不同属性也就实际上体现为了这个向量在高维空间中的方向。

采用这样的活动向量有一个很大的好处,就是可以帮助低层级的胶囊选择自己连接到哪个高层级的胶囊。具体做法是,一开始低层级的胶囊会给所有高层级的胶囊提供输入;然后这个低层级的胶囊会把自己的输出和一个权重矩阵相乘,得到一个预测向量。如果预测向量和某个高层级胶囊的输出向量的标量积更大,就可以形成从上而下的反馈,提高这两个胶囊间的耦合系数,降低低层级胶囊和其它高层级胶囊间的耦合系数。进行几次迭代后,贡献更大的低层级胶囊和接收它的贡献的高层级胶囊之间的连接就会占越来越重要的位置。

在论文作者们看来,这种「一致性路由」(routing-by-agreement)的方法要比之前最大池化之类只保留了唯一一个最活跃的特征的路由方法有效得多。

网络构建

作者们构建了一个简单的 CapsNet。除最后一层外,网络的各层都是卷积层,但它们现在都是「胶囊」的层,其中用向量输出代替了 CNN 的标量特征输出、用一致性路由代替了最大池化。与 CNN 类似,更高层的网络观察了图像中更大的范围,不过由于不再是最大池化,所以位置信息一直都得到了保留。对于较低的层,空间位置的判断也只需要看是哪些胶囊被激活了。

这个网络中最底层的多维度胶囊结构就展现出了不同的特性,它们起到的作用就像传统计算机图形渲染中的不同元素一样,每一个胶囊关注自己的一部分特征。这和目前的计算机视觉任务中,把图像中不同空间位置的元素组合起来形成整体理解(或者说图像中的每个区域都会首先激活整个网络然后再进行组合)具有截然不同的计算特性。在底层的胶囊之后连接了 PrimaryCaps 层和 DigitCaps 层。

胶囊效果的讨论

在论文最后,作者们对胶囊的表现进行了讨论。他们认为,由于胶囊具有分别处理不同属性的能力,相比于 CNN 可以提高对图像变换的健壮性,在图像分割中也会有出色的表现。胶囊基于的「图像中同一位置至多只有某个类别的一个实体」的假设也使得胶囊得以使用活动向量这样的分离式表征方式来记录某个类别实例的各方面属性,还可以通过矩阵乘法建模的方式更好地利用空间信息。不过胶囊的研究也才刚刚开始,他们觉得现在的胶囊至于图像识别,就像二十一世纪初的 RNN 之于语音识别——研究现在只是刚刚起步,日后定会大放异彩。

论文全文参见: https://arxiv.org/pdf/1710.09829.pdf

对这三篇论文感兴趣的朋友们,可以点击如下地址,查看更多更详细的解读:

谷歌推出基于注意机制的全新翻译框架,Attention is All You Need!

蒙特利尔大学研究者改进Wasserstein GAN,极大提高GAN训练稳定性

终于盼来了Hinton的Capsule新论文,它能开启深度神经网络的新时代吗?

雷峰网版权文章,未经授权禁止转载。详情见 转载须知。

NeurIPS 2017 论文 2018 年引用量排名揭晓,这里是排名前三的论文解读

2人收藏
分享:
相关文章
  • 探索计算机视觉前沿,蚂蚁技术研究院4篇论文入选Neu ...
  • NeurIPS 2022 | 创新奇智提出一种基于反标签学习的半 ...
  • 陈怡然最新访谈:通用、可解释的AI计算硬件设计将是 ...
  • 每人喜提10万美元!2022年摩根大通 AI 博士生奖学金 ...
专题

NeurIPS 2018

本专题其他文章

  • 距 NIPS 2018 还有小半年,会上的各种挑战赛已经开始啦
  • NIPS改名被否,而在改名分歧之外我们能做的还有很多
  • NIPS 2018 | 腾讯 AI Lab 入选 20 篇论文,含 2 篇 Spotlight
  • NIPS 2018 收录论文大盘点,腾讯 AI Lab、清华南大港中文榜上有名
  • 机器学习顶会 NIPS 要改名了?真的吗?
  • 听说 NIPS 2018 门票十分钟卖光,机器学习圈子炸了锅
more
skura

编辑

发私信
当月热门文章
最新文章
  • 该怎么让机器人吃下大模型?丨GAIR live
  • 专访腾讯AI Lab姚建华、杨帆:腾讯 AI Lab 为何瞄准单细胞蛋白质组学?
  • 专访上海大学方昱春教授:数据驱动的手语识别研究,如何破解数据之困?|GAIR live
  • 对话上交苏剑波教授:直面手语的「方言」多样性与系统「通用性」挑战|GAIR live
  • 对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR
  • 讲座预约 | 四位专家大论道 :AI+手语识别,技术革新与应用前景|GAIR live
热门搜索
VR iPad 网络安全 创客 乔布斯 中兴 裁员 iPad mini 创享会 微博精选 投融资
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请 验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以 设置密码以方便用邮箱登录
立即设置 以后再说

深圳SEO优化公司大庆模板推广宁德seo优化哪家好龙华关键词按天收费价格抚顺网站优化按天计费公司呼和浩特网站关键词优化公司大浪设计公司网站多少钱株洲网络广告推广毕节建设网站报价咸宁网站优化按天计费哪家好合肥模板网站建设昌吉网站制作设计推荐吴忠seo排名哪家好莱芜网站定制哪家好上海百姓网标王报价阳泉网站定制哪家好鸡西seo贵港网站优化按天收费网站开发哪家好荆门网站关键词优化哪家好坪山百姓网标王推广哪家好吉祥百度竞价推荐松岗百度网站优化排名哪家好丽水网络营销多少钱鹤岗网站优化推荐朔州网站优化排名公司秦皇岛企业网站设计多少钱贵港关键词排名包年推广恩施建站公司秦皇岛网站搜索优化甘南网站优化按天收费推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化