您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
雷峰网
  • AI研习社
  • 雷峰网公开课
  • 活动中心
  • GAIR
  • 专题
  • 爱搞机
此为临时链接,仅用于文章预览,将在时失效
人工智能学术 正文
发私信给杨晓凡
发送

0

能牺牲大语种、提升小语种翻译质量的谷歌多语言机器翻译

本文作者: 杨晓凡 2019-10-16 19:15
导语:当你把太多语言塞进同一个模型的时候……

雷锋网 AI 科技评论按:近期,谷歌拓展了机器翻译系统的边界:用所有可用的数据训练一个超大规模的多语言神经机器翻译系统。这不仅是一次大胆的尝试,也更新了我们对机器翻译模型的一些认识。雷锋网 AI 科技评论把谷歌的这篇介绍博客编译如下。另外,这篇介绍博客也提到了许多相关论文,我们在文中标出的同时,也在文末提供了统一说明和打包下载,方便各位仔细阅读。

能牺牲大语种、提升小语种翻译质量的谷歌多语言机器翻译

「也许语言翻译的奥妙,就在于从每种语言往下挖掘,一直挖到人类沟通的共同基础——那种真实存在但是尚未被发现的通用语言——然后从那里重新衍生出方便的具体路径。」  —— Warren Weaver, 1949

寻找新的挑战

过去几年中,得益于神经机器翻译(NMT)技术的流行,机器翻译的质量越来越高。不过神经机器翻译的成功也同时依赖于大量的有监督训练数据。所以对于只能找到很少标注数据、甚至找不到标注数据的语言要怎么处理呢?人们有一个归纳偏倚,认为「对于学习某一个语言有用的信号也能提高翻译到其它语言的质量」,这种补救方法似乎有一些潜力,也就带来了多语言神经机器翻译。

多语言机器翻译是用单个翻译模型处理多种不同的语言。对于缺少标注数据的语言而言,多语言训练的方法已经在谷歌的自动语音识别和文本转语音系统中发挥了效果,此前的多语言翻译论文( 论文 1、 论文 2、 论文 3)中也有体现。谷歌自己曾经做过一次实验,研究让单个网络学习更多的语言会如何影响它的表现( 论文 4)。不过在那次的研究中谷歌限制了每种语言的训练数据的多少,如果训练模型的时候不再考虑不同语言的数据多少、复杂度和领域,反正把找得到的数据都用上,效果会如何呢?

在最新的论文《Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges》( 论文 5)以及紧接着的几篇论文中( 论文 6、 论文 7、 论文 8 、 论文 9),谷歌做了一个逼近极限的实验,他们用超过 100 种语言对英语、一共超过 250 亿组句子对的数据上,训练了一个有 500 亿参数的多语言机器翻译模型。结果表明这种做法不仅可以产出一个在低资源语言和高资源语言上都有更好表现的模型,而且它还可以轻松地改造成单个语言对的模型,还在下游的跨语言迁移任务中也有很好的表现。他们把这个超多语言、超大神经网络模型(massively multilingual, massive neural machine translation)称作 M4。

大规模多语言机器翻译

虽然不同的语言有不同的语料数量是神经机器翻译方法中的一大挑战,但这种状况同时也是研究迁移的理想环境,也就是研究训练提升了对某一种语言的翻译能力以后能否用它来提高对其他语言的翻译能力。在语言-语料分布的一端,有英语对法语、德语、西班牙语这种语料非常丰富的,很容易找到十亿级的平行语料样本,而英语对约鲁巴语、信德语、夏威夷语这种小语种的平行语料就非常缺乏,可能只有成千上万而已。

能牺牲大语种、提升小语种翻译质量的谷歌多语言机器翻译

不同语言的资源数量(纵轴是 log 尺度),以及只使用各自的双语语料训练翻译模型得到的 BLEU 分数

在用所有找得到的数据(103 种语言对英语的句子对,一共超过 250 亿组)训练模型之后,谷歌的研究人员们观察到越低资源的语言就有越明显的提升,资源最低的 30 种语言的翻译质量平均提升了 5 BLEU。这种效果是此前就得到过研究、这次也在预料之中的,不过这个结果仍然让人感到欣喜,毕竟这个多语言模型中对于每种语言的具体表征容量和一个一般的双语模型是一样的。这个发现表明大规模多语言模型的泛化能力很强大,而且可以在众多不同的语言之间找到表征的相似性。

能牺牲大语种、提升小语种翻译质量的谷歌多语言机器翻译

相比于用双语语料分别训练的模型,单个大规模多语言翻译模型能大大提升低资源语言的翻译质量;但高资源语言的翻译质量反而有所下降

在谷歌的 EMNLP 2019 论文《Investigating Multilingual NMT Representations at Scale》( 论文 7)中,他们也比较了这个多语言模型为不同语言生成的表征。他们发现,不需要施加外部的约束,多语言翻译模型就能够为语法类似的语言学习到共享的表征,以便利用这些相似性。在论文《Evaluating the Cross-Lingual Effectiveness of Massively Multilingual Neural Machine Translation》( 论文 8)中,谷歌的研究人员们进一步在跨语言的下游迁移任务上表明了这些学习到的表征的有效性。

能牺牲大语种、提升小语种翻译质量的谷歌多语言机器翻译

根据表征相似性对所有 103 种语言的编码表征进行聚类的结果。图中带颜色的椭圆是语言学分类的结果 —— 和根据表征的聚类基本相符

构建大规模神经网络

随着谷歌的研究人员们增加模型要学习的低资源语言的数量,高资源语言的翻译质量反而开始下降。这种衰减现象可以在多任务设置下观察到,可能由于任务间的补全以及迁移固有的方向性(总是从高资源语言向低资源语言迁移)。换用更好的学习算法( 论文 10)和更好的容量控制算法( 论文 11)可以缓解这种负向迁移的作用,他们同时还尝试了把网络扩大,增加网络的参数、提升网络的容量,以便提升高资源语言的翻译质量。

为了提升网络容量,谷歌的研究人员们其实使用了很多技巧,包括增加更多的层、让隐层的表征更宽。在之前的尝试更深的翻译网络的研究( 论文 12)的基础上,他们使用了 GPipe 库来训练一个 128 层的 Transformer 模型,其中含有超过 60 亿个参数。增加模型容量大幅提升了模型在所有语言中的表现,平均提升了 5 BLEU。他们还探究了非常深的网络的其它特性,比如网络深度宽度间的取舍、网络的可训练性,甚至尝试了进一步把网络拓展到超过 1500 层、含有超过 840 亿个参数。

提升模型容量的方法也并不只有直接增加深度一种,还有一种很有意义的补充方案是探索新的架构,以便更好地利用这个问题的「多任务」这个特点。谷歌的研究人员们尝试了把 Transformer 架构本来的正常的前馈层替换成多个专家模型混合组成的稀疏门( 论文 13),也大幅提高了模型的容量、成功训练了这样的模型,模型含有的参数也超过了 500 亿;这都让模型的翻译质量继续得到全方面的提高。

能牺牲大语种、提升小语种翻译质量的谷歌多语言机器翻译

用容量更大的模型,配合增加更多语料,高资源语言的翻译质量也能和低资源语言一样继续得到提升

把 M4 模型变得实用

为不同的语言、不同的任务或者迁移任务分别训练不同的大规模模型本来就是很消耗资源、很低效率的一件事,这次谷歌的多语言机器翻译模型更是一个强力的模型,可以作为向单个语言、单个任务迁移的基础。谷歌也设计了一些方法( 论文 9)提高 M4 模型的实用性,比如可以通过容量可调的层让 M4 模型可以适应到针对某个语言或者某个人物,而不需要改变原有的模型。

下一步迈向哪里?

有语言学家估计,目前全世界存在的大约 7000 种语言中,在 2100 年以前就会消失一半。多语言翻译技术能起到一定的拯救作用吗?谷歌认为 M4 模型就是在目前的基础上再多拯救 1000 种语言的一个很有希望的办法,把这样的多语言翻译模型作为基础,可以很轻松地拓展到新语言、新领域、新的下游任务上去,甚至当我们没有平行语料的时候都可以做出成果。当然了,我们面对的挑战还有不少,想要得到真正通用的多语言机器翻译模型也还需要一些跨领域的合作。不过,对于机器学习开发者和理论研究者来说,多语言机器翻译模型都是一个多任务学习、元学习、机器学习动力学研究的有趣的实验环境。我们未来还可以做得更好。

提及的论文查阅

  • 论文 1:Multi-Task Learning for Multiple Language Translation, https://www.aclweb.org/anthology/P15-1166/ 

  • 论文 2:Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation, https://arxiv.org/abs/1611.04558 

  • 论文 3:Multi-Way, Multilingual Neural Machine Translation with a Shared Attention Mechanism, https://www.aclweb.org/anthology/N16-1101/ 

  • 论文 4:Massively Multilingual Neural Machine Translation, https://arxiv.org/abs/1903.00089 

  • 论文 5:Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges, https://arxiv.org/abs/1907.05019 

  • 论文 6:GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism, https://arxiv.org/abs/1811.06965 

  • 论文 7:Investigating Multilingual NMT Representations at Scale, https://arxiv.org/abs/1909.02197 

  • 论文 8:Evaluating the Cross-Lingual Effectiveness of Massively Multilingual Neural Machine Translation, https://arxiv.org/abs/1909.00437 

  • 论文 9:Simple, Scalable Adaptation for Neural Machine Translation, https://arxiv.org/abs/1909.08478 

  • 论文 10:Adaptive Scheduling for Multi-Task Learning, https://arxiv.org/abs/1909.06434 

  • 论文 11:Soft Conditional Computation, https://arxiv.org/abs/1904.04971 

  • 论文 12:Training Deeper Neural Machine Translation Models with Transparent Attention, https://arxiv.org/abs/1808.07561 

  • 论文 13:Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, https://arxiv.org/abs/1701.06538 

这 13 篇论文打包下载见  https://www.yanxishe.com/packages/12

via  ai.googleblog.com,雷锋网 AI 科技评论编译

雷峰网版权文章,未经授权禁止转载。详情见 转载须知。

能牺牲大语种、提升小语种翻译质量的谷歌多语言机器翻译

0人收藏
分享:
相关文章
  • 夸克App启动“暖芒计划3.0”高考公益活动 助力乡村考 ...
  • 港投公司与「港产独角兽」思谋科技今签定战略合作协 ...
  • 新生与对话,华东师范大学上海人工智能金融学院举办 ...
  • 上线AI聊天助理、异世界回响,Soul App模应一体方法 ...
杨晓凡

读论文为生

日常笑点滴,学术死脑筋
发私信
当月热门文章
最新文章
  • 该怎么让机器人吃下大模型?丨GAIR live
  • 专访腾讯AI Lab姚建华、杨帆:腾讯 AI Lab 为何瞄准单细胞蛋白质组学?
  • 专访上海大学方昱春教授:数据驱动的手语识别研究,如何破解数据之困?|GAIR live
  • 对话上交苏剑波教授:直面手语的「方言」多样性与系统「通用性」挑战|GAIR live
  • 对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR
  • 讲座预约 | 四位专家大论道 :AI+手语识别,技术革新与应用前景|GAIR live
热门搜索
三星 机器学习 VR 安全 黑莓 隐私 Model 3 操作系统 CPU Galaxy S5 边缘计算
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请 验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以 设置密码以方便用邮箱登录
立即设置 以后再说

深圳SEO优化公司林芝网站建设设计推荐衡水seo推荐深圳网站建设设计阿里网页制作推荐焦作网页设计推荐漯河如何制作网站哪家好铁岭网站优化软件多少钱辽阳百搜标王上海网站设计推荐同乐英文网站建设价格兰州营销网站推荐汕尾百度标王哪家好坪山SEO按效果付费推荐菏泽外贸网站设计哪家好上海营销网站报价晋中网站推广方案公司荷坳网站优化按天收费多少钱松岗百度网站优化排名价格雅安SEO按天收费价格海北关键词按天收费哪家好黔西南网站开发多少钱连云港如何制作网站价格清徐企业网站改版大浪模板制作多少钱重庆建站文山优秀网站设计推荐抚州阿里店铺运营哪家好大丰网站seo优化价格资阳推广网站诸城关键词按天扣费公司歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化