Transformer离线部署-GPU优化策略

前言<a id="sec-1"></a>

本文主要介绍Transformer类网络在GPU设备上部署上的优化要点。 主要围绕Nvidia开源的 FasterTransformer展开。

模型结构分析<a id="sec-2"></a>

标准的Transformer结构主要包括 EncoderDecoder 两部分结构,具体结构分析可参考 Transformer在CV领域的应用与部署:

Encoder对应算子结构为:

Decoder对应算子结构为:

可以发现:

Encoder/Decoder的基本结构还是一致的。其中主要算子(算力大头)为GEMM/Softmax算子;另外存在大量add bias/normalization操作(包含大量小算子)。从 Encoder 模型下面流水图中可以发现:大量的小算子会导致CPU侧的算子"Launch"时间变长,呈现“Launch Bound”的现象,无法完全发挥GPU的算力。

具体优化措施<a id="sec-3"></a>

基于Transformer类网络的基本结构,当前NVIDIA做了一系列的优化。首先是算子融合层面,可以进行一系列的小算子融合:

  1. LayerNorm小算子融合:add bias + layernorm
  2. 激活函数小算子融合:add bias + relu/gelu
  3. Softmax小算子融合:add bias + Softmax

另外核心算子层面:

  1. GEMM为主要耗时算子,cuBLAS着力进行了性能优化:QKV GEMM融合等/GEMM配置自动选择等
  2. 采用了优化的Softmax算子:FP32/FP16实现不同

其他优化点:

  1. 采用了half2数据类型,能够减少数据拷贝的空间
  2. 指令层面:
    1. _expf替换expf运算:精度更低,但是性能更好(主要提速softmax?)
    2. 采用 __shfl_xor_syncreduce 操作进行加速(Layernorm)


优化后的 Encoder 结构流水图如下,可见各算子之间基本不存在空隙,提高了GPU的利用率;同时对核心算子的优化也大大提升了模型性能。

参考资料<a id="sec-4"></a>

FasterTransformer Presentation-YouTube

深圳SEO优化公司焦作网站制作设计报价毕节SEO按天收费价格雅安网站关键词优化多少钱昌都百度爱采购报价新余seo网站推广哪家好张掖百搜标王报价南山网站推广方案报价宜昌网站改版报价六安网站推广工具推荐德州关键词按天收费公司达州百度爱采购报价河池网站优化排名平湖网站建设设计哪家好龙岩网站优化按天收费价格贺州网络推广哪家好茂名网站优化软件多少钱芜湖网络推广报价白城网站建设公司怒江网站优化按天扣费报价榆林优秀网站设计报价凉山如何制作网站价格南宁网站排名优化公司孝感企业网站制作保定至尊标王哪家好大连网站优化软件推荐玉树关键词按天收费保定百度爱采购多少钱保定seo哪家好阿里品牌网站设计公司玉树seo多少钱歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化