首发于 机器爱学习
图像描述:基于项的注意力机制

图像描述:基于项的注意力机制

我们以图像描述(Image Caption)为例来讲解基于项的注意力机制。图像描述任务是输入一张图片,生成对该图像的描述文本,可以表示为单词编码序列

y=\{\bm{y}_1,\cdots,\bm{y}_C\}, \bm{y}_i\in\mathbb{R}^K,

其中 K 是词表的大小, C 是描述文本的长度。

对于原图像,使用CNN来抽取它的特征,最后一个卷积层的输出可以产生 L 个向量,每一个向量是原图中一个区域的 D 维表示,可以看成一个序列

a=\{\bm{a}_1,\cdots,\bm{a}_L\}, \bm{a}_i\in\mathbb{R}^D.


一种不使用注意力机制的简单做法就是将上述向量 a 取平均池化或最大池化,然后输入到RNN解码器中做文本序列的生成,如下图所示。这种方法把图片每个部分的特征等权重对待,不能更细化地针对不同部位来生成每个单词,而注意力机制正合适解决这种问题。

不使用注意力机制的图像描述方法



这里注意力机制要处理的是包含明确的项的序列 a ,所以采用基于项的注意力(如下图所示)。注意力机制要计算出当前时刻 t 每个向量 \bm{a}_i 的权重 \alpha_{t,i} ,这里注意力模块 f_{\text{att}} 采用多层感知机,输入是向量 \bm{a}_i 和解码器上个时刻的状态 \bm{h}_{t-1}

\begin{align} e_{ti} &=f_{\text{att}}(\bm{a}_i,\bm{h}_{t-1}), \\ \alpha_{t,i} &= \frac{\exp(e_{ti})}{\sum_{k=1}^{L}\exp(e_{tk})}. \end{align}

使用基于项的注意力机制的图像描述方法


权重计算好之后,注意力机制就可以对输入序列$a$进行选择了

\begin{equation} \hat{\bm{z}}_t = \phi(\{\bm{a}_i\},\{\alpha_{t,i}\}), \end{equation}

其中 \phi 是一个函数,根据输入向量序列和对应的权重输出一个向量,它决定了注意力机制是硬性还是柔性的,具体下一段讲。有了注意力机制加工过的特征向量 \hat{\bm{z}}_t ,把它输入到解码器,通过全连接层输出该时刻应该是每个单词。训练时使用对数似然函数 \log p(\bm{y}_t|a,\bm{y}_{t-1}) 作为目标函数。

硬性注意力

在生成时刻 t 的单词时,对于 L 个图像区域特征 \bm{a}_i ,硬性注意力会从中选一个出来。令 s_t 为模型做决定的独热码向量,如果 \bm{a}_i 被选中,那么 s_{t,i}=1 。我们可以把 \alpha_{t,i} 看作概率,由它构成的多项分布用来做选择:

\begin{align}\label{eq:s} & p(s_{t,i}=1|s_{j<t},\bm{a}) =\alpha_{t,i}, \\ & \hat{\bm{z}}_t = \sum_{i}s_{t,i}\bm{a}_i. \end{align}

关于硬性注意力机制的训练,由于它是离散式进行选择,梯度无法直接计算,一个常见的做法是采用强化学习中的优化技术。因此,我们定义一个原目标函数的下界 L_s 作为新的目标函数

\begin{align} L_s &= \sum_{s}p(s|a)\log p(\bm{y}|s,a) \\ &\leq \log \sum_{s}p(s|a)p(\bm{y}|s,a) \\ &= \log p(\bm{y}|a). \end{align}

新的目标函数 L_s 对模型参数 \theta 的梯度为

\begin{align} \frac{\partial L_s}{\partial \theta} &= \sum_{s}\left( p(s|a)\frac{\partial\log p(\bm{y}|s,a)}{\partial\theta} + \log p(\bm{y}|s,a)\frac{\partial p(s|a)}{\partial\theta} \right) \\ &= \sum_{s}p(s|a)\left( \frac{\partial\log p(\bm{y}|s,a)}{\partial\theta} + \log p(\bm{y}|s,a)\frac{\partial\log p(s|a)}{\partial\theta} \right). \end{align}

由于 s 是由上面的多项分布生成的,所以 p(\bm{y}|s,a)\frac{\partial\log p(s|a)}{\partial\theta} 可以通过蒙特卡洛采样来估计:

\begin{equation} \frac{\partial L_s}{\partial \theta} \approx \frac{1}{M}\sum_{m=1}^M\left( \frac{\partial\log p(\bm{y}|s^m,a)}{\partial\theta} + \log p(\bm{y}|s^m,a)\frac{\partial\log p(s^m|a)}{\partial\theta} \right) \end{equation}

其中 s^m 是第 m 次采样的结果, M 是采样次数。这样,整个模型就可以通过梯度下降进行训练了。

柔性注意力

硬性注意力需要做随机的选择,我们也可以采用求 \hat{\bm{z}}_t 的期望的方式,这就是柔性注意力,

\begin{equation} \mathbb{E}_{p(s_t|a)}[\hat{\bm{z}}_t]=\sum_{i=1}^{L}\alpha_{t,i}\bm{a}_i, \end{equation}

也就是说, \phi 是一个线性加权函数 \phi(\{\bm{a}_i\},\{\alpha_{t,i}\})=\sum_{i=1}^{L}\alpha_{t,i}\bm{a}_i

柔性注意力的训练直接用标准的梯度下降即可,因为整个模型都是可微的。


注意力机制全集:


参考文献:

Wang F, Tax D M J. Survey on the attention based RNN model and its applications in computer vision[J]. arXiv preprint arXiv:1601.06823, 2016.

Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//International Conference on Machine Learning. 2015: 2048-2057.

Vinyals O, Toshev A, Bengio S, et al. Show and tell: A neural image caption generator[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 3156-3164.

深圳SEO优化公司盘锦网站建设设计报价横岗网站制作设计泉州模板制作报价清远网站推广报价梅州百度爱采购公司新乡网站优化排名多少钱德阳seo排名公司泰州模板制作价格鸡西阿里店铺运营哪家好泉州网站设计报价大理模板制作哪家好洛阳百度竞价包年推广价格银川模板推广公司通化网站推广工具推荐阳泉网站制作报价鹰潭百度竞价报价上海外贸网站制作哪家好民治关键词排名报价恩施百度竞价包年推广报价玉树网站优化排名推荐汉中百度竞价包年推广多少钱蚌埠如何制作网站多少钱丽水百度竞价哪家好张家界网站设计多少钱西宁百度关键词包年推广公司南联网站定制多少钱横岗优化推荐楚雄建设网站多少钱衡阳企业网站建设公司厦门阿里店铺运营推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化