Attention in RNN

star2017 1年前 ⋅ 8031 阅读

在传统的 RNN Encoder-Decoder 模型中，在编码的过程中，将时的状态和时刻的数据输入到时刻的 RNN 单元中，得到时刻的状态，经过个时间片后，得到长度等于隐节点数量的特征向量。在解码的过程中，将特征向量和上个时间片预测的输出输入到 RNN 的单元中，得到该时刻的输出，经过个时间片后得到输出结果。但在一些应用中，比如句子长度特别长的机器翻译场景中，传统的 RNN Encoder-Decoder 表现非常不理想。一个重要的原因是时刻的输出可能更关心输入序列的某些部分是什么内容而和其它部分是什么关系并不大。例如在机器翻译中，当前时间片的输出可能仅更注重原句子的某几个单词而不是整个句子。

这篇论文率先提出了 Attention 的思想，通过 Attention 机制，模型可以同时学习原句子和目标句子的对齐关系和翻译关系。在编码过程中，将原句子编码成一组特征向量的一个集合，在翻译时，每个时间片会在该集合自行选择特征向量的一个子集用于产生输出结果。

详解

在这篇论文中，作者也是使用的 RNN Encoder-Decoder 结构。不同于传统的方式，在编码过程中，作者使用的是双向 RNN（bi-RNN），每个 RNN 单元使用的是 GRU。在解码过程中，使用的是基于 Attention 的 GRU 结构。算法结构如图 1：

图 1：Attention in RNN

Encoder

双向 RNN 含有正向和反向两个方向，对于含有个时间片的源句子，正向的输入数据是，第个时间片的隐节点表示为

反向数据的输入序列是，第个时间片的隐节点表示为

其中使用的是 GRU 的单元，详见上一篇论文的讲解。则第个时间片的特征是前向和后向两个特征向量拼接到一起。

本文地址：Attention in RNN
本文版权归作者和AIQ共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出

1.2 Decoder

在解码的过程中，传统的 RNN Encoder-Decoder 的方式将整个句子的特征向量作为输入

Attention 模型是使用所有特征向量的加权和，通过对特征向量的权值的学习，我们可以使用对当前时间片最重要的特征向量的子集，即

其中是的加权和

其中 $e_{it}$ 是输出序列第个时间片的对齐模型，表示的是该时刻和输入数据每个时间片的相关程度。使用前一时刻的状态和第 $t$ 个输入数据计算得到，在作者的实验中，是使用的反正切激活函数。

1.3 实验数据可视化

下图是通过可视化四组平行语料的值得到的图， $\alpha$ 值越大，表示两个数据相关性越强，图中的颜色越浅。

图 2：Attention 模型的可视化

参考文献

[1] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014.

本文地址：https://www.6aiq.com/article/1558111401659
本文版权归作者和AIQ共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出

更多内容请访问：IT源点

注意：本文归作者所有，未经作者允许，不得转载

#深度学习 #Attention #算法 #人工智能

相关文章推荐

* 打卡—> 什么是云数据库 && 沙箱实验如何用 python 和数据库来爬虫？【华为云至简致远】 0 点赞 ⋅ 0 回复 ⋅ 1年前
10个商业活动中需要的数据分析工具(收藏) 0 点赞 ⋅ 0 回复 ⋅ 1年前
10个必备的机器学习开源工具 0 点赞 ⋅ 0 回复 ⋅ 1年前
10个预训练模型开始你的深度学习（计算机视觉部分） 0 点赞 ⋅ 0 回复 ⋅ 1年前
12个关键词，告诉你到底什么是机器学习 0 点赞 ⋅ 0 回复 ⋅ 1年前
15个开源的顶级人工智能工具 0 点赞 ⋅ 0 回复 ⋅ 1年前
18大经典数据挖掘算法小结 0 点赞 ⋅ 0 回复 ⋅ 1年前
2015年中国企业商业智能的发展趋势有哪些 0 点赞 ⋅ 0 回复 ⋅ 1年前
2015年商业智能BI市场需求新转变 0 点赞 ⋅ 0 回复 ⋅ 1年前
2015年商业智能与大数据分析市场的发展趋势 0 点赞 ⋅ 0 回复 ⋅ 1年前
2015年商业智能分析以及大数据发展趋势 0 点赞 ⋅ 0 回复 ⋅ 1年前
2015，商业智能的五个发展方向 0 点赞 ⋅ 0 回复 ⋅ 1年前
2016美国大选，来自人工智能和大数据的预测 0 点赞 ⋅ 0 回复 ⋅ 1年前
2017年值得关注的八大技术创业趋势 0 点赞 ⋅ 0 回复 ⋅ 1年前
2017深度学习框架之争——谁主沉浮？ 0 点赞 ⋅ 0 回复 ⋅ 1年前
2018年全球AI十大突破性技术速读 0 点赞 ⋅ 0 回复 ⋅ 1年前
2019十大机器学习面试必看问题 0 点赞 ⋅ 0 回复 ⋅ 1年前
2020 最新版《神经网络与深度学习》中文版更新完毕！（附 pdf 下载） 0 点赞 ⋅ 0 回复 ⋅ 1年前
2021 年 11 月初，VIVO & 地平线视觉工程师面经 0 点赞 ⋅ 0 回复 ⋅ 1年前
2021 年 4 月份，NLP 算法岗面试题总结 0 点赞 ⋅ 0 回复 ⋅ 1年前

1
2
3
4
...
77

全部评论: 0 条

我有话说:

star2017
- 1298发布
- 0评论
收藏 0