第三章 注意力机制(Attention)
注意力机制最早是在视觉图像领域提出,但真正得到广大关注是从Google mind团队发表的论文开始,使用attention机制在RNN模型上来进行图像分类。随后,Bahdanau等人使用attention机制在机器翻译任务上将翻译和对齐同时进行,注意力机制开始应用到自然语言处理领域。
0 注意力机制的主要学习内容
1)注意力机制的基本理论
2)注意力机制的运用
1 基本理论
注意力机制模型的构建是受到人类视觉的启发,当在看一样物体时,其实并不是一次性就把该物体的各个方面都看到,大多是根据自身需求,对该物体各个位置的注意力分布是不一样的。在CNN和RNN中,提取出的特征都是赋予相同的权重,因此重要特征没有得到重视,而Attention这种思想可以对特征进行加权处理,加强重要特征对分类的作用,具体结构如下图1所示。
2 注意力机制的总结与应用
Attention的出现就是为了两个目的:1. 减小处理高维输入数据的计算负担,通过结构化的选取输入的子集,降低数据维度。2. “去伪存真”,让任务处理系统更专注于找到输入数据中显著的与当前输出相关的有用信息,从而提高输出的质量。Attention模型的最终目的是帮助类似编解码器这样的框架,更好的学到多种内容模态之间的相互关系,从而更好的表示这些信息,克服其无法解释从而很难设计的缺陷。
Attention常用于
1)计算机视觉
2)自然语言处理(文本分类、文本生成等)
3)语音识别
参考文献
[2] https://blog.csdn.net/zzc15806/article/details/80766229
[3] https://www.jianshu.com/p/4868162a679b
[4] https://blog.csdn.net/u010960155/article/details/82853632