【论文笔记】Decomposable attention
是这个Paper的一些笔记
Parikh A P, Täckström O, Das D, et al. A decomposable attention model for natural language inference[J]. arXiv preprint arXiv:1606.01933, 2016.
这是一个比较简单易行的方法:两个句子之间怎么做attention
下面这个博客有一些解析
https://zhuanlan.zhihu.com/p/26237357
我自己也再把representation的地方记录一下:
我们首先有两个句子
-
第一步: Attend
这里得到交互的权重矩阵。(这里的交互方式是用了把词向量过了前馈网络之后的结果做点积)。
接着
这两个公式是什么意思呢?
比如:αjαj 就是对于句子 aa 中的每个词 a¯ia¯i, 用它与句子bb 中的词b¯jb¯j 的attention权重 加权 a¯ia¯i 的词向量得到的结果。反之亦然;这里有点绕的就是:
αα 对应的是句子 bb 中的词;
ββ 对应的是句子 aa 中的词; -
第二步 Compare
就是这两个公式
其中 [a¯i,βi][a¯i,βi] 就是把两部分concat起来
(句子中第 ii 个词, 和另一个句子里所有词与它比较的加权词向量)
GG 还是一个前馈神经网络
所以这一步的结果就是 v1,v2v1,v2 这两个向量 -
第三步 Aggregate
就是分别du把对v1,v2v1,v2 中的每个元素求和,得到两个值之后做分类。
其实我认为representation的工作到第二步就可以截止了
得到向量之后,后面怎么做可以发挥一下。
(先不考虑self-align的话,其实到这里就结束了)