Self Attention
概览
细节
矩阵运算
Muiltihead Self Attention
概览
细节
- 这里的 a i 和 a j 是同一个输入(可以理解为下图的X)
完整过程
八个头相当于八个不同的表征子空间,类似于apple拥有水果的含义,同时也有商标的含义,不同的含义由不同的表征子空间学习。
让其他词的Q来和apple这个词不同组的K-V进行attention。
再把所有的attention结果拼接起来,通过一个全连接层(矩阵变换)得到最终结果。
X是一开始经过Embedding的词向量矩阵,R为之前层输出的,他俩都可以进行Multihead Self Attention