0%

Self Attention

发表于 2022-07-31 更新于 2022-08-01 分类于 deeplearning 阅读次数：

Self Attention与Multihead Self Attention图解

Self Attention

概览

细节

矩阵运算

Muiltihead Self Attention

概览

细节

这里的 a i 和 a j 是同一个输入(可以理解为下图的X)

完整过程

八个头相当于八个不同的表征子空间，类似于apple拥有水果的含义，同时也有商标的含义，不同的含义由不同的表征子空间学习。
让其他词的Q来和apple这个词不同组的K-V进行attention。
再把所有的attention结果拼接起来，通过一个全连接层（矩阵变换）得到最终结果。
X是一开始经过Embedding的词向量矩阵，R为之前层输出的，他俩都可以进行Multihead Self Attention