0%

Self Attention

Self Attention

概览

881659278403_.pic

细节

30866925-c326e92942025a3a6c6b1e8b96ccc0ce

矩阵运算

30867091-d28fe5868178a62d9faab212486b474b

Muiltihead Self Attention

概览

image-20220801014946983

细节

30867156-2219b84d50e04f41dd60cbe13b2994ac

  • 这里的 a i 和 a j 是同一个输入(可以理解为下图的X)

完整过程

QQ20220801-015325

在这里插入图片描述

  • 八个头相当于八个不同的表征子空间,类似于apple拥有水果的含义,同时也有商标的含义,不同的含义由不同的表征子空间学习。

  • 让其他词的Q来和apple这个词不同组的K-V进行attention。

  • 再把所有的attention结果拼接起来,通过一个全连接层(矩阵变换)得到最终结果。

  • X是一开始经过Embedding的词向量矩阵,R为之前层输出的,他俩都可以进行Multihead Self Attention