0%

Intro

再理解Self-Attention

Self-Attention

Transformer

Transformer

Self-Attention

Self-Attention

计算过程

每一个输入首先分别通过一个线性变换, 输出Q, K, V

Q与所有其他位置的K进行dot-product(Additive等), 拿到相关性矩阵(A, Attention Matrix)

对这个矩阵进行softmax转化为概率(也可以通过一个激活函数ReLU等)

用A对每个输入的V矩阵乘, 就拿到了注意力后的vector

Multi-Head

在分成多头的时候可以再加一组线性变换, 让可以学习的参数更多.

n个多头可以理解为有n种不同的相关性, 因此可以根据特定问题来进行改进.


References

https://www.youtube.com/watch?v=hYdO9CscNes

https://www.youtube.com/watch?v=gmsMY5kc-zw

Search

  1. 会议: venue: KDD
  2. 作者: author: Xxx_Xxx
  3. 年份: year: 2022

Attention

只收录比较顶级的会议期刊.

会议收录的很全, 并且与官方给出的分类一致.

可以用来查导师, 看作者排名, 是否仍在科研一线.

Step

左边可以查到DOI

如果是ACM的可以获取对应PDF: dl.acm.org/doi/pdf/ + doi


References

https://zhuanlan.zhihu.com/p/228070971