Self-Attention
Cada token pondera todos os outros do contexto para atualizar sua própria representação.
RESUMO
Q (query), K (key), V (value): softmax(QK^T / √d) · V. Multi-head divide em paralelo. Quadrático em comprimento — fonte do problema 'long context'.
Tags: attention · quadratic
VEJA TAMBÉM