COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Architectures llm-era 2017 technique

Self-Attention

Cada token pondera todos os outros do contexto para atualizar sua própria representação.

RESUMO

Q (query), K (key), V (value): softmax(QK^T / √d) · V. Multi-head divide em paralelo. Quadrático em comprimento — fonte do problema 'long context'.

Tags: attention · quadratic

VEJA TAMBÉM