Architecturesllm-era2017technique

Self-Attention

Cada token pondera todos os outros do contexto para atualizar sua própria representação.

O quê

Self-attention (autoatenção) é o mecanismo central do Transformer (Transformer) introduzido em “Attention Is All You Need” (Vaswani et al., Google, 2017). A ideia: para atualizar a representação de cada token, o modelo deixa esse token ponderar todos os outros tokens do contexto e somar uma mistura ponderada de suas informações. Cada palavra “pergunta” ao resto da sequência o que é relevante para si e atualiza seu significado de acordo.

Foi o que permitiu abandonar a recorrência (RNNs/LSTM), que processavam tokens em série. Self-attention processa a sequência em paralelo, o que casou perfeitamente com GPUs e destravou o treino em escala que levou aos LLMs modernos.

Como funciona

Query, Key, Value

Cada token é projetado em três vetores: Query (Q), Key (K) e Value (V). A operação é:

Attention(Q, K, V) = softmax(Q·Kᵀ / √d) · V

O produto Q·Kᵀ mede a compatibilidade entre cada par de tokens (quão relevante o token j é para o token i).
A divisão por √d (raiz da dimensão) estabiliza os gradientes evitando que os scores fiquem grandes demais.
O softmax transforma scores em pesos que somam 1.
Multiplicar por V produz, para cada token, uma soma ponderada dos valores dos tokens a que ele “prestou atenção”.

Multi-head

Em vez de uma única atenção, o Transformer usa múltiplas cabeças em paralelo, cada uma com projeções Q/K/V próprias. Cada cabeça pode aprender um tipo de relação (sintática, correferência, posição), e os resultados são concatenados. Em decoders, uma máscara causal impede um token de olhar o futuro (essencial para geração autoregressiva).

O custo quadrático

Comparar todos os pares é O(n²) em tempo e memória no comprimento da sequência n. Esse é exatamente o gargalo por trás do limite da Context Window: dobrar o contexto quadruplica o custo da atenção. Otimizações como FlashAttention (IO-aware), KV Cache, atenção esparsa e attention sinks atacam o problema sem mudar a matemática; arquiteturas como Mamba / State Space Models o evitam com escala linear.

Por que substituiu a recorrência

Antes do Transformer, sequências eram processadas por RNNs/LSTM, que liam token a token e carregavam um estado de memória. Dois problemas: o processamento serial desperdiçava o paralelismo das GPUs, e dependências longas se diluíam ao atravessar muitos passos (o gradiente “esquecia” o início). Self-attention resolve ambos de uma vez: como cada token acessa diretamente qualquer outro, a distância entre dois tokens na sequência não importa para o caminho de informação — e como não há recorrência, a sequência inteira é processada em paralelo. Foi essa combinação que tornou viável treinar em trilhões de tokens e deu origem aos LLMs.

Por que importa

Habilitou o paralelismo que viabilizou LLMs. Sem recorrência, dá para treinar em sequências inteiras de uma vez em GPU.
Captura dependências de longo alcance. Um token no fim pode atender diretamente a um no início — algo que RNNs faziam mal.
É a peça que todos otimizam. Boa parte da engenharia de eficiência de LLMs gira em torno de tornar a atenção mais barata.

Estado em 2026

Self-attention permanece o coração dos modelos de fronteira, mas cercado de otimizações maduras: FlashAttention (em suas várias versões), GQA/MQA (compartilhamento de chaves/valores para reduzir o KV cache), atenção esparsa e janelas deslizantes. A pressão por contextos de 1M+ tokens manteve viva a busca por alternativas sub-quadráticas — daí o interesse em SSMs (Mamba / State Space Models) e híbridos Transformer+SSM. Mesmo assim, em 2026, “attention is (still) most of what you need”: os modelos campeões continuam predominantemente baseados em atenção, com o custo quadrático domesticado por engenharia em vez de eliminado.

Tratamento de carta — proposta

Self-Attention Operação · Neutral · custo

Attend. Escolha um Conceito seu: ele “olha” todos os outros Conceitos em jogo e ganha, até o fim do turno, +1/+0 para cada um deles (a soma ponderada do contexto).

Quadratic Cost. Se houver 5 ou mais Conceitos em jogo, pague 1 ⚡ extra para ativar.

“Cada palavra pergunta ao resto da frase o que ela significa.”

A mecânica encena a atenção (ganho proporcional ao contexto) e o custo quadrático (mais cartas em jogo = ativação mais cara).

Veja também

Transformer · Context Window · KV Cache · Mamba / State Space Models · Attention (mechanism)

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017. arXiv:1706.03762.
Bahdanau, D. et al. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. arXiv:1409.0473.
Dao, T. et al. (2022). FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. arXiv:2205.14135.

Magik LLMGathering