Deep Learning Erapre-llm-era2014concept

Attention (mechanism)

Mecanismo que permite ao modelo focar em partes relevantes da entrada — peso aprendido por par (query, key).

O quê

Attention é o mecanismo pelo qual uma rede neural decide, para cada posição de um output, quais posições do input olhar e com que peso. Em vez de comprimir todo o input num único vetor (como faziam RNNs até 2014), attention deixa o modelo consultar o input inteiro a cada passo — escolhendo, dinamicamente, o que é relevante para a decisão atual.

Foi introduzido por Bahdanau, Cho e Bengio em 2014 para neural machine translation, generalizado por Vaswani et al. em 2017 (Attention Is All You Need), e desde então é o tijolo central de praticamente todo modelo grande de IA — transformers, foundation models, multimodal models, todos rodam attention.

Em Magik LLM Gathering, attention é tratado como Foundry · Mechanic · Rare — a primitiva mecânica que destravou a era moderna da IA.

Como funciona

A operação central

Attention recebe três conjuntos de vetores: queries (Q), keys (K) e values (V). A intuição é uma consulta a um dicionário associativo:

Compare cada query com todas as keys (produto interno).
Normalize esses scores via softmax — vira distribuição de probabilidade.
Some os values ponderados por essas probabilidades.

Formalmente: Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) V. O fator sqrt(d_k) é o “scaled dot-product” — evita que scores fiquem grandes demais antes do softmax e saturem o gradiente.

Multi-head

Em vez de fazer uma única operação de attention, transformers usam várias cabeças em paralelo. Cada cabeça tem suas próprias matrizes de projeção W_Q, W_K, W_V e aprende a olhar para um aspecto diferente da relação — uma cabeça vira “expert” em concordância sujeito-verbo, outra em coreferência pronominal, outra em estrutura sintática.

Cabeças são concatenadas e projetadas de volta ao espaço residual. Tipicamente: 12-128 cabeças por camada em modelos modernos.

Self vs cross attention

Self-attention: Q, K, V vêm da mesma sequência. Cada token “olha” para todos os outros tokens do mesmo input. É o tijolo de encoders e decoders.
Cross-attention: Q vem de uma sequência (ex: decoder), K e V vêm de outra (ex: encoder). Permite que o decoder “consulte” o encoder posição a posição. É o que NMT precisava em 2014.

Causal masking

Em modelos autoregressive (GPT-style), você não pode deixar um token “olhar pro futuro” — isso vazaria a resposta durante treino. A solução: mask. Antes do softmax, posições futuras recebem -infinity, viram zero após softmax. Trivial de implementar, essencial para training paralelo.

Por que importa

Antes de attention, sequence-to-sequence usava encoders RNN que precisavam comprimir um input inteiro num vetor de tamanho fixo. Para frases longas, esse vetor virava o gargalo — informação se perdia. Attention removeu o gargalo: o decoder vê o input inteiro o tempo todo.

Mas o impacto verdadeiro veio em 2017. Vaswani et al. perceberam que attention sozinho — sem nenhuma recorrência — era suficiente para sequence-to-sequence, e tinha duas vantagens decisivas:

Paraleliza: RNNs processam tokens sequencialmente (h_t depende de h_{t-1}). Attention computa todas as posições em uma única operação matricial. Treino em GPU virou ordens de magnitude mais rápido.
Distância 1 entre qualquer par de posições: numa RNN, a influência do token 1 sobre o token 1000 passa por 999 hops. Em attention, é um produto interno direto. Long-range dependencies pararam de ser problema.

A combinação destravou modelos com bilhões de parâmetros e contextos de centenas de milhares de tokens. Sem attention, GPT-3/4, Claude, BERT, T5, Gemini não existiriam na forma atual.

Pegadinhas

Custo quadrático: attention padrão tem complexidade O(n^2 d) em memória e compute. Dobrar contexto = quadruplicar custo. É o motivo do bottleneck histórico de context length.
FlashAttention (Dao et al. 2022) reescreveu a operação para ser IO-aware — mesma matemática, menos round-trips entre SRAM e HBM. Acelerou treino em 2-4×, virou padrão.
Sparse / linear attention: variantes que aproximam attention com complexidade subquadrática (Longformer, Performer, Mamba SSM). Trade-off entre custo e capacidade representacional ainda em aberto.
Não é magia interpretável: a metáfora “cabeças aprendem features linguísticas” é só parcialmente verdadeira. Muitas cabeças aprendem padrões posicionais ou redundantes. Mechanistic interpretability ainda está mapeando o que cabeças realmente fazem.
Cache de KV é a maior alocação de memória em inferência. Modelos com 100k de contexto gastam dezenas de GB só com KV cache.

Estado em 2026

Em 2026, attention continua sendo o coração de praticamente todo modelo de fronteira, mas o custo quadrático foi atacado por todos os ângulos. FlashAttention chegou à v3 (otimizada para Hopper/H100, com suporte a FP8), e variantes que reduzem o KV cache — GQA (Llama 3), MQA, e Multi-head Latent Attention (DeepSeek-V2/V3) — viraram padrão em vez de exceção. A pergunta de pesquisa deixou de ser “attention ou não” e passou a ser “quanto de attention full vs. aproximada cada camada precisa”.

A maior disputa arquitetural é attention vs. state-space models. Mamba e Mamba-2 (SSMs) prometiam complexidade linear, e modelos híbridos (Jamba, e arquiteturas que alternam camadas de attention com camadas SSM) mostraram que misturar os dois bate qualquer um puro em contextos longos. Mesmo assim, até 2026 nenhum substituto puro de attention destronou o Transformer na fronteira — attention permanece imbatível em recall preciso de tokens distantes.

Contextos longos (1M+ tokens no Gemini 1.5/2, centenas de milhares em Claude e GPT) tornaram o gerenciamento de KV cache, não o compute de attention, o gargalo dominante de inferência. O trade-off central de 2026: full attention dá recall quase perfeito mas memória explosiva; variantes esparsas/lineares economizam memória mas degradam em testes difíceis de “agulha no palheiro”. A maior parte dos modelos de produção acomoda os dois mundos via GQA + janelas/sinks de atenção.

Tratamento de carta — proposta

Em Magik LLM Gathering, attention aparece como Foundry · Mechanic · Rare: uma carta que “consulta” todas as outras cartas em campo e aplica efeito proporcional à relevância. Mecanicamente flexível, custosa, transformadora — espelha o papel histórico real.

Decks construídos em torno de attention tendem a ser explosivos: poucas cartas-chave que ganham peso conforme o board enche, replicando o “scaling law” do mecanismo real — quanto mais contexto, mais valor.

Veja também

Transformer — a arquitetura construída em cima de attention
Attention Is All You Need (2017) — o paper seminal
Self-Attention — multi-head attention, a versão usada em produção
Flash Attention — a otimização IO-aware (Dao et al. 2022)
KV Cache — o overhead de memória em inferência

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Bahdanau, D., Cho, K., Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. ICLR 2015. arXiv:1409.0473.
Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017. arXiv:1706.03762.
Olah, C., Carter, S. (2016). Attention and Augmented Recurrent Neural Networks. Distill.
Dao, T. et al. (2022). FlashAttention: Fast and Memory-Efficient Exact Attention. NeurIPS 2022. arXiv:2205.14135.