COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
LLM Era llm-era 2017 concept

Attention Is All You Need (2017)

Paper da Google que introduziu o Transformer — eliminou recorrência, atenção pura. Origin point dos LLMs.

O quê

Attention Is All You Need é o paper de Vaswani et al. publicado em NeurIPS 2017 (junho/2017 no arXiv) pela equipe Google Brain + Google Research. Introduziu o Transformer — uma arquitetura de rede neural sequence-to-sequence baseada apenas em mecanismos de atenção, eliminando recorrência (RNNs, LSTMs) e convolução.

Em 2026, é provavelmente o paper mais influente de IA do século XXI. Toda LLM moderna — GPT, Claude, Gemini, Llama, Mistral, DeepSeek, Qwen — é descendente arquitetural direto. Vision Transformers (ViT) levaram o approach para imagem. Modelos multimodais (CLIP, Flamingo, GPT-4V) o estenderam. AlphaFold 2 (DeepMind, 2020) usa atenção. Mesmo em proteínas, química, robótica — o Transformer dominou.

Os oito autores ficaram conhecidos como “the eight”. Todos saíram do Google entre 2019 e 2023 para fundar startups ou ir para concorrentes: Vaswani (Adept, depois Essential AI), Shazeer (Character.AI, depois retornou ao Google em 2024), Parmar (Adept, depois Essential), Uszkoreit (Inceptive), Gomez (Cohere), Kaiser (OpenAI), Polosukhin (NEAR Protocol). A diáspora dos transformers é folclore corporativo da indústria.

Como funciona

Antes de 2017, o consenso era: sequências (texto, áudio, séries temporais) precisam de modelos recorrentes. RNNs, LSTMs e GRUs processavam um token por vez, mantendo estado oculto. Limitações:

  • Sequencial — token N depende de N-1, que depende de N-2, etc. Impossível paralelizar treinamento dentro de uma sequência.
  • Esquecimento — gradientes desaparecem em sequências longas; mesmo com LSTM, contexto >100 tokens é problemático.

Bahdanau et al. (2015) introduziram attention como add-on a RNNs de tradução: ao gerar cada palavra de saída, “olhar” todas as palavras de entrada com pesos aprendidos. Resolveu parcialmente o esquecimento. Mas ainda dependia da espinha recorrente.

O insight de Vaswani et al.: e se attention for tudo?

A arquitetura Transformer:

  1. Input embedding + positional encoding — palavras viram vetores. Como sem recorrência não há noção implícita de ordem, somam-se encodings senoidais que codificam posição. Versões posteriores usam RoPE, ALiBi.
  2. Self-attention multi-head — para cada token, calcula-se query (Q), key (K), value (V). Pesos entre todos os pares de tokens: softmax(QK^T / √d) · V. Multi-head: faz isso em paralelo várias vezes (8 heads no paper original) com projeções diferentes, depois concatena. Cada head pode aprender um tipo de relação (sintática, semântica, anafórica).
  3. Feed-forward por posição — após attention, uma MLP de duas camadas aplica-se independentemente a cada token.
  4. Residual + LayerNorm — após attention e após FFN. Estabilizam treino em redes profundas.
  5. Empilhar N vezes — encoder e decoder. Paper original: N=6 camadas, dimensão 512, 8 heads, ~65M parâmetros para tradução EN-DE em WMT 2014.

A vantagem decisiva: todo token vê todos os tokens em uma operação matricial paralelizável. GPUs amam isso. Treinar um Transformer escala quase linearmente com mais GPUs; treinar um LSTM não.

Por que importa

Paralelização viabilizou escala. Sem Transformer, GPT-3 (175B parâmetros) seria computacionalmente inviável. Treinamento de um LSTM equivalente levaria ordens de magnitude mais tempo wall-clock. Toda a curva de scaling laws (Kaplan et al., 2020; Hoffmann et al., 2022) depende dessa paralelização.

Generalidade arquitetural. Surpresa pós-2017: Transformer não funciona só para tradução. Funciona para:

  • Texto generativo — GPT (Radford, OpenAI, 2018) decoder-only.
  • Texto compreensivo — BERT (Devlin, Google, 2018) encoder-only. Ver BERT (2018).
  • Imagens — ViT (Dosovitskiy, 2020), Swin (2021).
  • Áudio — Whisper (OpenAI, 2022).
  • Vídeo — VideoBERT, ViViT.
  • Proteínas — AlphaFold 2 (DeepMind, 2020).
  • Código — Codex, AlphaCode, Code Llama.
  • Robótica — RT-2 (Google, 2023), π0 (Physical Intelligence, 2024).

Essa universalidade é o motivo de o paper ter ~120.000 citações em 2026 [VERIFICAR — número Google Scholar]. É talvez o paper mais citado de ML, junto com o de AlexNet.

Dividiu a história em “antes e depois”. A comunidade de NLP literalmente fala em “pre-Transformer era” (até 2017) e “post-Transformer era” (2018+). Linhas de pesquisa antes mainstream (LSTM tuning, parsing baseado em árvores, word2vec genérico) viraram nicho ou morreram. Arquiteturas pré-Transformer raramente aparecem em produção em 2026 — sobrevivem em edge devices com restrições extremas de memória.

Originou uma indústria. A camada inteira de prompt engineering, fine-tuning (LoRA, PEFT), RLHF, constitutional AI, inference optimization (Flash Attention, vLLM, speculative decoding) — todas técnicas que só fazem sentido sobre substrato Transformer. A economia de bilhões de dólares de OpenAI/Anthropic/Mistral/etc. é construída sobre as ideias deste paper de 15 páginas.

Estado em 2026

  • Transformer continua arquitetura dominante em ~99% da IA generativa de produção.
  • Variantes pesquisadas: Mamba/SSM (state space models, 2023-2024) prometem alternativa com complexidade linear em contexto; RWKV combina ideias RNN+Transformer; xLSTM (Hochreiter, 2024) revisita LSTM. Adoção comercial ainda restrita.
  • Otimizações práticas: Flash Attention (Dao, 2022) reduz memória de attention de O(n²) para O(n); MQA/GQA (Shazeer, 2019/2023) reduzem KV cache; speculative decoding (DeepMind/Google, 2023) acelera geração. Toda LLM em produção usa pelo menos algumas dessas.
  • Limites de contexto: paper original suportava ~512 tokens. Em 2026, Gemini 2.0 suporta 2M tokens, Claude e GPT chegam a 1M. A barreira mudou de “como caber em memória” para “como manter qualidade” em ultra-long context.
  • The Eight continuam ativos: Cohere (Gomez), Character.AI (Shazeer, recomprado pelo Google em ~2024), NEAR Protocol (Polosukhin), Essential AI (Vaswani, Parmar), Inceptive (Uszkoreit, biotech RNA).
  • Em Magik LLM Gathering, Attention Is All You Need é o Conceito Lendário arquetípico — o ponto de transição entre eras, sem o qual nenhum Modelo moderno existiria.

Tratamento de carta — proposta

Attention Is All You Need Conceito Lendário · custo 🟪🟪

Persistente. Permanece em jogo até ser destruído.

Transformer Era: Todos os seus Modelos com keyword “Transformer”, “Encoder” ou “Decoder” ganham +1/+1 e custam 1 ⚡ a menos.

Watershed: Quando este Conceito entra, você pode procurar no seu deck por 1 Modelo com keyword “Transformer” e revelá-lo — ponha-o no topo do seu deck.

Indispensable: Se este Conceito for destruído, todos os Modelos seus com “Transformer” perdem -2/-2 até o fim da partida.

“Recurrence is not all you need. Attention is.”

A mecânica enxerga o paper como buff universal sobre toda a linhagem Transformer (~99% dos Modelos do meta moderno), e instala dependência arquitetural — destruir o Conceito é destruir o substrato em que seus Modelos funcionam.

Veja também

Transformer · BERT (2018) · Attention (mechanism) · Self-Attention · Geoffrey Hinton · AlexNet (2012)

VEJA TAMBÉM
FONTES
  • Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., Polosukhin, I. (2017). Attention Is All You Need. NeurIPS 2017.
  • Bahdanau, D., Cho, K., Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. ICLR 2015.
  • Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers. NAACL.
  • Radford, A. et al. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI Technical Report.