Attention Is All You Need (2017)
Paper da Google que introduziu o Transformer — eliminou recorrência, atenção pura. Origin point dos LLMs.
O quê
Attention Is All You Need é o paper de Vaswani et al. publicado em NeurIPS 2017 (junho/2017 no arXiv) pela equipe Google Brain + Google Research. Introduziu o Transformer — uma arquitetura de rede neural sequence-to-sequence baseada apenas em mecanismos de atenção, eliminando recorrência (RNNs, LSTMs) e convolução.
Em 2026, é provavelmente o paper mais influente de IA do século XXI. Toda LLM moderna — GPT, Claude, Gemini, Llama, Mistral, DeepSeek, Qwen — é descendente arquitetural direto. Vision Transformers (ViT) levaram o approach para imagem. Modelos multimodais (CLIP, Flamingo, GPT-4V) o estenderam. AlphaFold 2 (DeepMind, 2020) usa atenção. Mesmo em proteínas, química, robótica — o Transformer dominou.
Os oito autores ficaram conhecidos como “the eight”. Todos saíram do Google entre 2019 e 2023 para fundar startups ou ir para concorrentes: Vaswani (Adept, depois Essential AI), Shazeer (Character.AI, depois retornou ao Google em 2024), Parmar (Adept, depois Essential), Uszkoreit (Inceptive), Gomez (Cohere), Kaiser (OpenAI), Polosukhin (NEAR Protocol). A diáspora dos transformers é folclore corporativo da indústria.
Como funciona
Antes de 2017, o consenso era: sequências (texto, áudio, séries temporais) precisam de modelos recorrentes. RNNs, LSTMs e GRUs processavam um token por vez, mantendo estado oculto. Limitações:
- Sequencial — token N depende de N-1, que depende de N-2, etc. Impossível paralelizar treinamento dentro de uma sequência.
- Esquecimento — gradientes desaparecem em sequências longas; mesmo com LSTM, contexto >100 tokens é problemático.
Bahdanau et al. (2015) introduziram attention como add-on a RNNs de tradução: ao gerar cada palavra de saída, “olhar” todas as palavras de entrada com pesos aprendidos. Resolveu parcialmente o esquecimento. Mas ainda dependia da espinha recorrente.
O insight de Vaswani et al.: e se attention for tudo?
A arquitetura Transformer:
- Input embedding + positional encoding — palavras viram vetores. Como sem recorrência não há noção implícita de ordem, somam-se encodings senoidais que codificam posição. Versões posteriores usam RoPE, ALiBi.
- Self-attention multi-head — para cada token, calcula-se query (Q), key (K), value (V). Pesos entre todos os pares de tokens:
softmax(QK^T / √d) · V. Multi-head: faz isso em paralelo várias vezes (8 heads no paper original) com projeções diferentes, depois concatena. Cada head pode aprender um tipo de relação (sintática, semântica, anafórica). - Feed-forward por posição — após attention, uma MLP de duas camadas aplica-se independentemente a cada token.
- Residual + LayerNorm — após attention e após FFN. Estabilizam treino em redes profundas.
- Empilhar N vezes — encoder e decoder. Paper original: N=6 camadas, dimensão 512, 8 heads, ~65M parâmetros para tradução EN-DE em WMT 2014.
A vantagem decisiva: todo token vê todos os tokens em uma operação matricial paralelizável. GPUs amam isso. Treinar um Transformer escala quase linearmente com mais GPUs; treinar um LSTM não.
Por que importa
Paralelização viabilizou escala. Sem Transformer, GPT-3 (175B parâmetros) seria computacionalmente inviável. Treinamento de um LSTM equivalente levaria ordens de magnitude mais tempo wall-clock. Toda a curva de scaling laws (Kaplan et al., 2020; Hoffmann et al., 2022) depende dessa paralelização.
Generalidade arquitetural. Surpresa pós-2017: Transformer não funciona só para tradução. Funciona para:
- Texto generativo — GPT (Radford, OpenAI, 2018) decoder-only.
- Texto compreensivo — BERT (Devlin, Google, 2018) encoder-only. Ver BERT (2018).
- Imagens — ViT (Dosovitskiy, 2020), Swin (2021).
- Áudio — Whisper (OpenAI, 2022).
- Vídeo — VideoBERT, ViViT.
- Proteínas — AlphaFold 2 (DeepMind, 2020).
- Código — Codex, AlphaCode, Code Llama.
- Robótica — RT-2 (Google, 2023), π0 (Physical Intelligence, 2024).
Essa universalidade é o motivo de o paper ter ~120.000 citações em 2026 [VERIFICAR — número Google Scholar]. É talvez o paper mais citado de ML, junto com o de AlexNet.
Dividiu a história em “antes e depois”. A comunidade de NLP literalmente fala em “pre-Transformer era” (até 2017) e “post-Transformer era” (2018+). Linhas de pesquisa antes mainstream (LSTM tuning, parsing baseado em árvores, word2vec genérico) viraram nicho ou morreram. Arquiteturas pré-Transformer raramente aparecem em produção em 2026 — sobrevivem em edge devices com restrições extremas de memória.
Originou uma indústria. A camada inteira de prompt engineering, fine-tuning (LoRA, PEFT), RLHF, constitutional AI, inference optimization (Flash Attention, vLLM, speculative decoding) — todas técnicas que só fazem sentido sobre substrato Transformer. A economia de bilhões de dólares de OpenAI/Anthropic/Mistral/etc. é construída sobre as ideias deste paper de 15 páginas.
Estado em 2026
- Transformer continua arquitetura dominante em ~99% da IA generativa de produção.
- Variantes pesquisadas: Mamba/SSM (state space models, 2023-2024) prometem alternativa com complexidade linear em contexto; RWKV combina ideias RNN+Transformer; xLSTM (Hochreiter, 2024) revisita LSTM. Adoção comercial ainda restrita.
- Otimizações práticas: Flash Attention (Dao, 2022) reduz memória de attention de O(n²) para O(n); MQA/GQA (Shazeer, 2019/2023) reduzem KV cache; speculative decoding (DeepMind/Google, 2023) acelera geração. Toda LLM em produção usa pelo menos algumas dessas.
- Limites de contexto: paper original suportava ~512 tokens. Em 2026, Gemini 2.0 suporta 2M tokens, Claude e GPT chegam a 1M. A barreira mudou de “como caber em memória” para “como manter qualidade” em ultra-long context.
- The Eight continuam ativos: Cohere (Gomez), Character.AI (Shazeer, recomprado pelo Google em ~2024), NEAR Protocol (Polosukhin), Essential AI (Vaswani, Parmar), Inceptive (Uszkoreit, biotech RNA).
- Em Magik LLM Gathering, Attention Is All You Need é o Conceito Lendário arquetípico — o ponto de transição entre eras, sem o qual nenhum Modelo moderno existiria.
Tratamento de carta — proposta
Attention Is All You Need Conceito Lendário · custo 🟪🟪
Persistente. Permanece em jogo até ser destruído.
Transformer Era: Todos os seus Modelos com keyword “Transformer”, “Encoder” ou “Decoder” ganham +1/+1 e custam 1 ⚡ a menos.
Watershed: Quando este Conceito entra, você pode procurar no seu deck por 1 Modelo com keyword “Transformer” e revelá-lo — ponha-o no topo do seu deck.
Indispensable: Se este Conceito for destruído, todos os Modelos seus com “Transformer” perdem -2/-2 até o fim da partida.
“Recurrence is not all you need. Attention is.”
A mecânica enxerga o paper como buff universal sobre toda a linhagem Transformer (~99% dos Modelos do meta moderno), e instala dependência arquitetural — destruir o Conceito é destruir o substrato em que seus Modelos funcionam.
Veja também
Transformer · BERT (2018) · Attention (mechanism) · Self-Attention · Geoffrey Hinton · AlexNet (2012)
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., Polosukhin, I. (2017). Attention Is All You Need. NeurIPS 2017.
- Bahdanau, D., Cho, K., Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. ICLR 2015.
- Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers. NAACL.
- Radford, A. et al. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI Technical Report.