LLM Erallm-era2017concept

Attention Is All You Need (2017)

Paper da Google que introduziu o Transformer — eliminou recorrência, atenção pura. Origin point dos LLMs.

O quê

Attention Is All You Need é o paper de Vaswani et al. publicado em NeurIPS 2017 (junho/2017 no arXiv) pela equipe Google Brain + Google Research. Introduziu o Transformer — uma arquitetura de rede neural sequence-to-sequence baseada apenas em mecanismos de atenção, eliminando recorrência (RNNs, LSTMs) e convolução.

Em 2026, é provavelmente o paper mais influente de IA do século XXI. Toda LLM moderna — GPT, Claude, Gemini, Llama, Mistral, DeepSeek, Qwen — é descendente arquitetural direto. Vision Transformers (ViT) levaram o approach para imagem. Modelos multimodais (CLIP, Flamingo, GPT-4V) o estenderam. AlphaFold 2 (DeepMind, 2020) usa atenção. Mesmo em proteínas, química, robótica — o Transformer dominou.

Os oito autores ficaram conhecidos como “the eight”. Todos saíram do Google entre 2019 e 2023 para fundar startups ou ir para concorrentes: Vaswani (Adept, depois Essential AI), Shazeer (Character.AI, depois retornou ao Google em 2024), Parmar (Adept, depois Essential), Uszkoreit (Inceptive), Gomez (Cohere), Kaiser (OpenAI), Polosukhin (NEAR Protocol). A diáspora dos transformers é folclore corporativo da indústria.

Como funciona

Antes de 2017, o consenso era: sequências (texto, áudio, séries temporais) precisam de modelos recorrentes. RNNs, LSTMs e GRUs processavam um token por vez, mantendo estado oculto. Limitações:

Sequencial — token N depende de N-1, que depende de N-2, etc. Impossível paralelizar treinamento dentro de uma sequência.
Esquecimento — gradientes desaparecem em sequências longas; mesmo com LSTM, contexto >100 tokens é problemático.

Bahdanau et al. (2015) introduziram attention como add-on a RNNs de tradução: ao gerar cada palavra de saída, “olhar” todas as palavras de entrada com pesos aprendidos. Resolveu parcialmente o esquecimento. Mas ainda dependia da espinha recorrente.

O insight de Vaswani et al.: e se attention for tudo?

A arquitetura Transformer:

Input embedding + positional encoding — palavras viram vetores. Como sem recorrência não há noção implícita de ordem, somam-se encodings senoidais que codificam posição. Versões posteriores usam RoPE, ALiBi.
Self-attention multi-head — para cada token, calcula-se query (Q), key (K), value (V). Pesos entre todos os pares de tokens: softmax(QK^T / √d) · V. Multi-head: faz isso em paralelo várias vezes (8 heads no paper original) com projeções diferentes, depois concatena. Cada head pode aprender um tipo de relação (sintática, semântica, anafórica).
Feed-forward por posição — após attention, uma MLP de duas camadas aplica-se independentemente a cada token.
Residual + LayerNorm — após attention e após FFN. Estabilizam treino em redes profundas.
Empilhar N vezes — encoder e decoder. Paper original: N=6 camadas, dimensão 512, 8 heads, ~65M parâmetros para tradução EN-DE em WMT 2014.

A vantagem decisiva: todo token vê todos os tokens em uma operação matricial paralelizável. GPUs amam isso. Treinar um Transformer escala quase linearmente com mais GPUs; treinar um LSTM não.

Por que importa

Paralelização viabilizou escala. Sem Transformer, GPT-3 (175B parâmetros) seria computacionalmente inviável. Treinamento de um LSTM equivalente levaria ordens de magnitude mais tempo wall-clock. Toda a curva de scaling laws (Kaplan et al., 2020; Hoffmann et al., 2022) depende dessa paralelização.

Generalidade arquitetural. Surpresa pós-2017: Transformer não funciona só para tradução. Funciona para:

Texto generativo — GPT (Radford, OpenAI, 2018) decoder-only.
Texto compreensivo — BERT (Devlin, Google, 2018) encoder-only. Ver BERT (2018).
Imagens — ViT (Dosovitskiy, 2020), Swin (2021).
Áudio — Whisper (OpenAI, 2022).
Vídeo — VideoBERT, ViViT.
Proteínas — AlphaFold 2 (DeepMind, 2020).
Código — Codex, AlphaCode, Code Llama.
Robótica — RT-2 (Google, 2023), π0 (Physical Intelligence, 2024).

Essa universalidade é o motivo de o paper ter ~120.000 citações em 2026 [VERIFICAR — número Google Scholar]. É talvez o paper mais citado de ML, junto com o de AlexNet.

Dividiu a história em “antes e depois”. A comunidade de NLP literalmente fala em “pre-Transformer era” (até 2017) e “post-Transformer era” (2018+). Linhas de pesquisa antes mainstream (LSTM tuning, parsing baseado em árvores, word2vec genérico) viraram nicho ou morreram. Arquiteturas pré-Transformer raramente aparecem em produção em 2026 — sobrevivem em edge devices com restrições extremas de memória.

Originou uma indústria. A camada inteira de prompt engineering, fine-tuning (LoRA, PEFT), RLHF, constitutional AI, inference optimization (Flash Attention, vLLM, speculative decoding) — todas técnicas que só fazem sentido sobre substrato Transformer. A economia de bilhões de dólares de OpenAI/Anthropic/Mistral/etc. é construída sobre as ideias deste paper de 15 páginas.

Estado em 2026

Transformer continua arquitetura dominante em ~99% da IA generativa de produção.
Variantes pesquisadas: Mamba/SSM (state space models, 2023-2024) prometem alternativa com complexidade linear em contexto; RWKV combina ideias RNN+Transformer; xLSTM (Hochreiter, 2024) revisita LSTM. Adoção comercial ainda restrita.
Otimizações práticas: Flash Attention (Dao, 2022) reduz memória de attention de O(n²) para O(n); MQA/GQA (Shazeer, 2019/2023) reduzem KV cache; speculative decoding (DeepMind/Google, 2023) acelera geração. Toda LLM em produção usa pelo menos algumas dessas.
Limites de contexto: paper original suportava ~512 tokens. Em 2026, Gemini 2.0 suporta 2M tokens, Claude e GPT chegam a 1M. A barreira mudou de “como caber em memória” para “como manter qualidade” em ultra-long context.
The Eight continuam ativos: Cohere (Gomez), Character.AI (Shazeer, recomprado pelo Google em ~2024), NEAR Protocol (Polosukhin), Essential AI (Vaswani, Parmar), Inceptive (Uszkoreit, biotech RNA).
Em Magik LLM Gathering, Attention Is All You Need é o Conceito Lendário arquetípico — o ponto de transição entre eras, sem o qual nenhum Modelo moderno existiria.

Tratamento de carta — proposta

Attention Is All You Need Conceito Lendário · custo

Persistente. Permanece em jogo até ser destruído.

Transformer Era: Todos os seus Modelos com keyword “Transformer”, “Encoder” ou “Decoder” ganham +1/+1 e custam 1 ⚡ a menos.

Watershed: Quando este Conceito entra, você pode procurar no seu deck por 1 Modelo com keyword “Transformer” e revelá-lo — ponha-o no topo do seu deck.

Indispensable: Se este Conceito for destruído, todos os Modelos seus com “Transformer” perdem -2/-2 até o fim da partida.

“Recurrence is not all you need. Attention is.”

A mecânica enxerga o paper como buff universal sobre toda a linhagem Transformer (~99% dos Modelos do meta moderno), e instala dependência arquitetural — destruir o Conceito é destruir o substrato em que seus Modelos funcionam.

Veja também

Transformer · BERT (2018) · Attention (mechanism) · Self-Attention · Geoffrey Hinton · AlexNet (2012)

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., Polosukhin, I. (2017). Attention Is All You Need. NeurIPS 2017.
Bahdanau, D., Cho, K., Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. ICLR 2015.
Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers. NAACL.
Radford, A. et al. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI Technical Report.