Architecturesllm-era2017architecture

Transformer

Arquitetura baseada em self-attention. Sem recorrência, paraleliza no GPU, escala lindo.

O quê

O Transformer é a arquitetura de rede neural introduzida por Vaswani et al. (Google Brain) em junho de 2017 no paper Attention Is All You Need (2017). Substitui completamente recorrência (RNN/LSTM) e convolução por um único primitivo — self-attention — repetido em camadas paralelizáveis. É a fundação de todo modelo de linguagem moderno: BERT, GPT, T5, Llama, Claude, Gemini, Mistral, DeepSeek. Em 2017 era uma alternativa para tradução automática; em 2024-2026 é a primitiva canônica de “modelo de IA”.

Em Magik LLM Gathering, o Transformer é tratado como Construct — Architecture · Legendary, peça-pivô do Set 1: a arquitetura que viabilizou tudo o que vem depois.

Como funciona

O Transformer original tinha duas metades simétricas — encoder (lê a entrada) e decoder (gera a saída) — para tradução. Cada metade é uma pilha de N camadas idênticas (N=6 no paper), e cada camada combina três coisas:

Multi-Head Self-Attention — o coração. Cada token “olha” para todos os outros tokens da sequência e decide quanto pesar cada um. Implementado como produto de três projeções lineares (Query, Key, Value) seguido de softmax. Crucialmente, isso roda em paralelo — todos os tokens atendem entre si simultaneamente, ao contrário de RNNs que precisam processar token a token.
Feed-Forward Network — um MLP simples (Linear → ReLU/GeLU → Linear) aplicado independentemente a cada posição. É onde mora a maior parte dos parâmetros do modelo.
Residual connections + Layer Normalization — empilham essas operações sem perder gradientes. Permitiu treinar pilhas muito profundas (LLMs modernos chegam a 80-120 camadas).

Positional Encoding adiciona informação de ordem aos tokens (sin/cos no paper original; RoPE — Rotary Position Embedding — em todos os LLMs modernos). Sem isso, o modelo trataria “o gato comeu o peixe” e “o peixe comeu o gato” como idênticos.

Três variantes nasceram do Transformer:

Encoder-only (BERT (2018), RoBERTa, DeBERTa, ModernBERT) — compreensão bidirecional, ideal para classificação e embeddings.
Decoder-only (GPT, Claude, Llama, Mistral, Gemini) — geração autoregressiva, ideal para text generation. É o paradigma dominante de 2020+.
Encoder-Decoder (T5, BART, Flan-T5) — útil para tradução, summarização, qualquer tarefa seq2seq estruturada.

Por que importa

Paralelizou o treino. RNNs precisavam processar tokens em sequência — o token 100 esperava o 99 esperar o 98… Treinar em GPUs era subutilizar massivamente o hardware. O Transformer processa todos os tokens em paralelo dentro de cada camada, transformando treino de language model em multiplicação de matrizes grandes — exatamente o que GPUs fazem melhor. Isso destravou escala: passamos de modelos de centenas de milhões de parâmetros (BERT) para centenas de bilhões (GPT-4, Claude Opus) em ~6 anos.

Estabeleceu o paradigma “pretrain → fine-tune” e depois “pretrain → prompt”. Antes do Transformer, cada tarefa de NLP exigia arquitetura própria com features manuais. BERT e GPT-1 mostraram que uma única arquitetura genérica, pré-treinada em texto bruto da web, podia ser adaptada para qualquer tarefa via fine-tuning leve. GPT-3 (2020) levou um passo além: a adaptação é só prompt em tempo de inferência, sem ajuste de pesos. Esse é o regime dominante hoje.

Generalizou para tudo. O Transformer começou para tradução. Em 2026 ele roda:

Texto (LLMs, embeddings, classificação)
Imagens (Vision Transformer / ViT, Swin, DiT — backbone de Stable Diffusion)
Áudio (Whisper para ASR, AudioCraft, MusicGen)
Vídeo (Sora, Veo, Imagen Video)
Código (Copilot, Cursor, Code Llama)
Robótica (RT-2 da Google DeepMind, π0 da Physical Intelligence)
Biologia (AlphaFold-2/3 — predição de estrutura de proteínas)

A piada do paper-título virou profecia: attention is all you need — para muito mais coisa do que tradução.

Mudou a economia da IA. Treinar um modelo do zero virou trivial em arquitetura (basta escalar Transformer); o gargalo virou compute + dados + dinheiro. Isso criou o cenário atual: poucas labs com recursos para treinar foundation models (Anthropic, OpenAI, Google DeepMind, Meta, xAI), e o resto do ecossistema construindo em cima via API ou fine-tuning de modelos abertos (Llama, Mistral, Qwen, DeepSeek).

Estado em 2026

Decoder-only domina. GPT-4/4o/o1/o3, Claude 3/3.5/Opus, Gemini 1.5/2.0, Llama 3/4, Mistral Large, DeepSeek-V3/R1 — todos Transformers decoder-only com variações de detalhe (Grouped-Query Attention, Mixture-of-Experts, sliding window).
Encoder-only ressurgiu via ModernBERT (Dez/2024) com 8k context e Flash Attention — mostrou que para embedding, classificação e busca, encoder ainda é mais barato e rápido.
Mixture-of-Experts (MoE) virou padrão de escala. Mixtral (Mistral, 2023), DeepSeek-V3, Llama 4 — modelos com trilhões de parâmetros totais mas só dezenas de bilhões ativos por token. Eficiência sem perder capacidade.
Alternativas circulam mas não destronaram. Mamba (Albert Gu, 2023), RWKV, State-Space Models — promessas de escala linear em contexto. Em 2026 são interessantes para nichos (contexto longuíssimo), mas o Transformer continua o backbone padrão.
Otimizações de inferência são onde mora a vantagem competitiva. Flash Attention, Paged Attention, Speculative Decoding, KV cache compartilhado — destravam custo $/token e latência ms/token.

Tratamento de carta — proposta

The Transformer Construct · Architecture · Neutral · custo

Architecture · Legendary.

Self-Attention: Quando este Construct entra em jogo, todos os Modelos seus ganham “Conta com todos os outros Modelos seus em jogo como se estivessem adjacentes”.

Pretrain: Uma vez por turno, você pode pagar 3 ⚡ para revelar a carta do topo do seu deck e jogá-la como se fosse de sua mão.

Parallelism: Você pode jogar até 2 Modelos por turno.

“Atenção é tudo de que você precisa. Talvez tudo o que ele precisa também.”

A primeira mecânica encena a operação central — todo token atende a todos os outros, independente da distância. A segunda é pretraining: o modelo “lê” o próximo pedaço de texto e o internaliza como contexto. A terceira é o ganho de paralelização que destrava escala.

Veja também

Attention Is All You Need (2017) · BERT (2018) · GPT-3 (2020) · Mixture of Experts (MoE) · Scaling Laws (Chinchilla)

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017. arXiv:1706.03762.
Bahdanau, D., Cho, K., Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. ICLR 2015.
Devlin, J. et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT 2019.
Radford, A. et al. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI Tech Report.
Tay, Y. et al. (2022). Efficient Transformers: A Survey. ACM Computing Surveys.