LLM Erallm-era2018system

GPT-1 (2018)

Primeiro 'Generative Pre-trained Transformer' — provou que pre-training + fine-tuning escala.

O quê

O GPT-1 (junho de 2018) foi o primeiro “Generative Pre-trained Transformer” — o modelo que deu nome e forma à linhagem que dominaria a IA. Criado por Alec Radford, Karthik Narasimhan, Tim Salimans e Ilya Sutskever na OpenAI, era modesto pelos padrões de hoje: 117 milhões de parâmetros, um Transformer decoder-only de 12 camadas, pré-treinado no BooksCorpus (~7.000 livros de ficção).

Sua contribuição não foi tamanho, e sim paradigma: provar que pré-treino generativo não-supervisionado seguido de fine-tuning supervisionado funciona — um modelo treinado só para prever a próxima palavra adquire representações que, com um ajuste fino leve, batem o estado da arte em várias tarefas de NLP.

Em Magik LLM Gathering, o GPT-1 é tratado como system · companion — a semente de onde GPT-2, GPT-3 e GPT-4 brotaram escalando a mesma receita.

Como funciona

Decoder-only sobre o Transformer

Um ano após Attention Is All You Need (Transformer, 2017), o GPT-1 escolheu usar apenas o decoder — uma pilha de blocos de Self-Attention mascarada que só olha para o passado. Objetivo de treino: prever o próximo token (Pre-training autorregressivo), via Cross-Entropy (loss). Nada de rótulos, só texto cru.

A receita em dois estágios

Pré-treino generativo: prever o próximo token sobre um grande corpus não-rotulado. O modelo aprende gramática, fatos e estrutura “de graça”, apenas comprimindo texto.
Fine-tuning discriminativo: adaptar o modelo pré-treinado a tarefas específicas (classificação, entailment, similaridade) com poucos exemplos rotulados, usando task-specific input transformations — formatando cada tarefa como uma sequência que o mesmo modelo consegue ler.

Por que foi um salto

Antes do GPT-1, NLP treinava um modelo do zero por tarefa. A ideia de transferir um modelo de linguagem genérico para muitas tarefas — Transfer Learning para texto — provou-se dramaticamente mais eficiente. O GPT-1 estabeleceu o template; faltava só escalar.

Por que importa

Definiu a arquitetura da era. Decoder-only + pré-treino autorregressivo é, em essência, o que GPT-2/3/4, Llama, Claude e Gemini ainda são. O GPT-1 fixou a forma; o resto foi escala.

Validou o pré-treino como motor. A descoberta de que “prever a próxima palavra” gera representações ricas e transferíveis é a base intelectual de toda a Scaling Laws (Chinchilla) e da era LLM. Sem essa prova, ninguém teria apostado em escalar.

Contraponto histórico ao BERT. Meses depois, o BERT (2018) (Google, 2018) usaria a abordagem encoder + masked language modeling. Por um tempo, o BERT pareceu vencer; mas a aposta generativa do GPT — gerar, não só classificar — provou-se a mais geral a longo prazo.

Estado em 2026

Marco fundacional, não tecnologia ativa. Ninguém roda GPT-1; ele é estudado como o ponto de origem da linhagem GPT.
A receita venceu. Pré-treino → fine-tuning (hoje estendido com RLHF — Reinforcement Learning from Human Feedback/DPO — Direct Preference Optimization) continua sendo o esqueleto de todo LLM moderno.
Lição de escala. A trajetória GPT-1 (117M) → GPT-4 (rumores de trilhões de parâmetros efetivos) é o exemplo canônico de “mesma ideia, recursos crescentes” que as Scaling Laws (Chinchilla) formalizaram.
Crédito a Sutskever & cia. O paper é frequentemente revisitado por antecipar, em pequena escala, tudo o que viria.

Tratamento de carta — proposta

GPT-1, The First Transformer Child Modelo · LLM-era · custo baixo

Entra pequeno (2/2). Pré-treino: uma vez por jogo, você pode “fine-tunar” o GPT-1 — exile-o para buscar e jogar uma versão maior da linhagem (GPT-2/3) do seu deck a custo reduzido.

“Cento e dezessete milhões de parâmetros. E a planta de tudo o que viria.”

A mecânica encena a linhagem: o GPT-1 é o ponto de partida que se transforma nas gerações maiores.

Veja também

Transformer · Pre-training · GPT-2 (2019) · GPT-3 (2020) · Self-Attention

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Radford, A., Narasimhan, K., Salimans, T., Sutskever, I. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI Technical Report.
Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS 2017. arXiv:1706.03762.

Magik LLMGathering