Training Stackllm-era2018technique

Pre-training

Fase 1 do treino: modelo aprende a prever próximo token em terabytes de texto bruto.

O quê

Pre-training (pré-treino) é a primeira e mais cara fase de criação de um LLM: o modelo aprende a prever o próximo token em terabytes de texto bruto. É auto-supervisão pura — o “rótulo” de cada exemplo é simplesmente o próximo token do próprio texto, então não há anotação humana. Dessa tarefa aparentemente simples emergem gramática, fatos, estilos, raciocínio rudimentar e a maior parte do conhecimento do modelo.

O paradigma “pré-treinar e depois adaptar” foi popularizado pela série GPT da OpenAI (Radford et al., 2018) e cimentado pelo GPT-3 (2020), que mostrou que um modelo grande o suficiente, só pré-treinado, já exibia In-Context Learning. Um modelo recém-pré-treinado não obedece instruções — ele apenas completa texto. Para virar assistente, precisa de etapas posteriores: Supervised Fine-Tuning (SFT) e RLHF — Reinforcement Learning from Human Feedback.

Como funciona

O objetivo

Para modelos decoder-only (GPT, Llama, Claude-base), o objetivo é modelagem de linguagem causal: dado o texto até a posição t, prever o token t+1, minimizando a Cross-Entropy (loss) entre a distribuição prevista e o token real. O modelo vê só o contexto à esquerda (autoregressivo) — diferente do Masked Language Modeling (MLM) do BERT, que vê os dois lados.

Dados

Corpora gigantes raspados da web e curados: Common Crawl filtrado, código, livros, Wikipedia, papers. A qualidade e a diversidade dos dados importam tanto quanto a quantidade. A escala é da ordem de trilhões de tokens.

Tokenização e estabilidade

Antes do primeiro passo, o texto cru é convertido em tokens por um tokenizador (BPE/SentencePiece — ver Tokenization). A escolha do vocabulário afeta tudo: idiomas sub-representados gastam mais tokens por palavra e ficam “mais caros” e pior modelados. O treino em si é uma maratona de engenharia: paralelismo em milhares de GPUs (dados, tensor e pipeline), precisão mista (FP16/BF16/FP8), checkpoints frequentes contra falhas de hardware e vigilância constante de divergências de perda. Um único loss spike mal tratado pode arruinar semanas de compute.

Compute e escala

É a etapa que consome quase todo o orçamento — estimado em ~US$ 50–500 milhões para um modelo de fronteira, dominado por milhares de GPUs rodando por semanas/meses. As leis de escala (Scaling Laws (Chinchilla)) e o trabalho Chinchilla (Hoffmann et al., 2022) guiam a alocação ótima: para um dado orçamento de compute, há um equilíbrio entre número de parâmetros e número de tokens de treino (Chinchilla mostrou que muitos modelos da época eram grandes demais e treinados com poucos dados).

Por que importa

É onde o conhecimento entra. Quase tudo que o modelo “sabe” vem daqui; as fases seguintes apenas moldam o comportamento.
Define o teto de capacidade. Fine-tuning ajusta estilo e alinhamento, mas raramente cria capacidades ausentes no pré-treino.
Concentra o custo e a barreira de entrada. O preço do pré-treino é o que torna modelos de fronteira um jogo de poucos players com muito capital.

Estado em 2026

O pré-treino continua sendo o alicerce, mas o foco se deslocou. Com dados humanos de alta qualidade ficando escassos, ganhou peso o uso de Synthetic Data Generation e a curadoria agressiva (filtragem, deduplicação) sobre quantidade bruta. A fronteira de ganhos migrou em parte para o pós-treino (RL de raciocínio, alinhamento) e para o Test-Time Compute / Inference Scaling — daí a frase de que “estamos batendo no muro de dados de pré-treino”. Mesmo assim, modelos-base maiores e melhores seguem sendo a fundação sobre a qual reasoning e agentes são construídos, e arquiteturas eficientes (Mixture of Experts (MoE)) ajudam a escalar parâmetros sem explodir o custo de inferência.

Tratamento de carta — proposta

Pre-training Run Site (Lab) · Neutral · custo

Massive Compute. Tap: gere 3 ⚡. Mas você não pode jogar Técnicas neste turno (a run consome todo o cluster).

Foundation. Modelos que você invoca enquanto este Site está em jogo entram com +1/+1.

“Meses de silêncio, milhões em GPUs. No fim, uma coisa que sabe quase tudo — e não obedece a ninguém.”

A mecânica encena o custo concentrado (muita energia, mas o cluster fica ocupado) e o ganho de fundação (modelos melhores).

Veja também

Supervised Fine-Tuning (SFT) · RLHF — Reinforcement Learning from Human Feedback · Scaling Laws (Chinchilla) · Synthetic Data Generation · Mixture of Experts (MoE)

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Radford, A. et al. (2018). Improving Language Understanding by Generative Pre-Training (GPT). OpenAI.
Brown, T. et al. (2020). Language Models are Few-Shot Learners (GPT-3). NeurIPS 2020. arXiv:2005.14165.
Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models (Chinchilla). arXiv:2203.15556.