Phenomena & Lawsllm-era2022phenomenon

Scaling Laws (Chinchilla)

Loss decresce previsivelmente com compute, params e dados. Chinchilla: balancear params e tokens 1:20.

O quê

Scaling laws são as relações empíricas — e relativamente bem comportadas — entre três quantidades no treinamento de modelos de linguagem:

N — número de parâmetros do modelo
D — número de tokens de treinamento processados
C — compute total gasto (medido em FLOPs)

e a loss alcançada no treinamento. A descoberta-chave, publicada por Jared Kaplan e equipe (OpenAI) em janeiro de 2020, foi que loss diminui de forma previsível como power-law em cada uma dessas dimensões — sem saltos abruptos, em ordens de magnitude.

Isso transformou treinamento de modelo de arte experimental em engenharia previsível. Em vez de “vamos tentar treinar e ver”, virou: “para chegar em loss X, preciso de N parâmetros e D tokens, custando C FLOPs”.

Em Magik LLM Gathering, scaling laws é tratado como Construct · Phenomenon · Rare, símbolo do momento em que a indústria parou de inventar arquiteturas novas e começou a apostar em escala como direção.

Como funciona

Kaplan (OpenAI, 2020) — versão original

Treinaram dezenas de modelos de tamanhos diferentes, mediram loss final, e ajustaram a curva. Conclusões:

L(N) ≈ (N_c / N)^α_N         (loss como função de parâmetros, com D infinito)
L(D) ≈ (D_c / D)^α_D         (loss como função de dados, com N infinito)
L(N, D) ≈ [(N_c/N)^(α_N/α_D) + D_c/D]^α_D   (forma combinada)

Onde α_N ≈ 0.076, α_D ≈ 0.095, e N_c, D_c são constantes empíricas. A interpretação prática: dobrar N reduz loss por X; dobrar D reduz loss por Y.

Crucialmente, Kaplan recomendou que a maior parte do compute extra fosse para mais parâmetros, não mais dados — recomendação que levou GPT-3 (175B params, ~300B tokens) a ser fortemente sub-treinado segundo padrões modernos.

Chinchilla (DeepMind, 2022) — correção crucial

Hoffmann et al. repetiram o estudo com metodologia mais cuidadosa e chegaram a conclusão dramaticamente diferente: para compute fixo, o ótimo era escalar parâmetros e dados na mesma proporção — aproximadamente 20 tokens por parâmetro.

Aplicaram a regra ao seu modelo “Chinchilla” — 70B parâmetros treinados em 1.4 trilhão de tokens — e ele bateu o muito-maior Gopher (280B params, 300B tokens) em quase todas as métricas. A mensagem: GPT-3, Gopher, MT-NLG estavam todos sub-treinados.

Essa correção mudou tudo. Llama (Meta, 2023, 7-65B) e suas variantes seguiram Chinchilla — modelos menores treinados em muito mais tokens — e foram dramaticamente mais eficientes.

A fórmula prática

Para compute C disponível, o ótimo Chinchilla é:

N ≈ 0.6 × √C (parâmetros)
D ≈ 1.7 × √C (tokens)
D / N ≈ 20 (tokens por parâmetro)

Multiplicando: C = 6 × N × D (FLOPs aproximado, considerando forward + backward).

Em 2024-2026, empresas começaram a violar Chinchilla deliberadamente — sobre-treinar modelos pequenos em ainda mais tokens — porque custo de inferência (rodar o modelo pós-treino) também importa. Llama 3 70B foi treinado em ~15T tokens — bem além do Chinchilla-ótimo — porque vale a pena pagar mais em treino para ter um modelo menor que custe menos em inferência durante meses/anos.

Por que importa

Tornou IA grande previsível. Antes de scaling laws, “vamos treinar um modelo maior” era ato de fé. Depois, era engenharia: dado budget de $50M em compute, sabia-se aproximadamente que loss e capacidade esperar. Isso destravou investimento sério — fundos de venture e tesourarias corporativas precisavam de previsibilidade para liberar centenas de milhões.

Transformou o roadmap da indústria. Em vez de focar em arquiteturas novas, labs focaram em escalar a arquitetura existente (decoder-only Transformer). GPT-3 → GPT-4 → GPT-5 (rumored). Chinchilla → Gemini Ultra. Cada salto era “mesma receita, mais recursos”. Esse paradigma continuou até 2024, quando o-1 (OpenAI) abriu nova dimensão: test-time compute scaling.

Criou hierarquia de quem joga. Treinar modelo fronteira passou a custar dezenas a centenas de milhões em compute apenas. Isso concentrou competição em poucas labs (OpenAI, Anthropic, Google DeepMind, Meta, xAI, Mistral, DeepSeek) com acesso a clusters NVIDIA H100/H200 dedicados. Pesquisa acadêmica sem grandes parcerias deixou de poder competir em fronteira.

Habilitou negociação de “data wall”. Em 2024, surgiu preocupação de que a internet ficou esgotada — não há mais novos tokens de qualidade para escalar D. Reações: synthetic data (Synthetic Data Generation), self-training, multi-modal scaling (vídeo, áudio adicionam tokens), test-time scaling como alternativa.

Levou a Chinchilla mais Chinchilla. Pesquisa pós-2022 refinou as fórmulas para diferentes regimes: scaling laws para MoE (Switch, GShard), para multilingual, para diferentes domínios. DeepMind (2024) mostrou teoricamente que Chinchilla-ótimo generaliza melhor que sub/super-treinado — não é só question de loss, é de transferência também.

Estado em 2026

Chinchilla está parcialmente desafiado — em produção, modelos menores hiper-treinados (Llama 3, Mistral, Phi-3) frequentemente batem Chinchilla-ótimo em razão capacidade/custo de inferência.
Test-time compute scaling entrou como eixo paralelo (o-1, o-3, DeepSeek-R1). Agora há duas dimensões de capacidade: train-time e test-time. Cada uma com sua scaling law.
MoE scaling laws (separadas de dense scaling laws) — papers de 2024-2025 estabeleceram que sparse models seguem leis diferentes; conta-se “parâmetros ativos” não “parâmetros totais” para efeito de Chinchilla.
Data quality > data quantity — Phi (Microsoft, 2023-2024) mostrou que dados curados podem render 10× mais valor por token. Mexe com a aplicação ingênua de scaling laws.
Compute price/performance dobrou várias vezes (H100 → H200 → B100/B200) — a fronteira em “$10M de treino” sobe ano a ano sem que scaling laws mudem em forma, só em constantes.

Tratamento de carta — proposta

Scaling Laws Construct · Phenomenon · Neutral · custo

Phenomenon · Rare.

No início de cada turno, conte o número total de cartas em todas as suas piles (mão + deck + descarte + jogo). Esse número é o C (“compute”). Compute é mantido enquanto o jogo prosseguir.

Sempre que você jogar um Modelo, ele entra em jogo com +1/+1 para cada 12 pontos de C que você acumulou.

“Loss decresce como power-law em N, D, C. Indústria inteira ergueu-se sobre isso.”

A mecânica encena: investimento sustentado em compute (cartas no sistema) escala continuamente o que você consegue jogar. Modelos novos ficam melhores como função previsível do total acumulado.

Veja também

GPT-3 (2020) · Transformer · Emergent Capabilities · Mixture of Experts (MoE) · Synthetic Data Generation

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Kaplan, J. et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361.
Hoffmann, J. et al. (2022). Training Compute-Optimal Large Language Models (Chinchilla). NeurIPS 2022.
Brown, T. et al. (2020). Language Models are Few-Shot Learners (GPT-3). NeurIPS 2020.
Henighan, T. et al. (2020). Scaling Laws for Autoregressive Generative Modeling. arXiv:2010.14701.
DeepMind (2024). Compute-Optimal LLMs Provably Generalize Better with Scale. ICLR 2024.