Training Stackdl-era2015technique

Knowledge Distillation

Modelo grande ('teacher') ensina modelo pequeno ('student') a imitá-lo. Útil para edge inference.

O quê

Distillation (mais formalmente knowledge distillation) é a técnica de treinar um modelo pequeno (“student”) a imitar o comportamento de um modelo grande (“teacher”). Formalizada por Geoffrey Hinton, Oriol Vinyals e Jeff Dean em 2015, virou a primitiva canônica de compressão de modelos: pegue um modelo enorme e caro, comprima-o em algo barato que captura ~90% da qualidade.

A intuição-chave: as probabilidades suaves que o teacher atribui a cada classe contêm muito mais informação do que o rótulo duro (one-hot). Treinar o student para reproduzir essas distribuições — em vez de só prever o rótulo final — transfere “conhecimento” do teacher mesmo em datasets pequenos.

Em 2026, distillation está em toda parte: DistilBERT, TinyLlama, Phi-3, Gemma 2 9B (distilada de Gemma 2 27B), GPT-4 turbo, Claude Haiku, todos os modelos “small/fast/cheap” são distilados de teachers maiores.

Como funciona

Setup canônico (Hinton et al., 2015):

Treine ou pegue um teacher grande, já bem treinado.
Para cada amostra de treino, o teacher gera uma distribuição de probabilidades sobre classes (logits passados por softmax com temperatura T > 1).
O student é treinado com loss composta:
- Distillation loss — KL-divergência entre a distribuição do teacher e a do student, com a mesma temperatura T. Faz student aproximar o comportamento do teacher.
- Student loss — cross-entropy padrão entre student e os rótulos verdadeiros (hard labels).

A combinação é tipicamente L = α × L_distill + (1-α) × L_student, com α em ~0.5-0.9.

A temperatura T é truque-chave: temperatura alta “amolece” a distribuição do teacher, expondo informação sobre classes não escolhidas mas similares — “esta imagem é 70% gato, 25% lince, 5% cachorro” carrega muito mais sinal pedagógico que “é gato”.

Variantes modernas

Self-distillation — student é a mesma arquitetura que teacher; usar várias rodadas de distillation pode melhorar o teacher original (Born-Again Networks, 2018).
Teacher Assistant — quando teacher e student têm tamanho muito diferente, distilar via um “TA” intermediário ajuda (Mirzadeh et al., 2020).
Data-free distillation — não tem dataset original do teacher; gera amostras sintéticas que ativam o teacher e usa essas para treinar student.
Distillation com chain-of-thought (“Distilling step-by-step”, Hsieh et al., 2023) — em vez de só copiar a resposta final, student aprende a copiar o raciocínio inteiro do teacher. Resultado: student pequeno + CoT bate teacher maior em muitas tarefas.
Online distillation — teacher e student treinam juntos, teacher refina-se enquanto ensina.
Adversarial Distillation (SDXL Turbo, DMD) — usa GAN-style adversarial loss para distilar processos de difusão de 50 steps para 1-4 steps.

Distillation moderna em LLMs

A receita prevalente em 2024-2026 para treinar LLMs pequenos:

Pretrain em corpus grande (mesmo dataset do teacher, ou menor).
Distill dos logits do teacher em corpus de instruction-tuning.
Fine-tune com synthetic data que o teacher gerou — perguntas e respostas em domínios desejados.
DPO/RLHF para alignment final.

Resultado: modelos 7B-13B que se aproximam de 70B em muitas tarefas práticas. Phi-3 mini (3.8B) é o exemplo extremo — bate Llama 2 70B em vários benchmarks porque foi distilado de teachers fortes em synthetic data ultra-curado.

Por que importa

Habilitou IA “edge”. Rodar um modelo de 175B em um smartphone é impossível. Rodar uma versão distilada de 1-7B é viável. Isso destrava: assistentes locais (Apple Intelligence rodando em iPhone), modelos on-prem (Phi-3 em laptop empresarial), modelos em browser (transformers.js), modelos em raspberry pi.

Reduziu custo de inferência em escala industrial. Quando você roda um produto SaaS com milhões de queries/dia, cada centavo conta. Distilar GPT-4 → GPT-4o mini, Claude Opus → Claude Haiku, Llama 70B → Llama 8B reduz custo de inferência em 10-50× preservando ~85-95% da qualidade em tarefas de produção. Esse foi mecanismo central da queda de preço por token em ~10× entre 2023 e 2026.

Mostrou que tamanho não é destino. A regra “modelo maior é sempre melhor” foi temperada por evidências repetidas: Phi-3 mini bate Llama 2 70B em raciocínio. Gemma 2 9B (distilada) é competitiva com modelos 2-3× maiores. Distillation provou que dados certos + processo de treino bom + sinal de teacher de qualidade pode tornar pequeno muito esperto.

Aprendizado curricular e síntese de dados. “Distill step-by-step” inaugurou um paradigma: usar o teacher para gerar dataset de treino sintético especificamente útil para o student. Isso virou prática padrão em Phi, Gemma, Llama. Reverteu uma intuição: ter um teacher é tão valioso por gerar dados quanto por servir de target de loss.

Tem limitações conhecidas:

Student herda biases e erros do teacher.
Student tende a ser bom no que teacher é bom, ruim no que teacher é ruim. Distilação não cria conhecimento novo.
Capability gap real — em tarefas que exigem chain-of-thought longo, raciocínio composicional ou conhecimento de cauda longa, distilados ainda perdem para teachers maiores.

Estado em 2026

Stack canônico para LLMs comerciais: foundation grande (caro de treinar) → distilação para versão mid (Sonnet, GPT-4o, Gemini Pro) → distilação para versão small (Haiku, GPT-4o mini, Gemini Flash, Phi-3.5).
Open-source distillation labs proliferaram: Mistral, DeepSeek, Qwen, Phi, Gemma — todos distilam de teachers internos para abrir versões eficientes.
Reasoning distillation virou nova fronteira: DeepSeek-R1 e variantes distilam raciocínio explicito do o-1/R1 para Llama e Qwen, criando modelos pequenos que “pensam”.
Adversarial Distillation para difusão (SDXL Turbo, FLUX Schnell, DMD) — gerar imagem em 1-4 steps em vez de 25-50.
Multi-teacher distillation — student aprende de vários teachers especializados (um bom em matemática, outro em código, etc.).

Tratamento de carta — proposta

Distillation Technique · Training · Neutral · custo

Training.

Escolha um Modelo seu em jogo com custo 4+ (“teacher”) e descarte-o. Em seu lugar, busque do seu deck um Modelo do mesmo tipo com custo 2 ou menos e ponha-o em jogo com +1/+1.

“O aprendiz não cunha o que o mestre sabe. Cunha o que o mestre faria.”

A mecânica encena distillation: sacrifica-se um modelo grande/caro para destravar uma versão menor, mais eficiente, que carrega parte do “conhecimento” do teacher.

Veja também

Pre-training · Supervised Fine-Tuning (SFT) · Synthetic Data Generation · Transformer · LoRA / QLoRA

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Hinton, G., Vinyals, O., Dean, J. (2015). Distilling the Knowledge in a Neural Network. NeurIPS Deep Learning Workshop 2014. arXiv:1503.02531.
Buciluă, C., Caruana, R., Niculescu-Mizil, A. (2006). Model compression. KDD 2006.
Sanh, V. et al. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv:1910.01108.
Beyer, L. et al. (2022). Knowledge Distillation: A Good Teacher is Patient and Consistent. CVPR 2022.
Hsieh, C.-Y. et al. (2023). Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes. ACL 2023.

Magik LLMGathering