Training Stackllm-era2021technique

Supervised Fine-Tuning (SFT)

Fase 2: ajustar pesos com pares (instrução, resposta humana ideal). Torna o modelo 'obediente'.

O quê

Supervised Fine-Tuning (SFT) é o estágio do pipeline de treinamento de LLMs em que o modelo, depois de pre-trained num corpus gigante de texto cru, aprende a seguir instruções via fine-tuning em pares cuidadosamente curados de (prompt, resposta ideal). É o passo que transforma um modelo que “completa texto” num modelo que “responde a pedidos” — a fronteira entre GPT-3 (base) e GPT-3.5/ChatGPT.

SFT é o primeiro estágio de alinhamento. Depois dele vêm RLHF ou DPO (Direct Preference Optimization), mas SFT sozinho já produz modelos utilizáveis em produção. Vicuna, Alpaca, Llama 3 Instruct — todos têm um SFT robusto antes de qualquer RL.

Em Magik LLM Gathering, SFT é tratada como Foundry · Technique · Uncommon — o primeiro passo que dá voz a um modelo cru.

Como funciona

O setup

Dado um modelo pre-trained π_base e um dataset {(x_i, y_i)} de pares prompt-resposta de alta qualidade, fine-tune o modelo para minimizar cross-entropy entre suas previsões e as respostas humanas. Mecanicamente idêntico ao pre-training, mas em dataset menor e curado.

A loss típica é o language modeling loss padrão, mas mascarado: só penaliza erros nos tokens da resposta, não do prompt. Você não quer que o modelo memorize prompts — quer que ele aprenda a gerar a resposta dado o prompt.

A composição do dataset

Datasets de SFT modernos misturam várias fontes:

Demonstrações humanas: rotuladores escrevem respostas ideais para prompts representativos. Caro mas alto sinal. InstructGPT começou com ~13k demonstrações.
Synthetic data: usa um LLM mais forte (GPT-4, Claude) para gerar respostas para milhares de prompts. Self-Instruct (Wang et al. 2022) e variantes geram dezenas de milhares de pares semi-automaticamente.
Curadoria de open datasets: ShareGPT, OpenAssistant, FLAN-collection. Sweet spot de tamanho/qualidade exige filtragem.
Cross-task mixing: FLAN (Wei et al. 2022) descobriu que misturar centenas de tarefas no SFT generaliza para tarefas não vistas. Padrão da indústria desde então.

LIMA (Zhou et al. 2023) lançou uma observação chocante: 1000 exemplos cuidadosamente curados produzem alinhamento comparável a 50k exemplos médios. Qualidade > quantidade em SFT.

Hiperparâmetros típicos

Learning rate: muito menor que pre-training. Tipicamente 1e-5 a 5e-5. LR alto demais e o modelo “esquece” o que aprendeu em pre-training (catastrophic forgetting).
Epochs: 1-3. Mais que isso e overfita ao dataset SFT, perde generalização.
Batch size: cabe na memória; tipicamente 32-256 exemplos.
Sequence length: o dataset deve refletir o uso real — se modelos vão responder prompts de 8k tokens, treine com sequências dessa escala.

Por que importa

SFT é o que faz LLMs serem úteis:

Modelos base não respondem perguntas — eles continuam texto. Pergunte “Qual a capital da França?” a um GPT-3 base e ele pode responder com mais perguntas, ou com texto de um livro de geografia. SFT ensina que perguntas devem virar respostas.
Estabelece tom e formato: SFT define se o modelo responde formal/informal, em listas/parágrafos, com markdown ou texto cru. Voz da marca (Claude vs ChatGPT vs Gemini) é definida largamente no SFT.
Codifica recusas: instruir o modelo a recusar pedidos prejudiciais começa no SFT. RLHF refina, mas SFT planta a sementeira.
Habilita formatos especializados: function calling, structured output, JSON-only responses, code blocks — todos ensinados via SFT com exemplos do formato desejado.
É barato comparado a RLHF: SFT roda em horas a dias numa única GPU para modelos médios. RLHF exige multi-GPU semanas. Muitos modelos open-source param em SFT e vão bem.

A receita InstructGPT (Ouyang et al. 2022) consagrou o pipeline:

SFT em ~13k demonstrações curadas.
Reward model treinado em ~33k comparações de preferência.
PPO otimizando contra o reward model.

ChatGPT lançado em novembro de 2022 era essencialmente InstructGPT mais polido. Todo modelo conversacional posterior segue variação desse pipeline — SFT continua sendo o primeiro passo.

Pegadinhas

Catastrophic forgetting: SFT agressivo apaga conhecimento factual do pre-training. Mitigado com LR baixa, regularização, KL penalty contra o modelo base.
Distribution mismatch: se o dataset SFT só tem perguntas educacionais e o uso real é code-gen, o modelo será péssimo em code-gen apesar de pre-trained em código.
Sycophancy: humanos rotuladores premiam respostas que concordam com eles. Modelo SFT-trained tende a ser sycophantic — virtude em conversação casual, problema em verificação técnica.
Length bias: rotuladores acham respostas mais longas “melhores”. SFT vai amplificar isso. Filtre dataset por length distribution desejada.
Verbosidade aprendida: SFT em respostas humanas verbosas produz modelos verbosos. Datasets curados para concisão (LIMA-style) produzem modelos mais econômicos.
Não substitui alinhamento profundo: SFT ensina formato e tom. Para julgamentos finos de harmlessness/honesty, precisa RLHF/DPO/CAI.
Underspecified prompts viram inconsistência: se o dataset tem “explique” às vezes seguido de bullets, às vezes de prosa, o modelo aprende ambos e escolhe aleatoriamente — frustrante em produção.

Estado em 2026

Em 2026, SFT continua sendo o primeiro estágio inegociável do pós-treino, mas a fonte dos dados inverteu-se. Em 2022, SFT vivia de demonstrações humanas caras; em 2026, os datasets são majoritariamente sintéticos — gerados e filtrados por modelos mais fortes (distillation de cadeias de raciocínio de modelos como GPT-4/o-series, R1, Claude). A lição do LIMA (“qualidade > quantidade”) foi absorvida e radicalizada: pipelines de 2026 investem pesado em curadoria, deduplicação e filtragem automática de qualidade.

A grande mudança de fronteira é o reasoning. Os modelos “thinking” (o-series, DeepSeek-R1, Claude com extended thinking) usam uma fase de SFT sobre longas cadeias de raciocínio (cold-start) antes do RL. O R1 (2025) tornou a receita explícita: SFT de cold-start → RL com recompensa verificável → mais SFT sobre amostras boas → RL final. SFT deixou de ser só “ensinar a seguir instruções” e passou a ser também “ensinar a raciocinar longamente”.

Os trade-offs documentados persistem: catastrophic forgetting, length/sycophancy bias e distribution mismatch. PEFT (LoRA/QLoRA) tornou SFT acessível a qualquer um com uma GPU, e a sequência padrão de 2026 é pré-treino → SFT → DPO/RL. A receita do InstructGPT segue de pé na espinha; o que mudou foi a escala, a origem sintética dos dados e a ênfase em raciocínio.

Tratamento de carta — proposta

Em Magik LLM Gathering, SFT aparece como Foundry · Technique · Uncommon: a primeira “voz” dada a um modelo cru. Custo médio, efeito habilitador — destrava combos que dependem de comportamento alinhado, mas não vence sozinha.

É a carta que estabelece tom para o resto do deck. Sem ela, modelos base ficam reativos e descoordenados.

Veja também

RLHF — Reinforcement Learning from Human Feedback — segundo estágio típico
DPO — Direct Preference Optimization — alternativa direta a RLHF
RLHF — Reinforcement Learning from Human Feedback — paper InstructGPT cristalizou a receita SFT → RM → PPO
Pre-training — estágio que precede SFT
LoRA / QLoRA — técnica de SFT eficiente em parâmetros

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback (InstructGPT). NeurIPS 2022. arXiv:2203.02155.
Howard, J., Ruder, S. (2018). Universal Language Model Fine-tuning (ULMFiT). ACL 2018.
Wei, J. et al. (2022). Finetuned Language Models Are Zero-Shot Learners (FLAN). ICLR 2022. arXiv:2109.01652.
Zhou, C. et al. (2023). LIMA: Less Is More for Alignment. NeurIPS 2023. arXiv:2305.11206.