Training Stackagentic-era2023technique

DPO — Direct Preference Optimization

Alternativa a RLHF — pula o reward model, treina direto em pares de preferência. Mais simples, igual ou melhor.

O quê

DPO (Direct Preference Optimization) é a técnica de alinhamento publicada por Rafael Rafailov e equipe (Stanford) em maio de 2023 que substitui RLHF por um único objetivo de fine-tuning supervisionado. Em vez de treinar um reward model separado, rodar PPO instável e exigir uma pipeline com 3 modelos vivos em memória, DPO transforma o problema de aprendizado por preferências num simples gradiente sobre log-probabilidades.

A grande sacada: você consegue mostrar matematicamente que a política ótima que RLHF estaria buscando tem uma forma fechada em termos do reward model. Resolvendo essa equação para o reward implícito, sobra um objetivo de loss que é apenas log-ratio entre completions preferidas e rejeitadas, ponderado por uma referência. Nada de RL.

Em Magik LLM Gathering, DPO é tratada como Foundry · Technique · Rare — a primitiva que democratizou o último passo do alinhamento.

Como funciona

O setup

Você tem um modelo π_ref (geralmente o SFT checkpoint) e um dataset de preferências (x, y_w, y_l) — para cada prompt x, há uma resposta preferida y_w (“winner”) e uma rejeitada y_l (“loser”), tipicamente coletadas via humanos rotuladores ou via outro LLM como juiz.

O loss

O objetivo DPO é, num bloco que escapa do parser MDX:

L_DPO = -E[(x, y_w, y_l)] log σ(
  β · log(π_θ(y_w|x) / π_ref(y_w|x))
  - β · log(π_θ(y_l|x) / π_ref(y_l|x))
)

Em palavras: maximize a log-probabilidade de y_w relativa à referência, minimize a de y_l relativa à referência. O β (tipicamente 0.1-0.5) controla quão longe da π_ref o modelo pode se afastar — análogo ao KL penalty em RLHF.

Por que isso “é” RLHF

Rafailov et al. mostraram que, sob certas condições, a política ótima do problema RLHF tem a forma π*(y|x) ∝ π_ref(y|x) · exp(r(y, x) / β). Isolando r(y, x) nessa equação e plugando no objetivo Bradley-Terry de modelagem de preferências, o reward model evapora — só sobra o ratio de log-probabilidades. A loss DPO é matematicamente equivalente a RLHF com reward model implícito.

O pipeline

Pré-DPO (RLHF):

SFT (fine-tuning supervisionado em respostas humanas).
Treinar reward model RM em preferências.
PPO loop com 4 modelos em memória (policy, ref, RM, value), instável, semanas de tuning.

Pós-DPO:

SFT.
DPO em preferências — um loop de fine-tuning padrão, 2 modelos em memória (policy + ref), dias.

Por que importa

DPO simplificou alinhamento numa ordem de magnitude:

Menos compute: 2 modelos vs 4. Cabe em uma única GPU para modelos médios.
Menos instabilidade: PPO em LLM era notoriamente difícil — reward hacking, mode collapse, instabilidade numérica. DPO é fine-tuning padrão, mesma estabilidade que SFT.
Reproduzível por todos: pré-DPO, fazer RLHF de qualidade era basicamente exclusivo de OpenAI/Anthropic/DeepMind. Pós-DPO, qualquer lab acadêmico ou startup pequena consegue rodar — Llama 3 Instruct, Mistral Instruct, Qwen Chat, todos usam DPO ou variantes.
Abriu uma família: depois do DPO vieram IPO (Identity Preference Optimization, mais robusto a noise no dataset), KTO (Kahneman-Tversky Optimization, funciona com sinais binários sem pares), ORPO (combina SFT e alinhamento num único passo), SimPO (sem modelo de referência).

A consequência prática: em 2024-2026, “alinhamento” deixou de ser sinônimo de RLHF. RLHF ainda lidera em casos onde o reward é particularmente difícil de derivar de preferências pareadas (ex: Constitutional AI da Anthropic), mas DPO virou o default da indústria para alinhamento.

Pegadinhas

Sensível ao dataset: DPO assume que pares são genuinamente preferidos — se o dataset tem ruído (humanos discordando, juízes LLM inconsistentes), o modelo aprende preferências erradas confiantemente.
Esquecimento do SFT: DPO agressivo (β baixo) pode fazer o modelo perder a “voz” da fase SFT — vira muito conservador, recusa demais, perde habilidades específicas. IPO foi proposto exatamente para mitigar isso.
Reward hacking implícito: o modelo pode aprender a aumentar log-prob da resposta preferida não por melhorar qualidade, mas por trivialidades (formatação, comprimento, uso de markdown). Auditoria humana ainda é necessária.
Não é equivalente a RLHF em todos os regimes: a derivação assume policy e ref próximas. Em offline learning extremo (muitos passos de fine-tuning, ref muito antiga), a equivalência se quebra.
β é crítico: muito alto e o modelo não aprende preferências; muito baixo e ele colapsa para a resposta vencedora literalmente. Sweep entre 0.1-0.5 é mandatório.

Estado em 2026

Em 2026, DPO consolidou-se como o default de pós-treino aberto, e a “família de preferências” explodiu. Llama 3, Qwen2/3, Mistral, Gemma e a maioria dos modelos abertos usam DPO ou variantes (SimPO sem modelo de referência, ORPO unindo SFT+preferência num passo, KTO com sinais binários, IPO mais robusto a ruído). O debate técnico de 2024-2025 — DPO offline vs. PPO online — concluiu pragmaticamente que RL online (PPO/GRPO) ainda extrai mais performance quando há um bom reward model ou recompensa verificável, enquanto DPO ganha em simplicidade e custo.

A grande virada foi o reasoning. RLHF/DPO clássicos miram preferências de estilo e harmlessness; em 2025-2026, o foco migrou para RLVR (RL from Verifiable Rewards) — GRPO, popularizado pelo DeepSeek-R1, treina raciocínio com recompensa objetiva (a resposta matemática está certa? o teste passa?). DPO continua relevante para alinhar tom e segurança, mas a fronteira de capacidade hoje vem de RL online sobre recompensas verificáveis, não de preferências pareadas.

Os trade-offs apontados na origem seguem: DPO é sensível a ruído no dataset, β é crítico, e há reward-hacking implícito (length bias, formatação como atalho). A síntese de 2026: o pipeline padrão é SFT → DPO (alinhamento barato e estável) e, para fronteira, uma camada adicional de RL online — não mais “DPO em vez de RLHF”, mas “DPO e RL, cada um no seu lugar”.

Tratamento de carta — proposta

Em Magik LLM Gathering, DPO aparece como Foundry · Technique · Rare: uma carta que substitui um “loop complexo” (combo de 3 cartas) por um único efeito direto. Reflete a essência da técnica — equivalência matemática, fração do custo, mesmo resultado.

Decks que querem alinhamento sem pagar o preço de RLHF puro são construídos em torno dela.

Veja também

RLHF — Reinforcement Learning from Human Feedback — o método que DPO substitui
RLHF — Reinforcement Learning from Human Feedback — reward modeling, a etapa que DPO torna implícita
Constitutional AI (CAI) — alinhamento sem preferências humanas pareadas
Supervised Fine-Tuning (SFT) — o estágio que precede DPO
KTO (Kahneman-Tversky Optimization) — variante que dispensa pares

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Rafailov, R. et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023. arXiv:2305.18290.
Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback (InstructGPT). NeurIPS 2022.
Azar, M.G. et al. (2023). A General Theoretical Paradigm to Understand Learning from Human Preferences (IPO). arXiv:2310.12036.
Ethayarajh, K. et al. (2024). Model Alignment as Prospect Theoretic Optimization (KTO). arXiv:2402.01306.

Magik LLMGathering