COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Training Stack agentic-era 2023 technique

DPO — Direct Preference Optimization

Alternativa a RLHF — pula o reward model, treina direto em pares de preferência. Mais simples, igual ou melhor.

RESUMO

Rafailov et al. (Stanford, 2023). Eliminou complexidade do PPO. Adotado amplamente em 2024-2025. KTO, IPO são variantes.

Tags: alignment · preference-optimization · simpler

VEJA TAMBÉM