DPO — Direct Preference Optimization
Alternativa a RLHF — pula o reward model, treina direto em pares de preferência. Mais simples, igual ou melhor.
RESUMO
Rafailov et al. (Stanford, 2023). Eliminou complexidade do PPO. Adotado amplamente em 2024-2025. KTO, IPO são variantes.
Tags: alignment · preference-optimization · simpler
VEJA TAMBÉM