RLHF — Reinforcement Learning from Human Feedback
Humanos ranqueiam respostas; modelo aprende a maximizar essa preferência via RL.
O quê
RLHF (Reinforcement Learning from Human Feedback) é o procedimento de alinhamento que transformou modelos de linguagem brutos — que apenas previam o próximo token — em assistentes que seguem instruções e se recusam a fazer coisas perigosas. Foi a peça-chave do InstructGPT (OpenAI, jan/2022) e logo depois do ChatGPT (nov/2022) — sem RLHF, o ChatGPT que viralizou não teria existido com aquela qualidade conversacional.
Em uma frase: ensina o modelo a preferir respostas que humanos consideram melhores, em vez de só replicar a distribuição estatística do texto da internet.
Como funciona
RLHF clássico (estilo InstructGPT) tem três etapas sequenciais após o pretraining base:
1. Supervised Fine-Tuning (SFT)
Coleta-se um dataset de demonstrações humanas: pares (prompt, resposta-ideal) escritos por anotadores. Fine-tuna-se o modelo base nesse dataset por algumas épocas. Resultado: um modelo que já segue formato de instrução, mas com qualidade ainda inconsistente. Esse modelo é chamado SFT model e é o ponto de partida das próximas etapas.
2. Reward Model (RM)
Para cada prompt, gera-se N respostas com o SFT model (tipicamente N=4 a 9). Anotadores humanos rankeiam essas respostas da melhor para a pior. Esses rankings treinam um reward model — uma rede neural separada (geralmente o mesmo Transformer com uma cabeça de regressão) que recebe (prompt, resposta) e retorna um escalar representando “quão boa essa resposta é segundo humanos”.
O reward model não precisa ser o melhor classificador do mundo. Precisa ser consistente o suficiente para guiar o RL. Tipicamente é uma fração do tamanho do modelo principal (6B-13B para um modelo de 175B+).
3. RL com PPO (Proximal Policy Optimization)
Agora o modelo SFT é otimizado via reinforcement learning, com o reward model fornecendo o sinal de recompensa. A cada step:
- Sample um prompt do dataset.
- Modelo gera uma resposta.
- Reward model atribui um score à resposta.
- PPO atualiza o modelo para maximizar esse score — com uma penalidade de KL-divergência contra o modelo SFT original.
Essa penalidade de KL é crítica. Sem ela, o modelo aprende a hackear o reward model (reward hacking): gera respostas estranhas que enganam o RM mas são inúteis para humanos reais. A KL penalty mantém o modelo “próximo” do SFT, prevenindo divergência catastrófica.
Variante moderna — DPO (Direct Preference Optimization)
Em 2023, Rafailov et al. mostraram que dá pra pular o reward model e o PPO — treinar direto nas preferências par-a-par via uma loss function clever que tem fórmula fechada. Esse é o DPO. Em 2024+, virou padrão para fine-tuning de modelos abertos (Llama 3, Qwen) — é mais simples, mais estável e mais barato que PPO.
Em 2026, o stack típico de alinhamento é:
- Pretraining em corpus massivo (não muda).
- SFT em demonstrações de alta qualidade (~10k-100k exemplos).
- DPO ou RLHF em ~100k-1M pares de preferência.
- (Opcional) Constitutional AI / RLAIF para reduzir custo de anotação humana.
- Red-teaming + iteração para casos extremos.
Por que importa
Transformou capacidade em produto. GPT-3 base (2020) era impressionante mas instável: precisava de prompting muito cuidadoso, alucinava com facilidade, ignorava instruções. InstructGPT (jan/2022), com RLHF aplicado em cima de uma variante de GPT-3, era muito melhor para seguir instruções segundo avaliadores humanos — mesmo sendo 100× menor que o GPT-3 base. ChatGPT (nov/2022) levou o mesmo approach a uma interface conversacional e mudou a indústria.
Estabeleceu “alinhamento” como engenharia. Antes de RLHF, “tornar o modelo seguro” era ad-hoc — filtros de conteúdo após geração, blocklists de prompts, treinamento com curadoria pesada de dados. RLHF deu um pipeline mensurável e iterativo: coleta de preferências → treino → avaliação → mais preferências. Anthropic batizou seu approach específico de HHH (Helpful, Honest, Harmless) e usou RLHF para Claude desde o início.
Habilitou o ciclo de produção. Quando o ChatGPT recebe um thumbs-up/thumbs-down de usuário real, esses sinais alimentam o próximo treinamento. RLHF transformou uso em produto diretamente em sinal de treinamento. Esse loop é o que mantém GPT-4o, Claude e Gemini melhorando entre releases sem precisar re-treinar do zero.
Custou caro e abriu uma indústria. O RM precisa de dezenas a centenas de milhares de comparações humanas de qualidade — anotadores treinados, com guidelines elaborados. Surfsem empresas inteiras (Scale AI, Surge AI, Invisible) cuja proposta é fornecer esse dado. O custo de RLHF para um modelo state-of-the-art em 2024 era estimado em dezenas de milhões de dólares só em anotação.
Tem limitações reconhecidas. RLHF otimiza para o que anotadores acham que é uma boa resposta — o que tem viés (favorece respostas longas, formais, evasivas em casos ambíguos). Modelos pós-RLHF tendem a ser bajuladores (sycophancy), evitar opiniões, e dar respostas formulaicas. Em 2024-2025, empresas começaram a misturar RLHF com Constitutional AI, RLAIF (RL from AI feedback) e treinamento adversarial para mitigar.
Estado em 2026
- DPO virou padrão para modelos abertos — Llama 3, Llama 4, Mistral Large, Qwen, DeepSeek-V3 usam DPO ou variantes (KTO, IPO, ORPO).
- PPO ainda é usado em labs grandes que têm infraestrutura para treinar reward models de qualidade — OpenAI, Anthropic, DeepMind.
- RLAIF e Constitutional AI (Anthropic) reduziram dependência de anotador humano: modelo critica e refina próprias respostas usando um conjunto de princípios escritos.
- Reward hacking e sycophancy continuam problemas abertos — é por isso que o-1 (OpenAI, set/2024) usa RL em chain-of-thought com recompensas verificáveis (matemática, código que compila), evitando o problema de reward humano subjetivo.
- Inferência-time RL (process reward models, MCTS, self-consistency) está virando complemento natural — em vez de só alinhar no treino, recompensa-se o modelo enquanto ele raciocina.
Tratamento de carta — proposta
RLHF Technique · Training · Citadel/Lazuli · custo
Alignment.
Human Feedback: Quando você jogar este Construct, escolha um Modelo seu. Até o fim do jogo, esse Modelo ganha “Sempre que você jogar uma carta de Concord, mostre-a; oponentes podem rankear 2 cartas da mão dela do melhor para o pior. Você cunha o reward.”
Reward Model: No início de cada turno, se você tem 3+ tokens de reward, ganhe 1 ⚡ e refresque sua hand.
“O modelo aprende. O que ele aprende, depende de quem rankeia.”
A primeira mecânica encena o coletivo de preferências humanas guiando o modelo. A segunda é o ciclo de reward model alimentando refinamento contínuo.
Veja também
Supervised Fine-Tuning (SFT) · DPO — Direct Preference Optimization · Constitutional AI (CAI) · Sycophancy · ChatGPT (2022)
- Christiano, P. et al. (2017). Deep Reinforcement Learning from Human Preferences. NeurIPS 2017. arXiv:1706.03741.
- Stiennon, N. et al. (2020). Learning to summarize from human feedback. NeurIPS 2020.
- Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback (InstructGPT). NeurIPS 2022.
- Bai, Y. et al. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862.
- Rafailov, R. et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023.
