COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Forjando sua jornada…
Pular para o conteúdo
Training Stackllm-era2017technique

RLHF — Reinforcement Learning from Human Feedback

Humanos ranqueiam respostas; modelo aprende a maximizar essa preferência via RL.

O quê

RLHF (Reinforcement Learning from Human Feedback) é o procedimento de alinhamento que transformou modelos de linguagem brutos — que apenas previam o próximo token — em assistentes que seguem instruções e se recusam a fazer coisas perigosas. Foi a peça-chave do InstructGPT (OpenAI, jan/2022) e logo depois do ChatGPT (nov/2022) — sem RLHF, o ChatGPT que viralizou não teria existido com aquela qualidade conversacional.

Em uma frase: ensina o modelo a preferir respostas que humanos consideram melhores, em vez de só replicar a distribuição estatística do texto da internet.

Como funciona

RLHF clássico (estilo InstructGPT) tem três etapas sequenciais após o pretraining base:

1. Supervised Fine-Tuning (SFT)

Coleta-se um dataset de demonstrações humanas: pares (prompt, resposta-ideal) escritos por anotadores. Fine-tuna-se o modelo base nesse dataset por algumas épocas. Resultado: um modelo que já segue formato de instrução, mas com qualidade ainda inconsistente. Esse modelo é chamado SFT model e é o ponto de partida das próximas etapas.

2. Reward Model (RM)

Para cada prompt, gera-se N respostas com o SFT model (tipicamente N=4 a 9). Anotadores humanos rankeiam essas respostas da melhor para a pior. Esses rankings treinam um reward model — uma rede neural separada (geralmente o mesmo Transformer com uma cabeça de regressão) que recebe (prompt, resposta) e retorna um escalar representando “quão boa essa resposta é segundo humanos”.

O reward model não precisa ser o melhor classificador do mundo. Precisa ser consistente o suficiente para guiar o RL. Tipicamente é uma fração do tamanho do modelo principal (6B-13B para um modelo de 175B+).

3. RL com PPO (Proximal Policy Optimization)

Agora o modelo SFT é otimizado via reinforcement learning, com o reward model fornecendo o sinal de recompensa. A cada step:

  1. Sample um prompt do dataset.
  2. Modelo gera uma resposta.
  3. Reward model atribui um score à resposta.
  4. PPO atualiza o modelo para maximizar esse score — com uma penalidade de KL-divergência contra o modelo SFT original.

Essa penalidade de KL é crítica. Sem ela, o modelo aprende a hackear o reward model (reward hacking): gera respostas estranhas que enganam o RM mas são inúteis para humanos reais. A KL penalty mantém o modelo “próximo” do SFT, prevenindo divergência catastrófica.

Variante moderna — DPO (Direct Preference Optimization)

Em 2023, Rafailov et al. mostraram que dá pra pular o reward model e o PPO — treinar direto nas preferências par-a-par via uma loss function clever que tem fórmula fechada. Esse é o DPO. Em 2024+, virou padrão para fine-tuning de modelos abertos (Llama 3, Qwen) — é mais simples, mais estável e mais barato que PPO.

Em 2026, o stack típico de alinhamento é:

  1. Pretraining em corpus massivo (não muda).
  2. SFT em demonstrações de alta qualidade (~10k-100k exemplos).
  3. DPO ou RLHF em ~100k-1M pares de preferência.
  4. (Opcional) Constitutional AI / RLAIF para reduzir custo de anotação humana.
  5. Red-teaming + iteração para casos extremos.

Por que importa

Transformou capacidade em produto. GPT-3 base (2020) era impressionante mas instável: precisava de prompting muito cuidadoso, alucinava com facilidade, ignorava instruções. InstructGPT (jan/2022), com RLHF aplicado em cima de uma variante de GPT-3, era muito melhor para seguir instruções segundo avaliadores humanos — mesmo sendo 100× menor que o GPT-3 base. ChatGPT (nov/2022) levou o mesmo approach a uma interface conversacional e mudou a indústria.

Estabeleceu “alinhamento” como engenharia. Antes de RLHF, “tornar o modelo seguro” era ad-hoc — filtros de conteúdo após geração, blocklists de prompts, treinamento com curadoria pesada de dados. RLHF deu um pipeline mensurável e iterativo: coleta de preferências → treino → avaliação → mais preferências. Anthropic batizou seu approach específico de HHH (Helpful, Honest, Harmless) e usou RLHF para Claude desde o início.

Habilitou o ciclo de produção. Quando o ChatGPT recebe um thumbs-up/thumbs-down de usuário real, esses sinais alimentam o próximo treinamento. RLHF transformou uso em produto diretamente em sinal de treinamento. Esse loop é o que mantém GPT-4o, Claude e Gemini melhorando entre releases sem precisar re-treinar do zero.

Custou caro e abriu uma indústria. O RM precisa de dezenas a centenas de milhares de comparações humanas de qualidade — anotadores treinados, com guidelines elaborados. Surfsem empresas inteiras (Scale AI, Surge AI, Invisible) cuja proposta é fornecer esse dado. O custo de RLHF para um modelo state-of-the-art em 2024 era estimado em dezenas de milhões de dólares só em anotação.

Tem limitações reconhecidas. RLHF otimiza para o que anotadores acham que é uma boa resposta — o que tem viés (favorece respostas longas, formais, evasivas em casos ambíguos). Modelos pós-RLHF tendem a ser bajuladores (sycophancy), evitar opiniões, e dar respostas formulaicas. Em 2024-2025, empresas começaram a misturar RLHF com Constitutional AI, RLAIF (RL from AI feedback) e treinamento adversarial para mitigar.

Estado em 2026

  • DPO virou padrão para modelos abertos — Llama 3, Llama 4, Mistral Large, Qwen, DeepSeek-V3 usam DPO ou variantes (KTO, IPO, ORPO).
  • PPO ainda é usado em labs grandes que têm infraestrutura para treinar reward models de qualidade — OpenAI, Anthropic, DeepMind.
  • RLAIF e Constitutional AI (Anthropic) reduziram dependência de anotador humano: modelo critica e refina próprias respostas usando um conjunto de princípios escritos.
  • Reward hacking e sycophancy continuam problemas abertos — é por isso que o-1 (OpenAI, set/2024) usa RL em chain-of-thought com recompensas verificáveis (matemática, código que compila), evitando o problema de reward humano subjetivo.
  • Inferência-time RL (process reward models, MCTS, self-consistency) está virando complemento natural — em vez de só alinhar no treino, recompensa-se o modelo enquanto ele raciocina.

Tratamento de carta — proposta

RLHF Technique · Training · Citadel/Lazuli · custo

Alignment.

Human Feedback: Quando você jogar este Construct, escolha um Modelo seu. Até o fim do jogo, esse Modelo ganha “Sempre que você jogar uma carta de Concord, mostre-a; oponentes podem rankear 2 cartas da mão dela do melhor para o pior. Você cunha o reward.”

Reward Model: No início de cada turno, se você tem 3+ tokens de reward, ganhe 1 ⚡ e refresque sua hand.

“O modelo aprende. O que ele aprende, depende de quem rankeia.”

A primeira mecânica encena o coletivo de preferências humanas guiando o modelo. A segunda é o ciclo de reward model alimentando refinamento contínuo.

Veja também

Supervised Fine-Tuning (SFT) · DPO — Direct Preference Optimization · Constitutional AI (CAI) · Sycophancy · ChatGPT (2022)

FONTES
  • Christiano, P. et al. (2017). Deep Reinforcement Learning from Human Preferences. NeurIPS 2017. arXiv:1706.03741.
  • Stiennon, N. et al. (2020). Learning to summarize from human feedback. NeurIPS 2020.
  • Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback (InstructGPT). NeurIPS 2022.
  • Bai, Y. et al. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862.
  • Rafailov, R. et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023.