Training Stackllm-era2017technique

RLHF — Reinforcement Learning from Human Feedback

Humanos ranqueiam respostas; modelo aprende a maximizar essa preferência via RL.

O quê

RLHF (Reinforcement Learning from Human Feedback) é o procedimento de alinhamento que transformou modelos de linguagem brutos — que apenas previam o próximo token — em assistentes que seguem instruções e se recusam a fazer coisas perigosas. Foi a peça-chave do InstructGPT (OpenAI, jan/2022) e logo depois do ChatGPT (nov/2022) — sem RLHF, o ChatGPT que viralizou não teria existido com aquela qualidade conversacional.

Em uma frase: ensina o modelo a preferir respostas que humanos consideram melhores, em vez de só replicar a distribuição estatística do texto da internet.

Como funciona

RLHF clássico (estilo InstructGPT) tem três etapas sequenciais após o pretraining base:

1. Supervised Fine-Tuning (SFT)

Coleta-se um dataset de demonstrações humanas: pares (prompt, resposta-ideal) escritos por anotadores. Fine-tuna-se o modelo base nesse dataset por algumas épocas. Resultado: um modelo que já segue formato de instrução, mas com qualidade ainda inconsistente. Esse modelo é chamado SFT model e é o ponto de partida das próximas etapas.

2. Reward Model (RM)

Para cada prompt, gera-se N respostas com o SFT model (tipicamente N=4 a 9). Anotadores humanos rankeiam essas respostas da melhor para a pior. Esses rankings treinam um reward model — uma rede neural separada (geralmente o mesmo Transformer com uma cabeça de regressão) que recebe (prompt, resposta) e retorna um escalar representando “quão boa essa resposta é segundo humanos”.

O reward model não precisa ser o melhor classificador do mundo. Precisa ser consistente o suficiente para guiar o RL. Tipicamente é uma fração do tamanho do modelo principal (6B-13B para um modelo de 175B+).

3. RL com PPO (Proximal Policy Optimization)

Agora o modelo SFT é otimizado via reinforcement learning, com o reward model fornecendo o sinal de recompensa. A cada step:

Sample um prompt do dataset.
Modelo gera uma resposta.
Reward model atribui um score à resposta.
PPO atualiza o modelo para maximizar esse score — com uma penalidade de KL-divergência contra o modelo SFT original.

Essa penalidade de KL é crítica. Sem ela, o modelo aprende a hackear o reward model (reward hacking): gera respostas estranhas que enganam o RM mas são inúteis para humanos reais. A KL penalty mantém o modelo “próximo” do SFT, prevenindo divergência catastrófica.

Variante moderna — DPO (Direct Preference Optimization)

Em 2023, Rafailov et al. mostraram que dá pra pular o reward model e o PPO — treinar direto nas preferências par-a-par via uma loss function clever que tem fórmula fechada. Esse é o DPO. Em 2024+, virou padrão para fine-tuning de modelos abertos (Llama 3, Qwen) — é mais simples, mais estável e mais barato que PPO.

Em 2026, o stack típico de alinhamento é:

Pretraining em corpus massivo (não muda).
SFT em demonstrações de alta qualidade (~10k-100k exemplos).
DPO ou RLHF em ~100k-1M pares de preferência.
(Opcional) Constitutional AI / RLAIF para reduzir custo de anotação humana.
Red-teaming + iteração para casos extremos.

Por que importa

Transformou capacidade em produto. GPT-3 base (2020) era impressionante mas instável: precisava de prompting muito cuidadoso, alucinava com facilidade, ignorava instruções. InstructGPT (jan/2022), com RLHF aplicado em cima de uma variante de GPT-3, era muito melhor para seguir instruções segundo avaliadores humanos — mesmo sendo 100× menor que o GPT-3 base. ChatGPT (nov/2022) levou o mesmo approach a uma interface conversacional e mudou a indústria.

Estabeleceu “alinhamento” como engenharia. Antes de RLHF, “tornar o modelo seguro” era ad-hoc — filtros de conteúdo após geração, blocklists de prompts, treinamento com curadoria pesada de dados. RLHF deu um pipeline mensurável e iterativo: coleta de preferências → treino → avaliação → mais preferências. Anthropic batizou seu approach específico de HHH (Helpful, Honest, Harmless) e usou RLHF para Claude desde o início.

Habilitou o ciclo de produção. Quando o ChatGPT recebe um thumbs-up/thumbs-down de usuário real, esses sinais alimentam o próximo treinamento. RLHF transformou uso em produto diretamente em sinal de treinamento. Esse loop é o que mantém GPT-4o, Claude e Gemini melhorando entre releases sem precisar re-treinar do zero.

Custou caro e abriu uma indústria. O RM precisa de dezenas a centenas de milhares de comparações humanas de qualidade — anotadores treinados, com guidelines elaborados. Surfsem empresas inteiras (Scale AI, Surge AI, Invisible) cuja proposta é fornecer esse dado. O custo de RLHF para um modelo state-of-the-art em 2024 era estimado em dezenas de milhões de dólares só em anotação.

Tem limitações reconhecidas. RLHF otimiza para o que anotadores acham que é uma boa resposta — o que tem viés (favorece respostas longas, formais, evasivas em casos ambíguos). Modelos pós-RLHF tendem a ser bajuladores (sycophancy), evitar opiniões, e dar respostas formulaicas. Em 2024-2025, empresas começaram a misturar RLHF com Constitutional AI, RLAIF (RL from AI feedback) e treinamento adversarial para mitigar.

Estado em 2026

DPO virou padrão para modelos abertos — Llama 3, Llama 4, Mistral Large, Qwen, DeepSeek-V3 usam DPO ou variantes (KTO, IPO, ORPO).
PPO ainda é usado em labs grandes que têm infraestrutura para treinar reward models de qualidade — OpenAI, Anthropic, DeepMind.
RLAIF e Constitutional AI (Anthropic) reduziram dependência de anotador humano: modelo critica e refina próprias respostas usando um conjunto de princípios escritos.
Reward hacking e sycophancy continuam problemas abertos — é por isso que o-1 (OpenAI, set/2024) usa RL em chain-of-thought com recompensas verificáveis (matemática, código que compila), evitando o problema de reward humano subjetivo.
Inferência-time RL (process reward models, MCTS, self-consistency) está virando complemento natural — em vez de só alinhar no treino, recompensa-se o modelo enquanto ele raciocina.

Tratamento de carta — proposta

RLHF Technique · Training · Citadel/Lazuli · custo

Alignment.

Human Feedback: Quando você jogar este Construct, escolha um Modelo seu. Até o fim do jogo, esse Modelo ganha “Sempre que você jogar uma carta de Concord, mostre-a; oponentes podem rankear 2 cartas da mão dela do melhor para o pior. Você cunha o reward.”

Reward Model: No início de cada turno, se você tem 3+ tokens de reward, ganhe 1 ⚡ e refresque sua hand.

“O modelo aprende. O que ele aprende, depende de quem rankeia.”

A primeira mecânica encena o coletivo de preferências humanas guiando o modelo. A segunda é o ciclo de reward model alimentando refinamento contínuo.

Veja também

Supervised Fine-Tuning (SFT) · DPO — Direct Preference Optimization · Constitutional AI (CAI) · Sycophancy · ChatGPT (2022)

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Christiano, P. et al. (2017). Deep Reinforcement Learning from Human Preferences. NeurIPS 2017. arXiv:1706.03741.
Stiennon, N. et al. (2020). Learning to summarize from human feedback. NeurIPS 2020.
Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback (InstructGPT). NeurIPS 2022.
Bai, Y. et al. (2022). Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862.
Rafailov, R. et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model. NeurIPS 2023.