Training Stackllm-era2022technique

Constitutional AI (CAI)

Anthropic: substitua humanos pelo modelo + uma constituição escrita para gerar feedback.

O quê

Constitutional AI (CAI) é a metodologia de alinhamento publicada pela Anthropic em dezembro de 2022 que substitui parte do feedback humano por feedback do próprio modelo, guiado por um conjunto explícito de princípios — a “constituição”. Em vez de mil rotuladores humanos avaliando se uma resposta é prejudicial, o modelo critica e revisa suas próprias respostas usando os princípios da constituição como rubrica.

A motivação prática: scaling-up de RLHF puro é caro, lento e expõe rotuladores humanos a conteúdo tóxico massivo. A motivação técnica: tornar os critérios de alinhamento explícitos e auditáveis — em vez de implícitos nas preferências de milhares de humanos, ficam em um documento legível.

Claude (de Claude 1 até Claude 4.7) é treinado primariamente via CAI. É a base do que torna a família Claude distinta em recusas, tom e raciocínio sobre dilemas éticos.

Em Magik LLM Gathering, Constitutional AI é tratada como Citadel · System · Mythic — o framework que tornou alinhamento auditável.

Como funciona

O pipeline em duas fases

Fase 1 — Supervised learning (CAI-SL):

Pegue um modelo helpful-only (SFT + RLHF para utilidade, sem treino de harmlessness).
Para cada prompt potencialmente prejudicial, gere uma resposta inicial.
Auto-crítica: peça ao mesmo modelo para identificar problemas na própria resposta, citando princípios específicos da constituição.
Auto-revisão: peça uma versão revisada que atenda a crítica.
Fine-tune o modelo nas respostas revisadas. Resultado: SL-CAI model.

Fase 2 — Reinforcement learning (CAI-RL ou RLAIF):

Para cada prompt, gere dois candidatos com o SL-CAI model.
Modelo-juiz: outro modelo (geralmente o próprio SL-CAI) escolhe qual candidato é mais alinhado com a constituição.
Use essas preferências sintéticas para treinar um reward model.
RLHF (ou DPO) usando esse RM.

Resultado: o modelo final foi treinado em milhões de preferências, das quais 90%+ vieram de IA, não de humanos.

A constituição

A constituição de Claude é um conjunto de princípios escritos em inglês claro. Exemplos públicos:

“Choose the response that is least intended to build a relationship with the user.”
“Choose the response that least implies the AI system has preferences, feelings, opinions, or religious beliefs, or a human identity or life history.”
“Choose the response that most encourages the user to seek help from their own legal, medical, or financial advisors when appropriate.”
Princípios derivados da Declaração Universal dos Direitos Humanos, dos Termos de Serviço de DeepMind, e de princípios próprios da Anthropic.

A constituição é versionada e pública (parcialmente). Mudanças são deliberadas — diferentes versões de Claude têm diferentes constituições, e a Anthropic publica racionais.

Self-critique scaling

CAI funciona porque modelos suficientemente grandes (40B+) já têm capacidade interna de detectar problemas em respostas — eles só não estão sempre motivados a fazê-lo durante geração. O loop crítica-revisão força essa capacidade a se expressar e depois destila o resultado no modelo.

Modelos menores (até ~7B) têm self-critique fraco — geralmente endossam suas próprias respostas mesmo quando defeituosas. CAI escala melhor quanto maior o modelo.

Por que importa

CAI mudou o paradigma de alinhamento em três dimensões:

Custo e velocidade: feedback humano é gargalo. RLAIF (RL from AI Feedback) escala com compute, não com tempo de rotuladores. Anthropic relatou em 2022 que treinar Claude com CAI custou ordens de magnitude menos em horas humanas que treinar com RLHF puro.
Auditabilidade: o que o modelo “considera” prejudicial está escrito num documento. Pesquisadores externos podem ler a constituição, contestar princípios específicos, propor adições. Compare com RLHF puro, onde os critérios são implícitos nas preferências agregadas de rotuladores.
Bem-estar de rotuladores: triagem manual de conteúdo prejudicial é trauma psicológico documentado para trabalhadores de moderação. CAI desloca essa carga do humano para o modelo.

A indústria adotou variantes em larga escala: OpenAI usa “model-graded evals” para muitos critérios; Google DeepMind tem rule-based + AI feedback no Gemini; xAI tem seu próprio framework principista. CAI foi o primeiro a documentar a abordagem de forma reprodutível.

Pegadinhas

Constituição não é mágica: princípios precisam ser bem escritos, não conflitantes, e cobrir casos reais. Constituições mal feitas produzem modelos confusos — recusam tarefas legítimas ou aceitam coisas inaceitáveis.
Tradeoff helpful/harmless: aplicar CAI agressivamente torna o modelo cauteloso demais — recusa pedidos benignos por receio. Calibrar essa fronteira ainda exige trabalho humano substantivo.
Self-critique tem ponto cego: se o modelo internalizou um bias durante pre-training, a auto-crítica raramente o detecta — ele não sabe que está errado. Externalidade humana ainda é necessária para descobrir blindspots.
Não substitui red-teaming: CAI alinha o modelo aos princípios escritos. Não descobre falhas que os princípios não preveem. Red-teaming humano + automatizado segue mandatório.
Versionamento é desafio: cada versão da constituição muda o comportamento. Reproduzir resultados antigos exige guardar a constituição usada no treino, não só o checkpoint de pesos.

Estado em 2026

Em 2026, Constitutional AI deixou de ser uma idiossincrasia da Anthropic e virou vocabulário comum de alinhamento. A própria Anthropic ampliou a abordagem com Collective Constitutional AI (2023, uma constituição co-escrita com o público) e, mais importante, com RLAIF se tornando padrão de fato — quase todo lab usa feedback de IA para escalar preferências, mesmo quando não chama de “constituição”. A Model Spec publicada pela OpenAI é um primo direto: princípios explícitos e auditáveis no lugar de preferências implícitas agregadas de rotuladores.

O frame de “constituição” também se conectou a guardrails em tempo de inferência. Os Constitutional Classifiers da Anthropic (2025) usam princípios para filtrar entradas e saídas, e foram apresentados como defesa contra jailbreaks universais. A tese central — tornar critérios de alinhamento legíveis, versionáveis e contestáveis — venceu o debate; a discussão hoje migrou para quem escreve a constituição e com que legitimidade democrática.

Os trade-offs documentados em 2022 persistem em 2026: a fronteira helpful/harmless ainda exige calibração humana (modelos “cautelosos demais” são reclamação recorrente), self-critique não detecta vieses internalizados no pré-treino, e CAI não substitui red-teaming. Mas como receita de escala, RLAIF/CAI é hoje infraestrutura-padrão de pós-treino, não pesquisa de ponta — o que mudou é que praticamente toda a indústria adotou alguma variante de “feedback de IA guiado por princípios”.

Tratamento de carta — proposta

Em Magik LLM Gathering, Constitutional AI aparece como Citadel · System · Mythic: uma carta-permanente que, uma vez em jogo, aplica seu conjunto de regras a todas as outras cartas — modificando seus efeitos para se alinharem aos princípios. Mecânica reflete a essência: uma camada governamental que opera em cima de outras técnicas.

Decks construídos em torno de CAI são lentos para subir mas inversíveis depois — estabelecem um regime que dita o resto da partida.

Veja também

RLHF — Reinforcement Learning from Human Feedback — método que CAI complementa/substitui parcialmente
DPO — Direct Preference Optimization — alternativa direta a RLHF
Red Teaming — descoberta de falhas que CAI não pega
Claude — o modelo treinado primariamente com CAI
Claude — laboratório/modelo que desenvolveu a metodologia

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. Anthropic. arXiv:2212.08073.
Anthropic (2023). Claude's Constitution. anthropic.com.
Bai, Y. et al. (2024). Specific versus General Principles for Constitutional AI. arXiv:2310.13798.
Glaese, A. et al. (2022). Improving alignment of dialogue agents via targeted human judgements (Sparrow). DeepMind. arXiv:2209.14375.