Constitutional AI (CAI)
Anthropic: substitua humanos pelo modelo + uma constituição escrita para gerar feedback.
RESUMO
Bai et al. (2022). RLAIF (AI feedback) baseado em princípios. Define a doutrina da House Lazuli no nosso mundo. Claude é treinado assim.
Tags: alignment · anthropic · rule-based-safety
VEJA TAMBÉM