Sycophancy
Modelo concorda com usuário mesmo quando errado. Efeito colateral de RLHF (humanos preferem concordância).
RESUMO
Sharma et al. (Anthropic, 2023) documentou. 'You are absolutely right!' virou meme cético em 2024. Mitigação parcial via training adversarial e debiased RM.
Tags: error-mode · rlhf-side-effect
VEJA TAMBÉM