Safety & Alignmentllm-era2022technique

Red Teaming

Humanos especializados tentam quebrar o modelo antes do release. Equipe interna ou contratada (Apollo, METR).

O quê

Red teaming é a prática de atacar deliberadamente um modelo antes do lançamento — humanos (ou outros modelos) especializados tentam fazê-lo produzir saídas prejudiciais, vazar dados, ser enganado por Jailbreak ou Prompt Injection, e expor falhas. O nome vem do jargão militar/segurança: o “time vermelho” simula o adversário.

A ideia central, formalizada por Anthropic, OpenAI e DeepMind por volta de 2022, é descobrir, medir e reduzir danos antes que usuários reais os encontrem. O trabalho de Ganguli et al. (2022) investigou como o red teaming escala (e liberou um dataset de 38.961 ataques); Perez et al. (2022) mostrou como usar um LLM para gerar ataques contra outro, automatizando a busca por falhas.

Em Magik LLM Gathering, é tratado como technique · anchor da trilha de segurança — o ataque controlado que fortalece a defesa.

Como funciona

Red team humano

Especialistas — internos ou contratados (firmas como Apollo Research, METR) — sondam o modelo sistematicamente: pedidos perigosos, engenharia social, exploração de contexto longo, jailbreaks criativos. Documentam o que funcionou e quão fácil foi. O output alimenta correções de treino, filtros e disclosures em system cards.

Red team automatizado (LM contra LM)

Como anotação humana é cara e limitada, Perez et al. mostraram gerar casos de teste com um LLM: um modelo “atacante” produz milhares de prompts adversariais, e um classificador detecta respostas ofensivas no modelo-alvo. Isso descobriu, num chatbot de 280B parâmetros, dezenas de milhares de saídas problemáticas — escala impossível manualmente.

Um achado importante: RLHF escala melhor sob ataque

Ganguli et al. encontraram que modelos treinados com RLHF — Reinforcement Learning from Human Feedback ficam progressivamente mais difíceis de quebrar conforme escalam, enquanto outros tipos de modelo mostram tendência plana. Evidência de que alinhamento + escala, juntos, ajudam — ainda que nenhum modelo seja inquebrável.

Por que importa

É a última linha antes do deploy. Modelos fronteira são lançados a centenas de milhões de pessoas; encontrar falhas catastróficas depois é tarde demais. Red teaming é o teste de estresse adversarial que antecede o botão de publicar.

Virou exigência institucional. UK AISI e US AISI (institutos de segurança de IA) conduzem avaliações pré-deployment de modelos fronteira. Red teaming deixou de ser opcional e entrou em compromissos voluntários e regulação emergente.

Alimenta transparência. Resultados de red teaming aparecem em system cards e bug bounties, dando ao público uma noção (parcial) dos riscos conhecidos de cada modelo — e conecta-se à avaliação honesta que a MMLU Saturation mostrou faltar nos benchmarks.

Estado em 2026

Institucionalizado. Labs fronteira têm red teams formais; institutos governamentais (AISIs) fazem avaliações independentes antes de lançamentos importantes.
Híbrido humano + automatizado. Ataques gerados por LLM ampliam a cobertura; humanos cuidam de criatividade e contexto que máquinas ainda não capturam.
Escopo crescente. Além de toxicidade, red teaming hoje mira capacidades perigosas (bio, cyber, autonomia), Prompt Injection em agentes e jailbreaks multimodais.
Tensão de divulgação. O que revelar publicamente sobre falhas encontradas — sem dar um manual a atacantes — é debate ativo.

Tratamento de carta — proposta

Red Teaming Técnica · Safety

Veja a mão do oponente. Escolha 1 carta — ela custa +2 ⚡ no próximo turno dele (você expôs a fraqueza dela antes que fosse usada). Se a carta era um Jailbreak/Prompt Injection, anule-a de vez.

“Melhor que eu quebre agora, no laboratório, do que eles quebrem depois, no mundo.”

A mecânica (do dataset) encena o ataque preventivo: expor e neutralizar a ameaça antes do deploy.

Veja também

Jailbreak · Prompt Injection · RLHF — Reinforcement Learning from Human Feedback · MMLU Saturation

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Ganguli, D. et al. (2022). Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned (Anthropic). arXiv:2209.07858.
Perez, E. et al. (2022). Red Teaming Language Models with Language Models. EMNLP 2022. arXiv:2202.03286.