Folklore & Memesagentic-era2024meme

MMLU Saturation

Benchmark MMLU saturou em ~89% em 2024 — humanos tiram ~89%. Comunidade desistiu de levar a sério.

O quê

MMLU saturation é o momento — por volta de 2024 — em que o benchmark MMLU (Massive Multitask Language Understanding) saturou: os melhores modelos passaram a pontuar ~86–90%, encostando no teto humano especialista (~89,8%), e a comunidade parou de levá-lo a sério como medida de fronteira. Virou meme: “passou no MMLU” deixou de impressionar.

O MMLU (Hendrycks et al., 2020) foi, por anos, o benchmark dominante — 57 disciplinas, de matemática a direito a medicina, ~16 mil questões de múltipla escolha. GPT-4, Claude 3 e Gemini 1.5 cravaram pontuações tão altas e tão próximas entre si que o número perdeu poder de discriminar quem é melhor.

Em Magik LLM Gathering, é tratado como meme da trilha de cultura — o epitáfio bem-humorado de uma régua que ficou curta.

Como funciona

Por que um benchmark satura

Um benchmark é útil enquanto há espaço para melhorar e ele discrimina entre modelos. A saturação acontece por três forças combinadas:

Teto alcançado. Quando todos os modelos de ponta ficam em ~88%, diferenças de 1–2 pontos viram ruído, não sinal.
Contaminação. Como o MMLU é público há anos, suas questões (ou paráfrases) vazaram para corpora de treino — modelos podem ter visto as respostas, inflando notas.
Otimização para o teste. Quando uma métrica vira alvo, ela deixa de ser boa métrica (Lei de Goodhart). Labs ajustam para o benchmark, e a nota descola da capacidade real.

A resposta: benchmarks mais duros

A comunidade migrou para provas mais difíceis e resistentes a contaminação: MMLU-Pro (mais opções, mais raciocínio), GPQA Diamond (“google-proof”, nível pós-graduação), ARC-AGI (raciocínio abstrato), FrontierMath (matemática de pesquisa) e Humanity’s Last Exam. A corrida é por benchmarks que os modelos ainda não saturaram.

Por que importa

Expõe a crise de avaliação da IA. Medir capacidade de modelos que mudam a cada mês é um problema aberto e sério. Benchmarks saturam mais rápido do que são criados — e sem boa medição, “progresso” vira marketing.

Ensina Goodhart na prática. O ciclo MMLU é o estudo de caso perfeito de “quando a medida vira meta, deixa de ser boa medida” — lição central para quem confia em números de leaderboard.

Reforça a importância de Red Teaming e avaliação privada. Benchmarks públicos contaminam; daí o valor de evals privadas, holdouts e times independentes (UK/US AISI) para medir capacidade real antes do deploy.

Estado em 2026

MMLU aposentado como métrica de fronteira, embora ainda apareça como linha de base “de cortesia” em model cards.
Benchmarks duros também sob pressão. GPQA e ARC-AGI já mostram modelos avançando rápido; a meia-vida de um benchmark encolheu.
Avaliações dinâmicas e privadas ganharam tração para escapar da contaminação.
Ceticismo de leaderboard virou postura padrão da comunidade — números altos exigem perguntar “treinou no teste?”.

Tratamento de carta — proposta

MMLU Saturation Meme · Culture · custo baixo

Jogue em um Modelo inimigo “buffado” por um benchmark (qualquer +X/+X vindo de uma carta de avaliação). Esses bônus são anulados — afinal, “passar no MMLU não prova mais nada”.

“89%? Os humanos também tiram 89%. Próximo.”

A mecânica encena a saturação: invalida vantagens conquistadas por um benchmark esgotado.

Veja também

Red Teaming · Emergent Capabilities · Sparks of AGI · Scaling Laws (Chinchilla)

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Hendrycks, D. et al. (2021). Measuring Massive Multitask Language Understanding (MMLU). ICLR 2021. arXiv:2009.03300.
Wang, Y. et al. (2024). MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark. NeurIPS 2024. arXiv:2406.01574.
Rein, D. et al. (2023). GPQA: A Graduate-Level Google-Proof Q&A Benchmark. arXiv:2311.12022.

Magik LLMGathering