MMLU Saturation
Benchmark MMLU saturou em ~89% em 2024 — humanos tiram ~89%. Comunidade desistiu de levar a sério.
RESUMO
MMLU (2020) foi o benchmark dominante. GPT-4, Claude 3, Gemini 1.5 todos ~85-90%. Substituído por MMLU-Pro, GPQA Diamond, ARC-AGI, FrontierMath em 2024-2025.
Tags: meme · benchmarks