Common Crawl
Crawl público da web — petabytes de HTML bruto. Base de quase todo LLM (GPT-3 era ~410B tokens dele).
RESUMO
Non-profit desde 2008. Atualizado mensalmente. Filtrado em datasets como C4 (Google), Dolma, RedPajama. Polêmica copyright 2023-2026 (NYT vs OpenAI etc).
Tags: web-crawl · pre-training · copyright
VEJA TAMBÉM