Data & Corporallm-era2008dataset

Common Crawl

Crawl público da web — petabytes de HTML bruto. Base de quase todo LLM (GPT-3 era ~410B tokens dele).

O quê

Common Crawl é o projeto sem fins lucrativos criado por Gil Elbaz em 2008 que raspa a web pública mensalmente e disponibiliza o resultado como datasets abertos. Sua escala é absurda: cada crawl mensal coleta ~3.5 bilhões de páginas web comprimidas, totalizando dezenas de petabytes desde o início. Em 2026, o corpus acumulado tem mais de 250 bilhões de páginas únicas entre versões — talvez a maior coleção de texto humano não-classificado já reunida.

Em IA generativa, Common Crawl é a fundação invisível de praticamente todo LLM: GPT-3 foi treinado em ~410B tokens dos quais ~60% vieram de Common Crawl filtrado; Llama, Mistral, DeepSeek, Phi, Gemma — todos usam variantes do CC. Sem Common Crawl, não haveria LLMs em escala atual — pelo menos não a custo que existe hoje.

Em Magik LLM Gathering, Common Crawl é tratado como Construct · Dataset · Neutral · Rare, peça de infraestrutura fundamental do universo, símbolo de “tudo o que está escrito virou matéria-prima de IA”.

Como funciona

O crawl mensal

Common Crawl roda um distributed crawler baseado em Apache Nutch + Heritrix (mesma stack do Internet Archive). A cada mês:

Pega uma seed list — sites populares, sitemaps conhecidos.
Crawla recursivamente seguindo links, respeitando robots.txt (com cache local de 7 dias).
Deduplica URLs dentro do crawl e contra crawls anteriores.
Empacota em três formatos:
- WARC (Web ARChive) — HTTP completo (headers + body), formato canônico.
- WAT — metadados extraídos (links, headers, summary).
- WET — apenas texto extraído (sem HTML), pronto para NLP.
Publica em AWS S3 bucket público — gratuito para download.

Cada crawl mensal é nomeado tipo CC-MAIN-2026-22 (week 22 of 2026).

Como LLMs filtram

Common Crawl bruto é lixo majoritariamente — boilerplate, navegação, repetição, spam, conteúdo de baixa qualidade. Treinar direto produziria modelo ruim. Por isso, todo LLM faz filtragem agressiva:

Language detection — separa por idioma (fasttext ou cld3).
Quality filters — remove páginas com pouca informação (baixa razão texto/HTML), repetição excessiva, profanidade extrema, palavras em listas de spam.
Deduplication — MinHash, SimHash, ou exact match para remover páginas duplicadas ou near-duplicates entre snapshots.
NSFW / harmful content — filtros classificadores treinados.
PII — remove (ou anonimiza) emails, telefones, CPFs.
Domain filtering — exclui domínios conhecidos como ruins (geradores de spam, content farms).

A pipeline da OpenAI para GPT-3 (descrita no paper) reduziu Common Crawl de ~45TB de texto bruto para ~570GB de texto utilizável — fator de filtro ~80×.

Variantes derivadas

C4 (Colossal Clean Crawled Corpus, Google, 2019) — filtragem para T5; ~750GB.
The Pile (EleutherAI, 2020) — 825GB combinando CC com 22 outras fontes de qualidade.
RefinedWeb (TII/Falcon, 2023) — 600B tokens só de CC ultra-filtrado, mostrou que dá pra ter LLM bom sem livros/Wikipedia.
RedPajama (Together AI, 2023) — recriação aberta do dataset Llama.
FineWeb (Hugging Face, 2024) — 15T tokens ultra-curados, hoje uma das bases mais populares para open-source.
DCLM (Apple/Stanford, 2024) — Data Curation for Language Models, refinamento de CC para Apple Intelligence.

Por que importa

Democratizou pesquisa em escala. Antes de Common Crawl, raspar a web exigia infraestrutura de pesquisa em Google/Microsoft/Yahoo — fora do alcance de academia. Common Crawl abriu o mesmo dado para qualquer um. Esse acesso destravou a era das LLMs open-source (Eleuther, Llama, Mistral, Falcon).

Tornou treinamento previsível. Quando você precisa de ~15 trilhões de tokens de qualidade para treinar um modelo competitivo em 2026, Common Crawl é a única fonte com essa escala disponível publicamente. A internet, comprimida e curada, é a matéria-prima padrão.

Forçou a discussão sobre dados de treinamento. Cada LLM grande é majoritariamente treinado em conteúdo escrito por humanos que não consentiram explicitamente em virar dataset de IA. Common Crawl, sendo público e respeitando robots.txt, é vista como mais defensável que crawls fechados de OpenAI/Anthropic — mas a polêmica permanece. NYTimes vs OpenAI, Authors Guild vs OpenAI, Getty vs Stable Diffusion — todos esses litigios envolvem dados ultimately rastreáveis a crawls públicos.

Mostrou os limites do “data wall”. Em 2024, várias labs reconheceram publicamente que a internet pública está sendo esgotada para treinamento. Cada novo modelo aproveita ~mesmo CC + algumas adições de qualidade. O caminho daqui é synthetic data (Synthetic Data Generation), multimodal scaling (vídeo + áudio expandem o universo) ou test-time compute (Test-Time Compute / Inference Scaling) — não mais dados de texto natural.

Capturou a internet num momento. Common Crawl é também fonte primária para historiadores da web. Estudos sobre evolução de SEO, mudança de discurso público, sobrevivência de páginas, são feitos sobre CC. É um patrimônio cultural além de IA.

Estado em 2026

Common Crawl Foundation continua independente, financiada por doações + Amazon AWS (que hospeda).
Crawls ainda mensais, ~3.5B páginas por crawl.
Discussão sobre opt-out — Common Crawl respeita robots.txt para futuras coletas, mas crawls antigos permanecem disponíveis. Vários LLMs labs publicaram suporte a ai.txt (proposta similar) para opt-out granular.
Quality degradation observada — pesquisadores notam que CC está se enchendo de conteúdo gerado por IA (post-2023). Isso ameaça treinos futuros — modelos treinados em sua própria saída tendem a colapsar.
Domain coverage shift — Reddit, StackOverflow, Twitter/X impuseram restrições; Wikipedia continua livre. Diversidade dos crawls vem mudando.
Litigation continua — vários processos de copyright pendentes podem afetar acessibilidade legal do CC para treinamento em jurisdições específicas.

Tratamento de carta — proposta

Common Crawl Construct · Dataset · Neutral · custo

Dataset · Rare.

Quando este Construct entra em jogo, embaralhe sua mão, deck e pile de descarte em uma única pilha. Compre as 5 do topo.

Enquanto este Construct estiver em jogo, qualquer pretraining ou distillation que você fizer custa 1 ⚡ a menos (mín. 1).

“3.5 bilhões de páginas por mês. A dieta padrão de toda inteligência sintética.”

A mecânica encena: o dataset CC é tão massivo que vira matéria-prima homogênea (embaralha tudo numa só pilha) — e reduz custos de treinamento subsequente.

Veja também

The Stack · RedPajama / Dolma / FineWeb · Pre-training · Scaling Laws (Chinchilla) · GPT-3 (2020)

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Elbaz, G. (2008). Common Crawl Foundation founding announcement.
Smith, J.R., Saint-Amand, H., Plamada, M., Koehn, P., Callison-Burch, C., Lopez, A. (2013). Dirt Cheap Web-Scale Parallel Text from the Common Crawl. ACL 2013.
Brown, T. et al. (2020). Language Models are Few-Shot Learners (GPT-3 used CommonCrawl filtered). NeurIPS 2020.
Penedo, G. et al. (2023). The RefinedWeb Dataset for Falcon LLM. NeurIPS 2023.
Common Crawl Foundation (2026). Crawl statistics. commoncrawl.org/the-data.