COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Data & Corpora llm-era 2008 dataset

Common Crawl

Crawl público da web — petabytes de HTML bruto. Base de quase todo LLM (GPT-3 era ~410B tokens dele).

RESUMO

Non-profit desde 2008. Atualizado mensalmente. Filtrado em datasets como C4 (Google), Dolma, RedPajama. Polêmica copyright 2023-2026 (NYT vs OpenAI etc).

Tags: web-crawl · pre-training · copyright

VEJA TAMBÉM