Data & Corporaagentic-era2023dataset

RedPajama / Dolma / FineWeb

Datasets open-source para reproduzir LLaMA-like training. Together AI, AI2, HuggingFace.

O quê

RedPajama, Dolma e FineWeb são datasets de pré-treino abertos — corpora gigantes de texto da web, limpos e documentados, lançados para permitir que qualquer um treine um LLM “estilo LLaMA” sem precisar reconstruir o pipeline de dados do zero. São a resposta da comunidade aberta ao fato de que os labs fronteira não revelam com o que treinam.

RedPajama (Together AI). A v1 (março/2023) reproduziu a receita de dados do LLaMA original (~1,2T tokens). A v2 (out/2023) escalou para ~30 trilhões de tokens deduplicados (100T+ brutos) de 84 dumps do Common Crawl, em 5 idiomas, com 40+ anotações de qualidade pré-computadas.
Dolma (Allen Institute for AI / AI2). ~3 trilhões de tokens, o corpus que treinou o modelo totalmente aberto OLMo.
FineWeb (HuggingFace). ~15 trilhões de tokens de web em inglês, filtrados e deduplicados, com a variante FineWeb-Edu focada em conteúdo educativo.

Em Magik LLM Gathering, são tratados como dataset · companion — a matéria-prima democratizada.

Como funciona

Da web crua ao token de treino

O insumo bruto é o Common Crawl: petabytes de HTML raspado. Transformar isso em corpus de treino exige um pipeline pesado:

Extração de texto do HTML (remover boilerplate, menus, anúncios).
Filtragem de qualidade — heurísticas, classificadores e perplexity scores descartam spam, texto gerado por máquina e lixo.
Deduplicação (exata e fuzzy, via MinHash/Bloom filter) — remover repetições que enviesam o treino.
Filtros de idioma, segurança e PII.

A inovação do RedPajama-v2: separar dados de juízo

Em vez de entregar um corpus filtrado fechado, o RedPajama-v2 entrega o texto junto com 40+ sinais de qualidade pré-computados e deixa o pesquisador escolher a receita de filtragem. É high-recall: guarda quase tudo e marca, em vez de jogar fora — convidando à experimentação sobre qual filtragem produz o melhor modelo.

FineWeb e a obsessão por ablação

A equipe do FineWeb publicou ablações cuidadosas mostrando que cada passo de filtragem melhora o modelo downstream — transformando “limpeza de dados” de arte tácita em método auditável. FineWeb-Edu levou isso adiante: filtrar por valor educativo rende modelos melhores por token.

Por que importa

Democratizam a fronteira de dados. Antes, montar um corpus de trilhões de tokens era barreira de entrada de milhões de dólares e meses de engenharia. Esses datasets baixam a barreira a um download.

Tornam pesquisa de dados reprodutível. Com corpus, código e ablações abertos, a comunidade pode estudar o que torna dados bons — área antes trancada nos labs fechados.

Sustentam modelos abertos reais. OLMo (Dolma), Snowflake Arctic e dezenas de outros treinaram sobre eles. São a infraestrutura silenciosa do ecossistema aberto.

Estado em 2026

Qualidade > quantidade virou consenso: FineWeb-Edu e o argumento “textbooks” do Phi-3 mostram que curadoria rende mais que tamanho bruto.
“Data wall” no horizonte. Com a web de qualidade se esgotando, cresce o uso de Synthetic Data Generation e de filtragem cada vez mais agressiva.
Tensão legal. Treinar sobre web raspada alimenta disputas de copyright; corpora abertos enfrentam o mesmo escrutínio que os fechados.
Padrão de transparência. Lançar o pipeline e as ablações, não só os pesos, virou marca de “abertura de verdade”.

Tratamento de carta — proposta

Open Corpus Site (dados) · Foundry

Toque: olhe as 3 cartas do topo do seu deck, mantenha 1 e coloque o resto no fundo em qualquer ordem (filtragem de qualidade). Qualquer jogador pode tocar este Site (dado é aberto).

“Trinta trilhões de tokens. De graça. Para qualquer um que ouse treinar.”

A mecânica encena filtragem de qualidade (seletividade no topo do deck) e abertura (todos podem usar).

Veja também

Common Crawl · The Stack · Synthetic Data Generation · Phi-3 · Scaling Laws (Chinchilla)

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Together AI (2023). RedPajama-Data-v2: An open dataset with 30 trillion tokens. together.ai/blog/redpajama-data-v2.
Weber, M. et al. (2024). RedPajama: an Open Dataset for Training Large Language Models. NeurIPS 2024 Datasets & Benchmarks Track.
Soldaini, L. et al. (2024). Dolma: an Open Corpus of Three Trillion Tokens (AI2). ACL 2024.
Penedo, G. et al. (2024). The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale. arXiv:2406.17557.

Magik LLMGathering