COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Data & Corpora agentic-era 2023 dataset

RedPajama / Dolma / FineWeb

Datasets open-source para reproduzir LLaMA-like training. Together AI, AI2, HuggingFace.

RESUMO

RedPajama-v2 (~30T tokens), Dolma (AI2, 3T), FineWeb (HF, 15T). Permitem treinar frontier sem reinventar pipeline de dados.

Tags: open-data · pre-training

VEJA TAMBÉM