RedPajama / Dolma / FineWeb
Datasets open-source para reproduzir LLaMA-like training. Together AI, AI2, HuggingFace.
RESUMO
RedPajama-v2 (~30T tokens), Dolma (AI2, 3T), FineWeb (HF, 15T). Permitem treinar frontier sem reinventar pipeline de dados.
Tags: open-data · pre-training
VEJA TAMBÉM