Data & Corpora
Corpora, datasets, contamination
5 conceitos · ordenados cronologicamente
1948
concept
Entropy (Shannon)
Medida da incerteza média em uma distribuição — H = -Σ p(x) log p(x). Fundamento da teoria da informação.
2008
dataset
Common Crawl
Crawl público da web — petabytes de HTML bruto. Base de quase todo LLM (GPT-3 era ~410B tokens dele).
2009
dataset
◇ LONG-FORM
ImageNet
Dataset de 14M imagens rotuladas em 20k categorias — combustível do Big Bang do deep learning.
2022
dataset
The Stack
Corpus open-source de código (BigCode/HuggingFace). Base de Code Llama, StarCoder, etc.
2023
dataset
RedPajama / Dolma / FineWeb
Datasets open-source para reproduzir LLaMA-like training. Together AI, AI2, HuggingFace.
Ler mais →