The Stack
Corpus open-source de código (BigCode/HuggingFace). Base de Code Llama, StarCoder, etc.
RESUMO
3TB+ de código permissivo (licenças MIT/Apache/etc). The Stack v2 (2024) expandiu com filtros de qualidade. Copyright code lawsuits seguem.
Tags: code · open-data