COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Training Stack agentic-era 2023 technique

Synthetic Data Generation

Use modelos fortes para gerar dados de treino para modelos novos. Risco: model collapse.

RESUMO

Self-Instruct (2022), Orca (2023), Phi (MS). Resolve escassez de dados de alta qualidade. Model collapse (Shumailov et al. 2024) avisa: treinar em dados sintéticos por gerações degrada.

Tags: data · self-improvement · risk

VEJA TAMBÉM