Synthetic Data Generation
Use modelos fortes para gerar dados de treino para modelos novos. Risco: model collapse.
RESUMO
Self-Instruct (2022), Orca (2023), Phi (MS). Resolve escassez de dados de alta qualidade. Model collapse (Shumailov et al. 2024) avisa: treinar em dados sintéticos por gerações degrada.
Tags: data · self-improvement · risk
VEJA TAMBÉM