Training Stackagentic-era2023technique

Synthetic Data Generation

Use modelos fortes para gerar dados de treino para modelos novos. Risco: model collapse.

O quê

Geração de dados sintéticos é a prática de usar modelos fortes para produzir dados de treino para outros modelos — instruções, respostas, explicações passo a passo, pares de preferência, código. Em vez de coletar e rotular dados humanos (caros, escassos, lentos), você gera o que precisa. Tornou-se central porque dados humanos de alta qualidade estão acabando, enquanto a fome de dados dos modelos só cresce.

A virada começou com Self-Instruct (Wang et al., 2022): um modelo gera as próprias instruções e respostas a partir de poucas sementes, e é fine-tunado nelas. Logo vieram Orca (Microsoft, 2023), que treina modelos menores em traços de explicação do GPT-4, e a família Phi (Phi-3), que mostrou que dados sintéticos de altíssima qualidade (“textbook quality”) permitem modelos pequenos surpreendentemente capazes.

Como funciona

Padrões comuns

Self-Instruct / bootstrapping: o modelo expande um punhado de exemplos-semente em milhares de instruções diversas.
Distilação de capacidades (Knowledge Distillation): um modelo “professor” forte gera respostas/explicações; o “aluno” menor aprende a imitá-las.
Rejection sampling: gere N candidatos, filtre pelos corretos (via verificador, testes, ou Self-Consistency) e treine só nos bons. É a espinha dorsal de pipelines de reasoning (incluindo DeepSeek R1 (2025)).
Dados de preferência sintéticos: um modelo julga pares de respostas, gerando sinal para RL/DPO sem rotulador humano (próximo do RLAIF do Constitutional AI (CAI)).

Qualidade > quantidade

A lição da linha Phi é que curadoria e filtragem importam mais que volume bruto. Dados sintéticos ruins ensinam atalhos errados; dados sintéticos bem filtrados podem superar dados web crus para certas capacidades. A intuição é que o modelo-professor já fez o trabalho de “limpar” o ruído da web em explicações claras e bem-estruturadas — o aluno aprende de um material didático em vez de um despejo bruto da internet.

Onde sintético brilha (e onde não)

Funciona melhor onde há verificação barata: matemática (a resposta está certa?), código (os testes passam?), formato (o JSON é válido?). Nesses domínios, o rejection sampling produz dados de altíssima qualidade quase de graça. Funciona pior onde “qualidade” é subjetiva ou onde o professor simplesmente não sabe — gerar dados sintéticos sobre fatos que o modelo desconhece só amplifica suas alucinações. Por isso o sintético raramente substitui dados humanos em conhecimento factual; ele complementa, gerando variedade de formato e raciocínio sobre fatos já ancorados.

Por que importa

Resolve a escassez de dados. Em domínios sem corpus humano abundante (raciocínio matemático passo a passo, casos extremos de código), gerar é a única saída prática.
Barateia o alinhamento. Feedback de IA substitui parte do feedback humano caro.
Transfere capacidade para modelos menores. Distilar um modelo de fronteira em um pequeno democratiza desempenho.

Estado em 2026

Dados sintéticos são parte padrão do pipeline de quase todo modelo de fronteira — especialmente para pós-treino de raciocínio e código. O risco mais citado é o model collapse (colapso de modelo): Shumailov et al., publicado na Nature em 2024 (“AI models collapse when trained on recursively generated data”), mostrou que treinar geração após geração apenas em dados gerados pelo modelo anterior degrada irreversivelmente o modelo — as caudas da distribuição (eventos raros) somem e a variância colapsa. Porém, trabalhos seguintes (2024) qualificam o alarme: o colapso vem de substituir os dados reais por sintéticos; acumular dados sintéticos junto com os reais evita o colapso e mantém um limite superior finito de erro. A leitura madura em 2026 é: sintético é indispensável, mas precisa ser misturado com dados humanos reais e bem filtrado — não usado em circuito fechado.

Tratamento de carta — proposta

Synthetic Data Operação · Chronoworks · custo

Self-Instruct. Crie um token-cópia de um Conceito em jogo. Ele é uma cópia “sintética”.

Model Collapse. Se você criar uma cópia de uma cópia (sintético de sintético), sacrifique-a no fim do turno — a menos que você controle pelo menos um Conceito “real” (não-token).

“Modelos podem ensinar modelos. Mas só de cópias de cópias, todos esquecem o mundo.”

A mecânica encena a geração sintética (cópias) e o colapso de modelo (cópia de cópia degrada, a menos que ancorada em dado real).

Veja também

Phi-3 · Knowledge Distillation · Supervised Fine-Tuning (SFT) · Self-Consistency · Constitutional AI (CAI)

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Wang, Y. et al. (2022). Self-Instruct: Aligning Language Models with Self-Generated Instructions. ACL 2023. arXiv:2212.10560.
Mukherjee, S. et al. (2023). Orca: Progressive Learning from Complex Explanation Traces of GPT-4. arXiv:2306.02707.
Shumailov, I. et al. (2024). AI models collapse when trained on recursively generated data. Nature 631, 755–759. (arXiv:2305.17493).

Magik LLMGathering