COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
TRILHA · COMPUTE WARS

Training Stack

Como modelos aprendem: pre-training, SFT, RLHF, DPO, distillation, PEFT

12 conceitos · ordenados cronologicamente


1847
concept

Gradient Descent

Algoritmo de otimização que segue o gradiente negativo da loss — motor de todo aprendizado profundo.

1948
concept

Cross-Entropy (loss)

Função de perda padrão para classificação — mede a distância entre distribuição prevista e distribuição alvo.

2014
concept

Transfer Learning

Treinar em uma tarefa e reusar os pesos para outra — base do paradigma pretrain → fine-tune.

2015
technique

Knowledge Distillation

Modelo grande ('teacher') ensina modelo pequeno ('student') a imitá-lo. Útil para edge inference.

2017
technique

RLHF — Reinforcement Learning from Human Feedback

Humanos ranqueiam respostas; modelo aprende a maximizar essa preferência via RL.

2018
technique

Pre-training

Fase 1 do treino: modelo aprende a prever próximo token em terabytes de texto bruto.

2018
concept

Masked Language Modeling (MLM)

Objetivo de pré-treino em que 15% dos tokens são mascarados e o modelo aprende a prevê-los — coração do BERT.

2021
technique

Supervised Fine-Tuning (SFT)

Fase 2: ajustar pesos com pares (instrução, resposta humana ideal). Torna o modelo 'obediente'.

2021
technique

LoRA / QLoRA

Fine-tune barato: treina só pequenas matrizes 'low-rank' em vez dos pesos completos.

2022
technique

Constitutional AI (CAI)

Anthropic: substitua humanos pelo modelo + uma constituição escrita para gerar feedback.

2023
technique

DPO — Direct Preference Optimization

Alternativa a RLHF — pula o reward model, treina direto em pares de preferência. Mais simples, igual ou melhor.

2023
technique

Synthetic Data Generation

Use modelos fortes para gerar dados de treino para modelos novos. Risco: model collapse.