Training Stack
Como modelos aprendem: pre-training, SFT, RLHF, DPO, distillation, PEFT
12 conceitos · ordenados cronologicamente
Gradient Descent
Algoritmo de otimização que segue o gradiente negativo da loss — motor de todo aprendizado profundo.
Cross-Entropy (loss)
Função de perda padrão para classificação — mede a distância entre distribuição prevista e distribuição alvo.
Transfer Learning
Treinar em uma tarefa e reusar os pesos para outra — base do paradigma pretrain → fine-tune.
Knowledge Distillation
Modelo grande ('teacher') ensina modelo pequeno ('student') a imitá-lo. Útil para edge inference.
RLHF — Reinforcement Learning from Human Feedback
Humanos ranqueiam respostas; modelo aprende a maximizar essa preferência via RL.
Pre-training
Fase 1 do treino: modelo aprende a prever próximo token em terabytes de texto bruto.
Masked Language Modeling (MLM)
Objetivo de pré-treino em que 15% dos tokens são mascarados e o modelo aprende a prevê-los — coração do BERT.
Supervised Fine-Tuning (SFT)
Fase 2: ajustar pesos com pares (instrução, resposta humana ideal). Torna o modelo 'obediente'.
LoRA / QLoRA
Fine-tune barato: treina só pequenas matrizes 'low-rank' em vez dos pesos completos.
Constitutional AI (CAI)
Anthropic: substitua humanos pelo modelo + uma constituição escrita para gerar feedback.
DPO — Direct Preference Optimization
Alternativa a RLHF — pula o reward model, treina direto em pares de preferência. Mais simples, igual ou melhor.
Synthetic Data Generation
Use modelos fortes para gerar dados de treino para modelos novos. Risco: model collapse.