TRILHA · COMPUTE WARS

Training Stack

Como modelos aprendem: pre-training, SFT, RLHF, DPO, distillation, PEFT

12 conceitos 1847 → 2023 linha do tempo 12 com long-form

concept ◇ LONG-FORM

Gradient Descent

Algoritmo de otimização que segue o gradiente negativo da loss — motor de todo aprendizado profundo.

Abrir conceito

concept ◇ LONG-FORM

Cross-Entropy (loss)

Função de perda padrão para classificação — mede a distância entre distribuição prevista e distribuição alvo.

Abrir conceito

concept ◇ LONG-FORM

Transfer Learning

Treinar em uma tarefa e reusar os pesos para outra — base do paradigma pretrain → fine-tune.

Abrir conceito

technique ◇ LONG-FORM

Knowledge Distillation

Modelo grande ('teacher') ensina modelo pequeno ('student') a imitá-lo. Útil para edge inference.

Abrir conceito

technique ◇ LONG-FORM

RLHF — Reinforcement Learning from Human Feedback

Humanos ranqueiam respostas; modelo aprende a maximizar essa preferência via RL.

Abrir conceito

concept ◇ LONG-FORM

Masked Language Modeling (MLM)

Objetivo de pré-treino em que 15% dos tokens são mascarados e o modelo aprende a prevê-los — coração do BERT.

Abrir conceito

technique ◇ LONG-FORM

Pre-training

Fase 1 do treino: modelo aprende a prever próximo token em terabytes de texto bruto.

Abrir conceito

technique ◇ LONG-FORM

LoRA / QLoRA

Fine-tune barato: treina só pequenas matrizes 'low-rank' em vez dos pesos completos.

Abrir conceito

technique ◇ LONG-FORM

Supervised Fine-Tuning (SFT)

Fase 2: ajustar pesos com pares (instrução, resposta humana ideal). Torna o modelo 'obediente'.

Abrir conceito

technique ◇ LONG-FORM

Constitutional AI (CAI)

Anthropic: substitua humanos pelo modelo + uma constituição escrita para gerar feedback.

Abrir conceito

technique ◇ LONG-FORM

DPO — Direct Preference Optimization

Alternativa a RLHF — pula o reward model, treina direto em pares de preferência. Mais simples, igual ou melhor.

Abrir conceito

technique ◇ LONG-FORM

Synthetic Data Generation

Use modelos fortes para gerar dados de treino para modelos novos. Risco: model collapse.

Abrir conceito

Magik LLMGathering

Gradient Descent

Cross-Entropy (loss)

Transfer Learning

Knowledge Distillation

RLHF — Reinforcement Learning from Human Feedback

Masked Language Modeling (MLM)

Pre-training

LoRA / QLoRA

Supervised Fine-Tuning (SFT)

Constitutional AI (CAI)

DPO — Direct Preference Optimization

Synthetic Data Generation

Magik LLM
Gathering