Supervised Fine-Tuning (SFT)
Fase 2: ajustar pesos com pares (instrução, resposta humana ideal). Torna o modelo 'obediente'.
RESUMO
Sem SFT, GPT-3 'completaria' sua pergunta com mais perguntas em vez de responder. SFT é o que transformou modelos brutos em assistentes desde InstructGPT (2022).
Tags: alignment · instruction-tuning
VEJA TAMBÉM