COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Training Stack llm-era 2021 technique

Supervised Fine-Tuning (SFT)

Fase 2: ajustar pesos com pares (instrução, resposta humana ideal). Torna o modelo 'obediente'.

RESUMO

Sem SFT, GPT-3 'completaria' sua pergunta com mais perguntas em vez de responder. SFT é o que transformou modelos brutos em assistentes desde InstructGPT (2022).

Tags: alignment · instruction-tuning

VEJA TAMBÉM