COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Training Stack dl-era 2015 technique

Knowledge Distillation

Modelo grande ('teacher') ensina modelo pequeno ('student') a imitá-lo. Útil para edge inference.

RESUMO

Hinton, Vinyals, Dean (2015). Student aprende com 'soft labels' do teacher. Base de Phi-3, Gemini Flash, DeepSeek-Distill. Acelera dramaticamente inferência.

Tags: compression · teacher-student

VEJA TAMBÉM