Knowledge Distillation
Modelo grande ('teacher') ensina modelo pequeno ('student') a imitá-lo. Útil para edge inference.
RESUMO
Hinton, Vinyals, Dean (2015). Student aprende com 'soft labels' do teacher. Base de Phi-3, Gemini Flash, DeepSeek-Distill. Acelera dramaticamente inferência.
Tags: compression · teacher-student
VEJA TAMBÉM