COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Selando o pacto…
Pular para o conteúdo
Training Stack pre-ml 1847 concept

Gradient Descent

Algoritmo de otimização que segue o gradiente negativo da loss — motor de todo aprendizado profundo.

RESUMO

Cauchy (1847) descreveu a ideia geral. Em ML, SGD (stochastic GD) processa mini-batches; Adam (Kingma & Ba, 2014) adiciona momentum adaptativo e virou o default de fato. Toda rede neural treina iterando: forward → loss → backprop → step.

Tags: optimization · training · sgd

VEJA TAMBÉM