Gradient Descent
Algoritmo de otimização que segue o gradiente negativo da loss — motor de todo aprendizado profundo.
RESUMO
Cauchy (1847) descreveu a ideia geral. Em ML, SGD (stochastic GD) processa mini-batches; Adam (Kingma & Ba, 2014) adiciona momentum adaptativo e virou o default de fato. Toda rede neural treina iterando: forward → loss → backprop → step.
Tags: optimization · training · sgd
VEJA TAMBÉM