AlexNet (2012)
Rede convolucional que venceu ImageNet 2012 — momento Big Bang do deep learning moderno.
O quê
AlexNet é a rede neural convolucional treinada por Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton na University of Toronto que venceu o ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012 com margem dominante. Reduziu o erro top-5 de classificação de imagens de ~26.2% (segundo lugar, abordagem tradicional baseada em SIFT + Fisher Vectors + SVM) para ~15.3% — um salto que a comunidade de visão computacional considerou impensável dias antes.
Esse resultado, publicado em NeurIPS 2012 (na época ainda chamada NIPS) sob o título ImageNet Classification with Deep Convolutional Neural Networks, é o Big Bang do deep learning moderno. Antes de AlexNet, deep learning era nicho acadêmico defendido por Hinton, LeCun e Bengio contra ceticismo majoritário. Depois, em ~18 meses, toda a indústria havia pivotado.
Como funciona
A arquitetura é descendente direta de LeNet (1989) de LeCun, mas inflada para escala de 2012:
- 8 camadas treinadas — 5 convolucionais + 3 totalmente conectadas.
- ~60 milhões de parâmetros (vs. ~60 mil em LeNet-5).
- Input — imagens RGB 224×224 (downsamples de ImageNet).
- Output — softmax sobre 1000 classes de ImageNet.
Quatro inovações de engenharia que importavam:
- ReLU em vez de tanh/sigmoid —
f(x) = max(0, x). Treinava ~6× mais rápido sem saturar gradientes. Não foi a primeira aparição de ReLU [VERIFICAR — Nair & Hinton 2010, Glorot et al. 2011], mas foi sua canonização. - Dropout (Hinton et al., 2012) — durante treino, “desligar” aleatoriamente 50% dos neurônios nas camadas totalmente conectadas. Regularização robusta contra overfitting num modelo com 60M de parâmetros e 1.2M de imagens.
- Data augmentation agressivo — crops aleatórios, flips horizontais, jittering de cor via PCA. Multiplicou o dataset efetivo por ordens de grandeza.
- Treinamento em GPU dual — duas NVIDIA GTX 580 (3 GB de VRAM cada). O modelo não cabia em uma GPU; foi paralelizado entre as duas com comunicação restrita a certas camadas. Treinou por ~5–6 dias [VERIFICAR — fontes citam entre 5 e 6 dias].
Esse último ponto é decisivo. CUDA (NVIDIA, 2007) já existia há cinco anos, mas a comunidade de ML ainda usava CPUs. Krizhevsky escreveu pessoalmente o código CUDA (depois open-sourced como cuda-convnet) que tornou treinar uma CNN profunda viável em hardware de consumidor. Esse insight — “GPU é a plataforma de deep learning” — é, em retrospecto, a alavanca que NVIDIA capitalizou nos quinze anos seguintes.
Por que importa
Mudou a tese central da IA. Por décadas, a aposta dominante era que engenharia cuidadosa de features (SIFT, HOG, SURF + classificador raso) seria sempre necessária. AlexNet provou que features aprendidas end-to-end por uma rede profunda batem features manuais — desde que você tenha dados e compute suficientes. A lição (“data + compute + scale wins”) tornou-se canônica.
Disparou a corrida de arquiteturas. Entre 2012 e 2017, a comunidade ImageNet produziu uma cascata: VGG (2014, mais profundo), GoogLeNet/Inception (2014, módulos paralelos), ResNet (2015, conexões residuais, primeira rede a passar performance humana em ImageNet com 152 camadas), DenseNet (2017), EfficientNet (2019, scaling principled). Cada uma valia paper de capa e prêmio.
Catalisou a aquisição corporativa de pesquisa. Em 2013, Google adquiriu DNNresearch — empresa de três pessoas (Hinton, Krizhevsky, Sutskever) — num leilão competitivo contra Baidu, Microsoft e DeepMind, por valor reportado de ~$44 milhões [VERIFICAR]. Inaugurou a fase em que big tech compra labs inteiros e PhDs custam $1M+/ano.
Linha direta para LLMs. Ilya Sutskever, co-autor de AlexNet, virou cientista-chefe da OpenAI em 2015. Levou consigo a tese fundamental — escala funciona — que viraria o scaling hypothesis dos anos 2017-2024 e produziria GPT-2, GPT-3, GPT-4. Sem AlexNet, sem confiança em escala. Sem confiança em escala, sem GPT.
Estado em 2026
- Historicamente fundamental, tecnicamente obsoleto. Ninguém treina AlexNet em produção. CNNs modernas (ResNet, EfficientNet, ConvNeXt) e Vision Transformers (ViT, 2020) o superaram em todas as métricas.
- ImageNet challenge encerrou em 2017 — saturação. Top-5 error caiu abaixo de 3% (ResNeXt, EfficientNet); o sinal virou ruído.
- Vision Transformers (ViT) desde 2020 disputam liderança em visão. Atualmente arquiteturas híbridas (ConvNeXt v2, MaxViT) lideram benchmarks em 2024-2026.
- Krizhevsky saiu de pesquisa pública em ~2017 [VERIFICAR data]. Sutskever lidera Safe Superintelligence Inc. (fundada 2024) após sair da OpenAI. Hinton ganhou Nobel de Física 2024.
- Em Magik LLM Gathering, AlexNet é o momento canônico que separa eras — anterior (classical ML) e posterior (deep learning).
Tratamento de carta — proposta
AlexNet, The Watershed Modelo Lendário · Citadel/Helios · custo 🟪🟪🟨
5/4. Keywords: Vision, Deep.
Watershed: Quando este Modelo entra em jogo, todos os outros Modelos seus com keyword “Vision” ganham +2/+2 permanente.
GPU-Bound: Custa 2 ⚡ a menos se você controla uma Hardware com tipo “GPU”.
“It just worked. We didn’t believe it ourselves.”
A mecânica encena o efeito histórico: AlexNet revalorizou retroativamente todo o trabalho prévio em CNNs (boost a Vision já em jogo) e tinha custo proibitivo sem GPU (reduction condicional). A keyword Deep sinaliza pertencimento a uma família arquitetural que se beneficia de outros boosts de profundidade.
Veja também
ImageNet · Geoffrey Hinton · Yann LeCun · Ilya Sutskever · LeNet (1989) · ResNet · Backpropagation
- Krizhevsky, A., Sutskever, I., Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. NeurIPS 2012.
- Russakovsky, O. et al. (2015). ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision.
- Krizhevsky, A. (2014). One weird trick for parallelizing convolutional neural networks. arXiv:1404.5997.
- Sutskever, I. (2023). An Observation on Generalization. (Palestra Simons Institute).