Deep Learning Eradl-era2012architecture

AlexNet (2012)

Rede convolucional que venceu ImageNet 2012 — momento Big Bang do deep learning moderno.

O quê

AlexNet é a rede neural convolucional treinada por Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton na University of Toronto que venceu o ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2012 com margem dominante. Reduziu o erro top-5 de classificação de imagens de ~26.2% (segundo lugar, abordagem tradicional baseada em SIFT + Fisher Vectors + SVM) para ~15.3% — um salto que a comunidade de visão computacional considerou impensável dias antes.

Esse resultado, publicado em NeurIPS 2012 (na época ainda chamada NIPS) sob o título ImageNet Classification with Deep Convolutional Neural Networks, é o Big Bang do deep learning moderno. Antes de AlexNet, deep learning era nicho acadêmico defendido por Hinton, LeCun e Bengio contra ceticismo majoritário. Depois, em ~18 meses, toda a indústria havia pivotado.

Como funciona

A arquitetura é descendente direta de LeNet (1989) de LeCun, mas inflada para escala de 2012:

8 camadas treinadas — 5 convolucionais + 3 totalmente conectadas.
~60 milhões de parâmetros (vs. ~60 mil em LeNet-5).
Input — imagens RGB 224×224 (downsamples de ImageNet).
Output — softmax sobre 1000 classes de ImageNet.

Quatro inovações de engenharia que importavam:

ReLU em vez de tanh/sigmoid — f(x) = max(0, x). Treinava ~6× mais rápido sem saturar gradientes. Não foi a primeira aparição de ReLU [VERIFICAR — Nair & Hinton 2010, Glorot et al. 2011], mas foi sua canonização.
Dropout (Hinton et al., 2012) — durante treino, “desligar” aleatoriamente 50% dos neurônios nas camadas totalmente conectadas. Regularização robusta contra overfitting num modelo com 60M de parâmetros e 1.2M de imagens.
Data augmentation agressivo — crops aleatórios, flips horizontais, jittering de cor via PCA. Multiplicou o dataset efetivo por ordens de grandeza.
Treinamento em GPU dual — duas NVIDIA GTX 580 (3 GB de VRAM cada). O modelo não cabia em uma GPU; foi paralelizado entre as duas com comunicação restrita a certas camadas. Treinou por ~5–6 dias [VERIFICAR — fontes citam entre 5 e 6 dias].

Esse último ponto é decisivo. CUDA (NVIDIA, 2007) já existia há cinco anos, mas a comunidade de ML ainda usava CPUs. Krizhevsky escreveu pessoalmente o código CUDA (depois open-sourced como cuda-convnet) que tornou treinar uma CNN profunda viável em hardware de consumidor. Esse insight — “GPU é a plataforma de deep learning” — é, em retrospecto, a alavanca que NVIDIA capitalizou nos quinze anos seguintes.

Por que importa

Mudou a tese central da IA. Por décadas, a aposta dominante era que engenharia cuidadosa de features (SIFT, HOG, SURF + classificador raso) seria sempre necessária. AlexNet provou que features aprendidas end-to-end por uma rede profunda batem features manuais — desde que você tenha dados e compute suficientes. A lição (“data + compute + scale wins”) tornou-se canônica.

Disparou a corrida de arquiteturas. Entre 2012 e 2017, a comunidade ImageNet produziu uma cascata: VGG (2014, mais profundo), GoogLeNet/Inception (2014, módulos paralelos), ResNet (2015, conexões residuais, primeira rede a passar performance humana em ImageNet com 152 camadas), DenseNet (2017), EfficientNet (2019, scaling principled). Cada uma valia paper de capa e prêmio.

Catalisou a aquisição corporativa de pesquisa. Em 2013, Google adquiriu DNNresearch — empresa de três pessoas (Hinton, Krizhevsky, Sutskever) — num leilão competitivo contra Baidu, Microsoft e DeepMind, por valor reportado de ~$44 milhões [VERIFICAR]. Inaugurou a fase em que big tech compra labs inteiros e PhDs custam $1M+/ano.

Linha direta para LLMs. Ilya Sutskever, co-autor de AlexNet, virou cientista-chefe da OpenAI em 2015. Levou consigo a tese fundamental — escala funciona — que viraria o scaling hypothesis dos anos 2017-2024 e produziria GPT-2, GPT-3, GPT-4. Sem AlexNet, sem confiança em escala. Sem confiança em escala, sem GPT.

Estado em 2026

Historicamente fundamental, tecnicamente obsoleto. Ninguém treina AlexNet em produção. CNNs modernas (ResNet, EfficientNet, ConvNeXt) e Vision Transformers (ViT, 2020) o superaram em todas as métricas.
ImageNet challenge encerrou em 2017 — saturação. Top-5 error caiu abaixo de 3% (ResNeXt, EfficientNet); o sinal virou ruído.
Vision Transformers (ViT) desde 2020 disputam liderança em visão. Atualmente arquiteturas híbridas (ConvNeXt v2, MaxViT) lideram benchmarks em 2024-2026.
Krizhevsky saiu de pesquisa pública em ~2017 [VERIFICAR data]. Sutskever lidera Safe Superintelligence Inc. (fundada 2024) após sair da OpenAI. Hinton ganhou Nobel de Física 2024.
Em Magik LLM Gathering, AlexNet é o momento canônico que separa eras — anterior (classical ML) e posterior (deep learning).

Tratamento de carta — proposta

AlexNet, The Watershed Modelo Lendário · Citadel/Helios · custo

5/4. Keywords: Vision, Deep.

Watershed: Quando este Modelo entra em jogo, todos os outros Modelos seus com keyword “Vision” ganham +2/+2 permanente.

GPU-Bound: Custa 2 ⚡ a menos se você controla uma Hardware com tipo “GPU”.

“It just worked. We didn’t believe it ourselves.”

A mecânica encena o efeito histórico: AlexNet revalorizou retroativamente todo o trabalho prévio em CNNs (boost a Vision já em jogo) e tinha custo proibitivo sem GPU (reduction condicional). A keyword Deep sinaliza pertencimento a uma família arquitetural que se beneficia de outros boosts de profundidade.

Veja também

ImageNet · Geoffrey Hinton · Yann LeCun · Ilya Sutskever · LeNet (1989) · ResNet · Backpropagation

Feito pela Magik LLM Gathering

Isto que você acabou de ler é o nosso trabalho.

A Magik LLM Gathering constrói produtos de IA de verdade — e escreve sobre eles em português, sem hype. Se quiser conversar sobre o seu, deixe seu contato.

FONTES

Krizhevsky, A., Sutskever, I., Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. NeurIPS 2012.
Russakovsky, O. et al. (2015). ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision.
Krizhevsky, A. (2014). One weird trick for parallelizing convolutional neural networks. arXiv:1404.5997.
Sutskever, I. (2023). An Observation on Generalization. (Palestra Simons Institute).