COMPUTE WARS · BOOTSTRAPPING

Magik LLM
Gathering

Forjando sua jornada…
Pular para o conteúdo
Data & Corporapre-dl-era2009dataset

ImageNet

Dataset de 14M imagens rotuladas em 20k categorias — combustível do Big Bang do deep learning.

O quê

ImageNet é o dataset de imagens rotuladas construído entre 2006 e 2009 sob liderança de Fei-Fei Li (então em Princeton, depois Stanford). Em sua forma plena: ~14 milhões de imagens, organizadas em ~22.000 categorias estruturadas segundo a hierarquia léxica do WordNet (Princeton, 1985+).

O subset famoso é ImageNet-1k, usado no ImageNet Large Scale Visual Recognition Challenge (ILSVRC) anual entre 2010 e 2017: ~1.28 milhão de imagens de treino, 50.000 de validação, 100.000 de teste, distribuídas em 1.000 classes (carros, raças de cachorro, fungos, instrumentos musicais, objetos do cotidiano).

ImageNet é o combustível do Big Bang do deep learning. AlexNet (2012) (2012) o usou; toda CNN moderna foi validada nele; o paradigma pretrain on ImageNet → fine-tune for your task dominou visão computacional por uma década.

Como funciona

A construção foi um ato de engenharia social em escala.

Estratégia de coleta — Fei-Fei Li e equipe (Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li) baixaram dezenas de milhões de imagens da web via search engines (Flickr, Google Images) usando substantivos do WordNet como queries. Resultado bruto: ~5 bilhões de candidatos [VERIFICAR — número exato].

Estratégia de rotulagem — humanos rotularem 14M imagens manualmente é inviável em equipe acadêmica pequena. A solução veio em 2008: Amazon Mechanical Turk. Trabalhadores eram pagos centavos para verificar, para cada imagem candidata, se ela realmente continha o objeto da classe. Cada imagem foi validada por múltiplos trabalhadores com voting majoritário. Custo total estimado: ~$1M durante 2.5 anos [VERIFICAR]. Estima-se que ~49.000 trabalhadores de 167 países contribuíram [VERIFICAR — relato de Fei-Fei Li].

Estrutura WordNet — cada classe é um synset (synonym set) — um conceito léxico distinto. “Husky siberiano” e “labrador” são synsets distintos, ambos descendentes de “cão”, que desce de “mamífero”, que desce de “animal”. Essa hierarquia permite avaliações em níveis variados de granularidade.

ILSVRC (2010-2017) — challenge anual organizado por Russakovsky, Berg, Deng et al. Métrica primária: top-5 error (a previsão correta está entre as 5 melhores apostas do modelo?). Antes de 2012, o melhor era ~26% (técnicas tradicionais: SIFT + Fisher Vectors + SVM). AlexNet caiu para ~15.3% em 2012. ResNet (2015) atingiu ~3.6% — abaixo do erro humano estimado (~5.1%) [VERIFICAR — depende da metodologia da medição humana].

Por que importa

Dados venceram algoritmos. A tese central de Fei-Fei Li, articulada em palestras desde 2007, era que algoritmos sem dados em escala não chegariam a inteligência visual. A comunidade priorizava arquiteturas; ela priorizou o corpus. ImageNet provou a tese — sem ele, AlexNet seria impossível, porque uma CNN de 60M parâmetros precisa de >1M de exemplos para não overfittar.

Estabeleceu o paradigma de transfer learning. A descoberta de ~2014 (Yosinski, Donahue, Razavian) foi: redes treinadas em ImageNet aprendem features genéricas úteis para tarefas que não envolvem nenhuma das 1000 classes originais. “Pretrain on ImageNet, then fine-tune” virou receita padrão para diagnóstico médico por imagem, satélites, microscopia, fashion search — qualquer domínio com dados limitados.

Validou benchmarks como motor de progresso. O modelo ILSVRC — datasets compartilhados, métricas claras, leaderboards públicos, papers anuais — replicou-se em todo subcampo: GLUE/SuperGLUE (NLP), MS COCO (detecção), SQuAD (Q&A), MMLU (LLMs). Crítica recente (HELM, BIG-Bench-Hard) é que benchmarks saturam e medem features superficiais; mas a forma é herdeira direta de ImageNet.

Custos éticos e laborais. Coleta de imagens da web sem consentimento; rotulagem em microtrabalho mal-remunerado; classes problemáticas (categorias raciais e de pessoas removidas em 2019 após auditoria de Crawford & Paglen, Excavating AI); reconhecimento facial entrenado sobre o dataset usado em vigilância. Esses debates abriram o campo da ética de datasets.

Estado em 2026

  • ImageNet ainda é usado para baselines acadêmicos e ablation studies, mas saturou como challenge desde ~2017.
  • Datasets sucessores em vídeo (Kinetics, Ego4D), multimodal (LAION-5B, COYO, DataComp) e 3D (Objaverse, OmniObject3D) ocupam posições análogas em seus domínios.
  • LAION-5B (2022, open) — 5.85 bilhões de pares imagem-texto, base de Stable Diffusion. Sujeito a controvérsias éticas/legais maiores que ImageNet (imagens com direitos autorais, CSAM detectado e removido em 2023).
  • Fei-Fei Li lançou em 2024 World Labs, startup focada em modelos de mundo 3D — extensão natural de “construir o atlas” da visão.
  • ImageNet RoBeRTa-like moment ainda não aconteceu em vídeo: nenhum dataset de vídeo atingiu a posição canônica que ImageNet tem em imagem estática.
  • Em Magik LLM Gathering, ImageNet é o Dataset Lendário arquetípico — o recurso fundacional sem o qual modelos de uma era inteira não existem.

Tratamento de carta — proposta

ImageNet, The Great Atlas Dataset Lendário · Citadel · custo

Persistente. Permanece em jogo até ser destruído.

Atlas Effect: Modelos com keyword “Vision” que você joga custam 2 ⚡ a menos (mín. 1).

ILSVRC: Uma vez por turno, quando um Modelo seu com “Vision” entra em jogo, ganhe 1 token de “Benchmark”. Acumule 5 tokens para invocar AlexNet ou ResNet gratuitamente do seu deck.

“They said scale wouldn’t matter. They were measuring the wrong thing.”

A mecânica codifica o efeito histórico de ImageNet: redução de custo para modelos de visão (porque transfer learning baseado nele economiza dados de treino), e a metáfora do benchmark cumulativo que invoca os modelos canônicos quando o atlas é exercido em escala.

Veja também

AlexNet (2012) · Fei-Fei Li · ResNet · Karen Spärck Jones · Transfer Learning

FONTES
  • Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., Fei-Fei, L. (2009). ImageNet: A large-scale hierarchical image database. CVPR 2009.
  • Russakovsky, O. et al. (2015). ImageNet Large Scale Visual Recognition Challenge. IJCV, 115(3).
  • Li, Fei-Fei (2023). The Worlds I See: Curiosity, Exploration, and Discovery at the Dawn of AI. Flatiron Books.
  • Krizhevsky, A., Sutskever, I., Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. NeurIPS.