AlexNet y la revolución del deep learning

En octubre de 2012, en el concurso anual de reconocimiento visual ImageNet Large Scale Visual Recognition Challenge (ILSVRC), un equipo de la Universidad de Toronto presentó AlexNet, una red neuronal convolucional profunda de 8 capas. Su tasa de error fue del 15,3%, aplastando al segundo clasificado (26,2%) por un margen sin precedentes.

El deep learning, una idea que llevaba décadas siendo considerada un callejón sin salida, acababa de demostrar que funcionaba.

Los tres pilares

AlexNet no introdujo una idea nueva. Combinó tres elementos que finalmente habían madurado juntos:

Datos: ImageNet contenía 1,2 millones de imágenes etiquetadas en 1.000 categorías, compiladas por Fei-Fei Li y su equipo en Stanford
Computación: el entrenamiento se realizó en GPUs (tarjetas gráficas NVIDIA GTX 580), que resultaron ser ideales para las operaciones matriciales masivas de las redes neuronales
Algoritmos: la retropropagación (backpropagation) se conocía desde 1986, pero las técnicas de regularización como dropout y las funciones de activación como ReLU hicieron viable entrenar redes profundas

Los autores

Alex Krizhevsky — diseñó la arquitectura y escribió el código CUDA para GPUs
Ilya Sutskever — coautor, más tarde cofundador y científico jefe de OpenAI
Geoffrey Hinton — supervisor, considerado uno de los “padrinos del deep learning” junto a Yann LeCun y Yoshua Bengio

Hinton llevaba tres décadas defendiendo las redes neuronales cuando la mayoría de la comunidad de IA las había abandonado en favor de los métodos estadísticos clásicos. AlexNet le dio la razón.

El antes y el después

Antes de 2012, la visión por computador se basaba en features diseñadas a mano: los investigadores humanos decidían qué características (bordes, texturas, histogramas de color) debía buscar el algoritmo.

Después de AlexNet, las redes aprendían sus propias features directamente de los datos. Las capas inferiores detectaban bordes, las intermedias texturas y formas, y las superiores conceptos complejos como “cara” o “perro”.

La cascada

AlexNet desencadenó una revolución que transformó campo tras campo:

2014 — Google entrena GoogLeNet (error del 6,7%, superando al humano)
2014 — Redes generativas adversariales (GANs) de Ian Goodfellow
2015 — ResNet de Microsoft (152 capas, error del 3,6%)
2017 — El paper “Attention Is All You Need” introduce el Transformer, la arquitectura detrás de GPT, BERT y todos los grandes modelos de lenguaje actuales

Todo empezó con una red neuronal de 8 capas, dos GPUs de gaming y un concurso de clasificación de imágenes.