AlexNet y la revolución del deep learning
En octubre de 2012, en el concurso anual de reconocimiento visual ImageNet Large Scale Visual Recognition Challenge (ILSVRC), un equipo de la Universidad de Toronto presentó AlexNet, una red neuronal convolucional profunda de 8 capas. Su tasa de error fue del 15,3%, aplastando al segundo clasificado (26,2%) por un margen sin precedentes.
El deep learning, una idea que llevaba décadas siendo considerada un callejón sin salida, acababa de demostrar que funcionaba.
Los tres pilares
AlexNet no introdujo una idea nueva. Combinó tres elementos que finalmente habían madurado juntos:
- Datos: ImageNet contenía 1,2 millones de imágenes etiquetadas en 1.000 categorías, compiladas por Fei-Fei Li y su equipo en Stanford
- Computación: el entrenamiento se realizó en GPUs (tarjetas gráficas NVIDIA GTX 580), que resultaron ser ideales para las operaciones matriciales masivas de las redes neuronales
- Algoritmos: la retropropagación (backpropagation) se conocía desde 1986, pero las técnicas de regularización como dropout y las funciones de activación como ReLU hicieron viable entrenar redes profundas
Los autores
- Alex Krizhevsky — diseñó la arquitectura y escribió el código CUDA para GPUs
- Ilya Sutskever — coautor, más tarde cofundador y científico jefe de OpenAI
- Geoffrey Hinton — supervisor, considerado uno de los “padrinos del deep learning” junto a Yann LeCun y Yoshua Bengio
Hinton llevaba tres décadas defendiendo las redes neuronales cuando la mayoría de la comunidad de IA las había abandonado en favor de los métodos estadísticos clásicos. AlexNet le dio la razón.
El antes y el después
Antes de 2012, la visión por computador se basaba en features diseñadas a mano: los investigadores humanos decidían qué características (bordes, texturas, histogramas de color) debía buscar el algoritmo.
Después de AlexNet, las redes aprendían sus propias features directamente de los datos. Las capas inferiores detectaban bordes, las intermedias texturas y formas, y las superiores conceptos complejos como “cara” o “perro”.
La cascada
AlexNet desencadenó una revolución que transformó campo tras campo:
- 2014 — Google entrena GoogLeNet (error del 6,7%, superando al humano)
- 2014 — Redes generativas adversariales (GANs) de Ian Goodfellow
- 2015 — ResNet de Microsoft (152 capas, error del 3,6%)
- 2017 — El paper “Attention Is All You Need” introduce el Transformer, la arquitectura detrás de GPT, BERT y todos los grandes modelos de lenguaje actuales
Todo empezó con una red neuronal de 8 capas, dos GPUs de gaming y un concurso de clasificación de imágenes.