AlexNet : le Big Bang du deep learning

En septembre 2012, trois chercheurs de Toronto écrasent la compétition ImageNet avec un réseau de neurones convolutif sur GPU. Cet après-midi-là, le deep learning prend le pouvoir.

Taux erreur: 15.3%·2 GPU NVIDIA GTX 580·ImageNet: 1.2 M images

Le contexte : ImageNet, le défi du siècle

En 2007, Fei-Fei Li, professeur à Stanford, lance un projet fou : constituer une base de 15 millions d’images annotées par 5 000 catégories. ImageNet met 3 ans à être construite — par des milliers de travailleurs Mechanical Turk qui étiquettent manuellement chaque image.

Depuis 2010, ImageNet organise chaque année un concours — ILSVRC (ImageNet Large Scale Visual Recognition Challenge) — où les équipes de recherche tentent de minimiser le taux d’erreur de classification sur 1,2 million d’images en 1 000 catégories.

En 2010 : erreur 28 %. En 2011 : 26 %. Les progrès sont lents, incrémentaux. Les meilleures méthodes combinent des extracteurs de caractéristiques faits main (SIFT, HOG) avec des SVM.

L’événement : 15,3 % d’erreur en une seule soumission

En septembre 2012, trois chercheurs de l’Université de Toronto — Alex Krizhevsky (étudiant), Ilya Sutskever (post-doc), Geoffrey Hinton (directeur) — soumettent leur modèle : AlexNet.

Il s’agit d’un CNN profond (8 couches) entraîné pendant une semaine sur deux cartes graphiques NVIDIA GTX 580. Les innovations techniques : fonction d’activation ReLU (plus rapide à apprendre que tanh), dropout (pour éviter le surapprentissage), augmentation de données, et parallélisation GPU.

Le résultat fait l’effet d’une bombe : 15,3 % d’erreur, soit 10,8 points de mieux que le deuxième (26,2 %). Un écart inédit. La communauté de la vision par ordinateur est sous le choc.

« AlexNet a rendu obsolètes en une soumission toutes les techniques que la communauté avait développées pendant 20 ans. »
— Andrej Karpathy, rétrospective 2017

L’impact : toute l’industrie pivote

Le résultat est présenté à la conférence NeurIPS 2012. En quelques mois, tous les labos majeurs (Google, Facebook, Microsoft) pivotent vers le deep learning. Hinton, Sutskever et Krizhevsky créent DNNResearch — rachetée par Google début 2013.

Les concours ImageNet suivants sont dominés par des CNN de plus en plus profonds : ZFNet (2013, 11 %), GoogLeNet et VGG (2014, 6,7 % et 7,3 %), ResNet (2015, 3,5 % — meilleur qu’un humain). En 2017, ImageNet est retiré des compétitions : le problème est considéré comme résolu.

Ilya Sutskever quitte Google pour cofonder OpenAI en 2015. Il devient l’un des architectes principaux de GPT-1, GPT-2, GPT-3, GPT-4 et ChatGPT. La ligne directe entre AlexNet 2012 et ChatGPT 2022 passe par son cerveau.

Résonance 2026 : sans AlexNet, rien de tout ça

AlexNet est souvent cité comme l’événement fondateur de l’IA moderne. C’est après lui que les investissements ont explosé, que les talents ont afflué, que les applications concrètes ont émergé. Tesla Autopilot, reconnaissance faciale iPhone, ChatGPT, DALL-E, AlphaFold — toutes ces technologies existent grâce à la méthodologie démontrée ce jour-là à NeurIPS 2012.

Techniquement, AlexNet a surtout prouvé trois choses : (1) la backpropagation de 1986 fonctionne à grande échelle, (2) les GPU sont l’outil de calcul idéal, (3) plus de couches + plus de données = meilleure performance. Ces trois lois sous-tendent 14 ans d’IA depuis.

Chez CMEDIA, chaque produit que nous construisons en 2026 repose directement sur cette chaîne d’événements. Un étudiant de Toronto, un post-doc russe et un vieux prof canadien ont changé l’histoire de la technologie en soumettant un CSV d’erreurs à une compétition académique.

← 2011 · IBM Watson Retour à la frise 2014 · GANs →