Backpropagation : l’algorithme qui ressuscite les réseaux neuronaux

En 1986, trois chercheurs publient un algorithme qui permet d’entraîner des réseaux neuronaux profonds. Oublié, redécouvert, popularisé — la backpropagation est le moteur de toute l’IA moderne.

Article dans Nature·Triplé Rumelhart/Hinton/Williams·Moteur de tout le deep learning

Le contexte : ressusciter le Perceptron

Depuis la critique dévastatrice de Minsky et Papert en 1969, les réseaux neuronaux sont considérés comme une voie sans issue. Le Perceptron simple ne peut pas apprendre XOR — et personne n’a trouvé comment entraîner des réseaux à plusieurs couches.

Le problème est mathématique : quand un réseau a plusieurs couches cachées, comment attribuer la responsabilité d’une erreur aux poids des couches intermédiaires ? C’est ce qu’on appelle le credit assignment problem.

L’algorithme a en fait été découvert plusieurs fois : par Paul Werbos en 1974 dans sa thèse, par Yann LeCun en 1985 dans ses travaux. Mais personne ne l’a popularisé.

L’événement : un article dans Nature

En octobre 1986, David Rumelhart (UCSD), Geoffrey Hinton (Carnegie Mellon) et Ronald Williams publient dans la prestigieuse revue Nature un article court et dense : Learning representations by back-propagating errors.

L’idée est élégante. On compare la sortie du réseau à la réponse attendue, on calcule l’erreur, et on la propage à rebours à travers les couches. À chaque étape, la règle de la chaîne (calcul différentiel) permet de savoir comment ajuster chaque poids pour réduire l’erreur. Répétez des millions de fois — et le réseau apprend.

« Nous décrivons une nouvelle procédure d’apprentissage […] qui ajuste les poids des connexions dans le réseau afin de minimiser une mesure de la différence entre le vecteur de sortie réel du réseau et le vecteur de sortie désiré. »
— Rumelhart, Hinton, Williams, 1986

L’impact : la deuxième vague connexionniste

L’article de Nature, combiné au livre Parallel Distributed Processing (Rumelhart & McClelland, 1986) réveille brutalement le champ des réseaux neuronaux. En quelques mois, des centaines de labos se lancent sur la backpropagation.

Les succès concrets arrivent vite. Yann LeCun applique la méthode à la reconnaissance de chiffres manuscrits. NETtalk de Sejnowski apprend à lire de l’anglais à voix haute. Les réseaux neuronaux redeviennent respectables.

Mais les limites techniques de l’époque (puissance de calcul insuffisante, pas assez de données d’entraînement) empêchent d’aller loin. À la fin des années 90, la backpropagation redevient marginale, éclipsée par les support vector machines de Vapnik. Geoffrey Hinton passe 20 ans à défendre une idée que personne n’écoute.

Résonance 2026 : chaque token de Claude est une backpropagation

Depuis 2012 (AlexNet), la backpropagation est l’algorithme de tout le deep learning. GPT-5, Claude Opus 4.7, Gemini, Llama — tous sont entraînés par backpropagation. L’algorithme n’a pas changé depuis 1986 : ce qui a changé, c’est l’échelle (milliards de paramètres), les données (trillions de tokens), et le matériel (GPU puis TPU).

Hinton a reçu le prix Turing 2018 et le prix Nobel de physique 2024 pour ses contributions. À 78 ans, en 2026, il est encore actif — mais devenu l’un des critiques les plus prudents de l’IA qu’il a contribué à créer.

Chez CMEDIA, chaque appel API à un LLM exploite cet algorithme. Chaque token généré par Claude est le résultat de trillions d’opérations de rétropropagation effectuées pendant l’entraînement. Un article de 8 pages dans Nature en 1986 a littéralement fabriqué l’IA de 2026.

← 1980 · Systèmes experts Retour à la frise 1989 · LeNet →