Le contexte : le dernier sanctuaire
Après la chute des échecs en 1997, une frontière résistait encore à l’IA : le Go. Ce jeu chinois vieux de 2 500 ans, avec son plateau 19×19, ses règles simples et sa profondeur stratégique infinie, était considéré comme le dernier bastion de l’intelligence humaine.
Pourquoi ? Le nombre de positions possibles au Go (10170) dépasse de loin celui des échecs (1045). La force brute est impossible. Les programmes des années 2000 jouaient à peine au niveau d’un amateur moyen. Les experts prédisaient qu’un ordinateur ne battrait pas un professionnel avant 2025.
L’événement : Séoul, 9 mars 2016
DeepMind, start-up londonienne rachetée par Google en 2014, développe AlphaGo. L’architecture est géniale : deux réseaux neuronaux (un policy network qui propose les coups, un value network qui évalue les positions) combinés avec un Monte Carlo Tree Search. L’entraînement mêle apprentissage supervisé sur des parties humaines + apprentissage par renforcement contre lui-même.
En octobre 2015, AlphaGo bat le champion d’Europe Fan Hui 5-0 — première fois qu’un programme bat un professionnel. Mais le vrai test arrive en mars 2016 : match en 5 parties contre Lee Sedol, Coréen de 33 ans, considéré comme l’un des plus grands joueurs de tous les temps.
Le match est suivi par 200 millions de téléspectateurs en Asie. Partie 1 : AlphaGo gagne. Partie 2 : le fameux coup 37 — un coup si étrange qu’aucun humain n’y aurait pensé, mais qui s’avère brillant. Les commentateurs professionnels, d’abord convaincus d’une erreur, réalisent peu à peu son génie. AlphaGo gagne. Parties 3 : AlphaGo gagne.
Partie 4 : Lee Sedol joue le coup 78 — un coup désespéré, brillant. AlphaGo perd. Le joueur humain sauve l’honneur de l’espèce. Partie 5 : AlphaGo gagne. Score final : 4-1.
« J’ai perdu sans aucun doute. Ce n’est pas une défaite de Lee Sedol. C’est une défaite de l’humanité. »
— Lee Sedol, après le match
L’impact : un séisme culturel en Asie
L’événement bouleverse l’Asie. Le Go est culturellement fondamental en Chine, Corée et Japon. Voir un ordinateur le maîtriser crée un choc comparable au Spoutnik aux États-Unis en 1957. En Chine, le président Xi Jinping lance peu après un plan national IA à 150 milliards de dollars.
Un an plus tard, AlphaGo Zero bat AlphaGo 100-0 — en ayant appris uniquement en jouant contre lui-même, sans aucune partie humaine. Le résultat est encore plus impressionnant : l’IA apprend sans nous.
DeepMind applique ensuite ses techniques à des problèmes autrement plus importants que les jeux : AlphaFold (2020) résout le pliage des protéines — un problème ouvert depuis 50 ans qui bloquait la biologie moléculaire. Le succès est tel qu’Isabel Campos Pignatelli de DeepMind et John Jumper recevront le prix Nobel de chimie 2024.
Lee Sedol prend sa retraite professionnelle en 2019, à 36 ans. Sa raison : « Même si je devenais le numéro un, il y a une entité qui ne peut pas être battue. »
Résonance 2026 : le RL qui mène aux agents
Le reinforcement learning qui a fait AlphaGo est devenu central en 2026. C’est le même RL qui aligne ChatGPT et Claude via RLHF. C’est le même RL qui fait apprendre les agents autonomes à naviguer sur le web, à écrire du code, à résoudre des problèmes multi-étapes.
La leçon d’AlphaGo dépasse le Go : un système qui combine représentation apprise + simulation + apprentissage par renforcement peut résoudre des problèmes considérés comme hors de portée. Cette recette s’applique en 2026 aux agents Claude, au trading algorithmique, au drug discovery, à la robotique.
Chez CMEDIA, quand nous déployons un agent autonome qui accomplit une tâche complexe pour un client — réservation, recherche, synthèse, action — nous utilisons les descendants conceptuels d’AlphaGo. Un programme qui a battu un champion de Go en 2016 nous a appris comment construire les assistants personnels de 2026.