GANs : Ian Goodfellow invente l’IA qui crée des images

Un soir de 2014 dans un bar de Montréal, Ian Goodfellow imagine deux réseaux neuronaux qui se battent. Cette idée, griffonnée en rentrant chez lui, va donner naissance aux deepfakes et à DALL-E.

Idée née dans un bar·1 nuit de code·Base des IA génératives

Le contexte : l’IA sait reconnaître, mais sait-elle créer ?

Deux ans après AlexNet (2012), le deep learning domine la reconnaissance d’images. Mais une question reste ouverte : une machine peut-elle générer des images réalistes, pas juste les classifier ?

Les tentatives existent mais déçoivent. Les auto-encodeurs produisent des images floues. Les Variational Auto-Encoders (VAE), inventés en 2013, font mieux mais restent limités. La génération d’images réalistes reste un défi ouvert.

L’événement : une idée de bar

Ian Goodfellow, 28 ans, étudiant en doctorat à l’Université de Montréal sous Yoshua Bengio, sort dans un bar avec des collègues en 2014. La conversation porte sur la génération d’images. Un ami explique une approche qui ne fonctionne pas.

Goodfellow rentre chez lui énervé. En pleine nuit, il a une idée folle : et si on faisait deux réseaux neuronaux qui s’affrontent comme dans un jeu ? L’un, le générateur, essaie de produire des images réalistes. L’autre, le discriminateur, essaie de distinguer les vraies des fausses. Les deux s’améliorent en s’affrontant, comme un faussaire et un détective dans un duel interminable.

Il code sa petite sa petite femme enceinte dormant à côté, et à 5h du matin il a un prototype qui fonctionne. Il baptise son idée Generative Adversarial Networks (GAN). Il soumet l’article à NeurIPS quelques semaines plus tard.

« Le framework GAN correspond à un jeu minimax à deux joueurs. »
— Ian Goodfellow et al., 2014

L’impact : l’explosion générative

L’article de 2014 est adopté immédiatement. Les GAN deviennent l’outil de référence pour la génération. En 2015, DCGAN permet de générer des visages réalistes. En 2017, Progressive GANs produisent des portraits indiscernables de vraies photos. En 2018, StyleGAN de NVIDIA franchit un cap esthétique — le site ThisPersonDoesNotExist.com devient viral.

Les applications se multiplient : transfert de style artistique, super-résolution d’images, conversion jour/nuit sur photos, génération de mode. Les GAN révolutionnent les effets spéciaux du cinéma.

Mais les deepfakes apparaissent aussi en 2017. Les visages d’acteurs sont remplacés dans des vidéos pornographiques. En 2018, le phénomène devient une préoccupation majeure pour la démocratie — que se passe-t-il si on peut fabriquer des vidéos fausses de n’importe quel politicien ?

Goodfellow, devenu entre-temps directeur de recherche chez Apple puis DeepMind, est nommé par MIT Technology Review parmi les 35 innovateurs de moins de 35 ans les plus influents.

Résonance 2026 : des GANs aux Diffusion Models

En 2026, les GANs ne sont plus le state of the art pour la génération d’images. Les modèles de diffusion (Stable Diffusion, DALL-E 3, Midjourney) les ont largement supplantés : plus stables à entraîner, meilleure qualité, meilleur contrôle.

Mais l’idée centrale de Goodfellow — mettre des réseaux en compétition pour apprendre — a essaimé partout. Le RLHF (Reinforcement Learning from Human Feedback), utilisé pour aligner ChatGPT, Claude et tous les LLM modernes, est une descendance conceptuelle directe des GAN : on fait duel entre le modèle et un évaluateur.

Chez CMEDIA, quand nous intégrons de la génération d’images dans un produit — mockups automatiques, visualisations de produits, contenus marketing — nous utilisons des descendants directs de l’idée née dans un bar de Montréal. Parfois, les grandes révolutions techniques commencent par une conversation énervée autour d’une bière.

← 2012 · AlexNet Retour à la frise 2016 · AlphaGo →