Le contexte : le mur des RNN
Pour le traitement du langage naturel, l’architecture dominante entre 2014 et 2017 est le Recurrent Neural Network (RNN) et ses variantes (LSTM, GRU). Ces réseaux traitent le texte séquentiellement, mot par mot, en maintenant un état interne qui évolue.
Mais les RNN ont deux problèmes majeurs : (1) ils sont lents parce que séquentiels (impossible de paralléliser), (2) ils oublient les dépendances longues dans les phrases. Plus le contexte est loin, moins il influence la sortie.
Les chercheurs tentent d’ajouter des mécanismes d’attention aux RNN pour regarder simultanément plusieurs positions. Les résultats s’améliorent. Mais l’attention reste un ajout marginal à l’architecture RNN de base.
L’événement : 6 mois de travail, 1 article de 11 pages
En décembre 2016, chez Google Brain, Ashish Vaswani, Noam Shazeer et six collègues se posent une question : et si on supprimait complètement la récurrence et gardait seulement l’attention ?
L’idée est audacieuse. Les RNN sont la fondation du NLP depuis 30 ans. Remplacer cela par un mécanisme construit autour du self-attention — où chaque mot peut directement observer tous les autres — semble radical.
Le 12 juin 2017, l’équipe publie sur arXiv : Attention Is All You Need. Le titre est un clin d’œil ironique aux Beatles (All You Need is Love). 11 pages, 8 auteurs, une architecture : le Transformer.
Les résultats sont impressionnants. Sur la traduction anglais-allemand et anglais-français, le Transformer bat tous les RNN + attention, avec moins de calcul. Mais le vrai atout est ailleurs : le Transformer se parallélise. Sur GPU, il s’entraîne 10 fois plus vite qu’un LSTM équivalent.
« Nous proposons une nouvelle architecture simple, le Transformer, basée uniquement sur des mécanismes d’attention, se passant entièrement de récurrence et de convolutions. »
— Vaswani et al., 2017
L’impact : tout bascule en 18 mois
En 2018, Google publie BERT — un modèle Transformer pré-entraîné sur Wikipedia. BERT pulvérise tous les benchmarks NLP. La même année, OpenAI publie GPT-1, autre Transformer mais spécialisé pour la génération. En 2019, GPT-2 (1,5 milliard de paramètres) est jugé « trop dangereux pour être publié en entier » par OpenAI.
En 2020, GPT-3 (175 milliards de paramètres) démontre des capacités émergentes : raisonnement, programmation, conversation. En 2022, ChatGPT explose auprès du grand public. Toute cette lignée repose sur l’architecture de 2017.
L’article Attention Is All You Need est devenu le plus cité de l’histoire de l’IA : plus de 100 000 citations en 2024. Les 8 auteurs ont tous quitté Google pour créer leurs propres start-ups (Character.AI, Adept, Cohere, Inceptive) — ironiquement, Google n’a pas su retenir les inventeurs de sa poule aux œufs d’or.
Résonance 2026 : tout ce que nous construisons
En 2026, Claude Opus 4.7, GPT-5, Gemini Ultra, Llama 4, Mistral Large — tous sont des Transformers. L’architecture de 2017 a résisté à 9 ans d’essais de remplacement (Mamba, RWKV, etc.). Des variations existent (Mixture of Experts, Transformer-XL, FlashAttention) mais le cœur reste le self-attention de Vaswani et al.
L’extension aux autres modalités est impressionnante : Transformers pour la vision (ViT), l’audio (Whisper), la vidéo (Sora, Gen-2), la biologie (AlphaFold 2), le code (Codex, Claude Code). Une seule architecture règne sur l’IA moderne.
Chez CMEDIA, chaque produit IA que nous intégrons est un Transformer ou en dérive. Quand un client nous demande une intégration Claude, GPT ou Gemini, nous déployons littéralement la vision de 8 chercheurs de Google en 2017. Attention is all you need n’était pas juste un titre d’article : c’était le nouveau paradigme de l’intelligence artificielle.