GPT-3 : quand la taille fait (presque) tout

En mai 2020, OpenAI publie un papier qui va changer la trajectoire de l’IA. Leur nouveau modèle, GPT-3, contient 175 milliards de paramètres — 100× plus que GPT-2. Et il démontre quelque chose d’inattendu : à cette échelle, le modèle apprend de nouvelles tâches sans entraînement supplémentaire, juste en lisant quelques exemples dans le prompt.

175 milliards de paramètres·45 To de données·4,6 millions $ d’entraînement

Le contexte : des modèles toujours plus grands

Depuis 2018, OpenAI mise tout sur une conviction simple : scaling hypothesis. Plus le modèle est grand, plus il apprend. GPT-1 (2018) : 117 millions de paramètres. GPT-2 (2019) : 1,5 milliard. La communauté pensait atteindre un plateau. OpenAI a parié l’inverse.

L’équipe de Sam Altman, Greg Brockman et Ilya Sutskever lève des centaines de millions de dollars auprès de Microsoft (1 milliard en 2019) pour louer du compute Azure. L’objectif : construire un modèle si grand qu’il deviendrait qualitativement différent, pas juste quantitativement meilleur.

L’événement : « Language Models are Few-Shot Learners »

Le papier publié le 28 mai 2020 — Language Models are Few-Shot Learners — documente des résultats stupéfiants. GPT-3 peut traduire, résumer, écrire du code, répondre à des questions de culture générale, générer de la poésie — sans être entraîné spécifiquement pour ces tâches. Il suffit de lui montrer 1 à 3 exemples dans le prompt.

Cette capacité, appelée in-context learning, transforme la relation au modèle. On ne programme plus l’IA : on la prompte. Les prompts deviennent le nouveau code. OpenAI lance en juin 2020 une API privée sur invitation. Les démos virales pleuvent : sites web générés à partir d’une description, notes de médecins, dialogues philosophiques.

Le coût d’entraînement estimé est astronomique : 4,6 millions de dollars rien qu’en compute (exploitation de 10 000 GPU V100 pendant des semaines). Le modèle pèse 700 Go en mémoire. Aucune université ne peut répliquer.

Nous avons découvert que les grands modèles de langage présentent des capacités émergentes. À une échelle suffisante, ils résolvent des tâches pour lesquelles ils n’ont jamais été entraînés.
— OpenAI, mai 2020

L’impact : l’ère du prompt engineering

GPT-3 change la structure économique de l’IA. Jusque-là, chaque tâche (traduction, résumé, classification) exigeait un modèle dédié entraîné sur un dataset spécifique. Désormais, un seul modèle fait tout, avec des performances acceptables. Des startups entières se construisent en wrapping l’API : Jasper, Copy.ai, Notion AI, GitHub Copilot (sorti en 2021).

Mais GPT-3 pose aussi des questions brutales : consommation énergétique massive, concentration du pouvoir dans 3-4 labs capables de payer ces entraînements, hallucinations difficiles à contrôler, et surtout — l’écart se creuse entre les acteurs propriétaires (OpenAI, Google, Anthropic) et la recherche académique.

Résonance 2026 : les fondations sont posées

Six ans plus tard, GPT-3 apparaît modeste à côté de GPT-5 et Claude Opus 4.7. Mais toute l’architecture de 2026 — raisonnement étendu, multimodalité, agents autonomes — repose sur les découvertes validées en 2020 : le scaling marche, les capacités émergent, le prompting remplace le fine-tuning.

Chez CMEDIA, chaque intégration LLM que nous déployons aujourd’hui — qu’il s’agisse d’un chatbot client, d’un générateur de contenu SEO ou d’un agent de triage email — exploite directement l’héritage de GPT-3. Le prompt engineering est devenu une compétence métier à part entière. Et ce n’est que le début.

← 2017 · Transformer Retour à la frise 2022 · ChatGPT →