Sora, o1, Claude 3.5 : l’IA apprend à réfléchir et à filmer

2024 est l’année où l’IA franchit deux frontières qu’on croyait encore lointaines : la vidéo générative photoréaliste avec Sora, et le raisonnement étendu avec o1. En parallèle, Claude 3.5 Sonnet d’Anthropic devient le meilleur outil de programmation au monde.

Vidéo 60 secondes photoréaliste·Raisonnement multi-étapes·Usage ordinateur autonome

Le contexte : les limites perçues des LLM

Fin 2023, trois critiques reviennent sans cesse dans les débats sur l’IA. Un : les LLM ne savent pas raisonner, ils « devinent » le token suivant. Deux : la vidéo générée reste catastrophique (personnages qui morphent, physique cassée). Trois : les modèles ne peuvent pas agir, ils se contentent de produire du texte.

Chacun de ces trois verrous va sauter en 2024. Et ce n’est pas un hasard : les labs ont tous anticipé ces critiques et entraîné des modèles spécifiques pour chacune. L’année sera celle de la spécialisation après celle de la généralisation.

L’événement : trois ruptures en un an

Février 2024 — Sora. OpenAI publie des démos de vidéos générées : un mammouth laineux qui court dans la toundra, une femme qui marche dans Tokyo de nuit. 60 secondes. Photoréaliste. Physique correcte. Le choc est immédiat : les VFX, la publicité, le cinéma indépendant voient leur métier basculer en quelques mois.

Juin 2024 — Claude 3.5 Sonnet. Anthropic publie un modèle qui devient rapidement le gold standard pour le code. Les développeurs du monde entier adoptent Claude Code. GitHub Copilot perd sa première place. En octobre, Anthropic ajoute la fonction « Computer Use » : Claude peut prendre le contrôle de ton écran, cliquer, naviguer, remplir des formulaires.

Septembre 2024 — o1. OpenAI publie son premier modèle à « raisonnement étendu ». Face à une question complexe, o1 réfléchit visiblement pendant 10 à 60 secondes avant de répondre — il explore plusieurs chaînes de pensée internes. Résultat : performances qui passent au 89e percentile des Olympiades de mathématiques (vs 13e pour GPT-4o). L’IA « qui réfléchit » devient une catégorie en soi.

La question n’est plus de savoir si l’IA peut faire ce que fait un humain dans sa tête. C’est de savoir ce qu’elle fera quand elle aura aussi un clavier et une souris.
— Dario Amodei, octobre 2024

L’impact : l’IA devient actrice, pas juste calculatrice

Avec Computer Use et o1, un glissement profond s’opère. Jusqu’ici, l’IA produisait du contenu (texte, image, code). Désormais, elle agit dans les systèmes. Prendre un rendez-vous, remplir un CRM, faire des recherches web multi-étapes, debugger une app en live. Les premières vraies applications agentiques arrivent sur le marché.

Côté vidéo, Sora déstabilise Hollywood. Les grèves des acteurs et scénaristes de 2023 prennent une nouvelle coloration : l’IA ne menace plus seulement l’écriture de scripts, elle menace toute la chaîne de production. Runway, Pika, et Google Veo rejoignent OpenAI dans la course. La vidéo entièrement générée passe du gadget au produit en moins de 6 mois.

Résonance 2026 : les fondations de l’agentic

En 2026, les agents autonomes que CMEDIA déploie pour ses clients utilisent directement les patterns inventés en 2024. Le raisonnement « chain-of-thought » de o1 s’est généralisé. Computer Use est devenu une API standard chez tous les labs. Et Sora, désormais temps réel, est intégré dans les workflows de création publicitaire.

Chez CMEDIA, 2024 marque le moment où nous avons intégré Claude 3.5 Sonnet dans notre propre pipeline de développement. Ce que nous livrons aujourd’hui à nos clients — code plus rapide, tests automatisés, documentation générée — est le fruit direct de cette année. Sans 2024, pas de productivité augmentée en 2026.

← 2023 · GPT-4 · Claude Retour à la frise 2025 · Agentic AI →