Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances à la hauteur des modèles de pointe pour un coût en jetons nettement inférieur

L’actualité du jour apporte un éclairage intéressant sur l’évolution du domaine.

Xiaomi lance MiMo-V2.5-Pro et MiMo-V2.5 : des performances à la hauteur des modèles de pointe pour un coût en jetons nettement inférieur

L’équipe Xiaomi MiMo a officiellement dévoilé deux nouveaux modèles : MiMo-V2.5-Pro et MiMo-V2.5. Les performances des tests de performance, associés à des démonstrations concrètes particulièrement impressionnantes, démontrent de manière convaincante que l’IA agentique ouverte rattrape son retard sur les technologies de pointe plus en peu de temps que prévu. Les deux modèles sont disponibles dès maintenant via une API, à un prix compétitif.

La plupart des tests de performance pour les modèles de langage (LLM) évaluent la capacité d’un modèle à répondre à une question unique et autonome. Les tests de performance « agentic » évaluent quelque chose de bien plus complexe : la capacité d’un modèle à mener à bien un objectif en plusieurs étapes de manière autonome, en utilisant divers outils (recherche sur le Web, exécution de code, E/S de fichiers, appels d’API) sur plusieurs tours, sans perdre de vue l’objectif initial.

En complément, imaginez la différence entre un modèle capable de répondre à la question « comment écrire un analyseur lexical ? » et un autre capable d’écrire un compilateur complet, d’y effectuer des tests, de détecter les régressions et de les corriger — le tout sans intervention humaine. C’est précisément ce que l’équipe Xiaomi MiMo démontre ici.

Précisons, le MiMo-V2.5-Pro est le modèle le plus performant de Xiaomi à ce jour ; il apporte des améliorations significatives par rapport à son prédécesseur, le MiMo-V2-Pro, en termes de capacités agentiques générales, d’ingénierie logicielle complexe et de tâches à long terme.

De plus, les principaux performances de référence sont comparables à ceux des meilleurs modèles à code source fermé : SWE-bench Pro 57,2, Claw-Eval 63,8 et τ3-Bench 72,9 — ce qui le place au même niveau que Claude Opus 4,6 et GPT-5,4 dans la plupart des évaluations. La version 2.5-Pro est capable de gérer des tâches complexes à long terme impliquant plus d’un millier d’appels d’outils, faisant preuve d’améliorations notables dans l’exécution des instructions dans des scénarios impliquant des agents, en respectant de manière fiable les exigences subtiles inhérentes au contexte et en conservant une forte cohérence dans des contextes extrêmement longs.

De plus, une caractéristique comportementale qui distingue le V2.5-Pro des modèles précédents est ce que l’équipe Xiaomi MiMo appelle la « conscience du harnais » : il exploite pleinement les possibilités offertes par son environnement de harnais, gère sa mémoire et façonne la manière dont son propre contexte est construit en vue de l’objectif final. Cela signifie que le modèle ne se contente pas d’exécuter des instructions de manière mécanique. Il optimise activement son propre environnement de travail afin de rester concentré tout au long de tâches très longues.

Point notable, les trois démonstrations de tâches concrètes publiées par Xiaomi illustrent parfaitement ce que signifie, dans la pratique, la « capacité d’action à long terme ».

Le chapitre n’est pas clos, loin de là.

Sur le même sujet :

Le laboratoire de recherche en IA NeoCognition lève 40 millions de dollars en financement d’amorçage pour développer des agents capables d’apprendre comme les humains | TechCrunch

Article original : MarkTechPost : MarkTechPost