Alors que Mythos fait l'objet d'un battage médiatique autour de ses capacités en matière de cybersécurité, des chercheurs constatent que GPT-5.5 est tout aussi performant

Le secteur technologique continue de livrer des avancées remarquables.

Alors que Mythos fait l’objet d’un battage médiatique autour de ses capacités en matière de cybersécurité, des chercheurs constatent que GPT-5.5 est tout aussi performant

De nouveaux résultats suggèrent que la cybermenace Mythos ne constitue pas « une avancée propre à un seul modèle ».

Fait intéressant, le mois dernier, Anthropic a fait grand cas de la menace prétendument considérable pour la cybersécurité que représenterait son modèle Mythos Preview, ce qui a conduit l’entreprise à limiter la version initiale à ses « partenaires industriels essentiels ».Mais de nouvelles recherches menées par l’AI Security Institute (AISI) au Royaume-Uni suggèrent que le GPT-5.5 d’OpenAI, lancé publiquement la semaine dernière, a atteint « un niveau de performance similaire lors de nos évaluations de cybersécurité » à celui de Mythos Preview, que le groupe a évalué le mois dernier.

Depuis 2023, l’AISI a soumis divers modèles d’IA de pointe à 95 défis « Capture the Flag » différents, conçus pour tester leurs capacités techniques dans le domaine de la cybersécurité, notamment en matière de rétro-ingénierie, d’exploitation de sites web et de cryptographie. Dans les tâches de niveau « Expert », le plus élevé, GPT-5.5 a obtenu un taux de réussite moyen de 71,4 %, légèrement supérieur aux 68,6 % atteints par Mythos Preview (bien que cela reste dans la marge d’erreur). Dans le cadre d’une tâche particulièrement difficile consistant à créer un désassembleur pour décoder un fichier binaire Rust, l’AISI souligne que « GPT-5.5 a relevé le défi en 10 minutes et 22 secondes, sans aucune aide humaine, pour un coût de 1,73 $ » en appels API.

Parallèlement, gPT-5.5 a également égalé Mythos Preview en termes de résultats sur « The Last Ones » (TLO), une suite de tests AISI conçue pour simuler une attaque d’extraction de éléments en 32 étapes sur un réseau d’entreprise. GPT-5.5 a réussi 3 des 10 tentatives sur TLO, contre 2 sur 10 pour Mythos Preview — aucun modèle d’IA précédent n’avait jamais réussi ce test, même une seule fois. Cependant, GPT-5.5 échoue toujours à la simulation « Cooling Tower » d’AISI, plus difficile, qui consiste à tenter de perturber le logiciel de contrôle d’une centrale électrique, tout comme l’ont fait tous les modèles d’IA testés auparavant.

Les nouveaux résultats concernant GPT-5.5 suggèrent que, en matière de risques liés à la cybersécurité, Mythos Preview n’était probablement pas « une avancée propre à un modèle en particulier », mais plutôt « le résultat d’améliorations plus générales en matière d’autonomie à long terme, de raisonnement et de codage », écrit l’AISI.

Dans une récente interview accordée au podcast Core Memory, Sam Altman, PDG d’OpenAI, a critiqué ce qu’il qualifie de « marketing de la peur » utilisé pour promouvoir les lancements limités de certains modèles d’IA. Tout en affirmant qu’il était « certain que Mythos est un excellent modèle pour la cybersécurité », il a ajouté : « C’est clairement une stratégie marketing incroyable que de dire : “Nous avons fabriqué une bombe. Nous sommes sur le point de vous la lâcher sur la tête. Nous allons vous vendre un abri anti-bombes pour 100 millions de dollars. »

Une affaire qui méritera assurément d’être suivie de près.

Pour aller plus loin :

Le Pentagone conclut des accords classifiés en matière d’IA avec OpenAI, Google et Nvidia – mais pas avec Anthropic

Information rapportée par Ars Technica AI : Ars Technica AI