Le secteur technologique continue de livrer des avancées remarquables.
Alors que Mythos fait l’objet d’un battage médiatique autour de ses capacités en matière de cybersécurité, des chercheurs constatent que GPT-5.5 est tout aussi performant
De nouveaux résultats suggèrent que la cybermenace Mythos ne constitue pas « une avancée propre à un seul modèle ».
Fait intéressant, le mois dernier, Anthropic a fait grand cas de la menace prétendument considérable pour la cybersécurité que représenterait son modèle Mythos Preview, ce qui a conduit l’entreprise à limiter la version initiale à ses « partenaires industriels essentiels ».Mais de nouvelles recherches menées par l’AI Security Institute (AISI) au Royaume-Uni suggèrent que le GPT-5.5 d’OpenAI, lancé publiquement la semaine dernière, a atteint « un niveau de performance similaire lors de nos évaluations de cybersécurité » à celui de Mythos Preview, que le groupe a évalué le mois dernier.
Depuis 2023, l’AISI a soumis divers modèles d’IA de pointe à 95 défis « Capture the Flag » différents, conçus pour tester leurs capacités techniques dans le domaine de la cybersécurité, notamment en matière de rétro-ingénierie, d’exploitation de sites web et de cryptographie. Dans les tâches de niveau « Expert », le plus élevé, GPT-5.5 a obtenu un taux de réussite moyen de 71,4 %, légèrement supérieur aux 68,6 % atteints par Mythos Preview (bien que cela reste dans la marge d’erreur). Dans le cadre d’une tâche particulièrement difficile consistant à créer un désassembleur pour décoder un fichier binaire Rust, l’AISI souligne que « GPT-5.5 a relevé le défi en 10 minutes et 22 secondes, sans aucune aide humaine, pour un coût de 1,73 $ » en appels API.
Parallèlement, gPT-5.5 a également égalé Mythos Preview en termes de résultats sur « The Last Ones » (TLO), une suite de tests AISI conçue pour simuler une attaque d’extraction de éléments en 32 étapes sur un réseau d’entreprise. GPT-5.5 a réussi 3 des 10 tentatives sur TLO, contre 2 sur 10 pour Mythos Preview — aucun modèle d’IA précédent n’avait jamais réussi ce test, même une seule fois. Cependant, GPT-5.5 échoue toujours à la simulation « Cooling Tower » d’AISI, plus difficile, qui consiste à tenter de perturber le logiciel de contrôle d’une centrale électrique, tout comme l’ont fait tous les modèles d’IA testés auparavant.
Les nouveaux résultats concernant GPT-5.5 suggèrent que, en matière de risques liés à la cybersécurité, Mythos Preview n’était probablement pas « une avancée propre à un modèle en particulier », mais plutôt « le résultat d’améliorations plus générales en matière d’autonomie à long terme, de raisonnement et de codage », écrit l’AISI.
Dans une récente interview accordée au podcast Core Memory, Sam Altman, PDG d’OpenAI, a critiqué ce qu’il qualifie de « marketing de la peur » utilisé pour promouvoir les lancements limités de certains modèles d’IA. Tout en affirmant qu’il était « certain que Mythos est un excellent modèle pour la cybersécurité », il a ajouté : « C’est clairement une stratégie marketing incroyable que de dire : “Nous avons fabriqué une bombe. Nous sommes sur le point de vous la lâcher sur la tête. Nous allons vous vendre un abri anti-bombes pour 100 millions de dollars. »
Une affaire qui méritera assurément d’être suivie de près.
Pour aller plus loin :
Information rapportée par Ars Technica AI : Ars Technica AI