Un développement récent dans le monde de l’IA attire l’attention.
Anthropic estime que ces sujets sont trop risqués pour que son modèle Fable 5 puisse en parler
Le inédit modèle « Frontier » ne prend pas en charge les requêtes relatives à la cybersécurité, à la biologie et à la chimie.
Anthropic a rendu public mardi Claude Fable 5, son premier modèle de « classe Mythos » qui, selon l’entreprise, surpasse ses précédents modèles Opus en termes de performances techniques globales. Cependant le lancement du système aujourd’hui s’accompagne de mesures de sécurité destinées à l’empêcher de répondre à des questions portant sur des sujets tels que la cybersécurité, la biologie et la chimie, domaines dans lesquels l’entreprise a publiquement exprimé ses inquiétudes quant à l’impact que cela pourrait avoir en « donnant des moyens » à des acteurs malveillants.
Anthropic affirme que Fable 5 fonctionne selon le « même modèle sous-jacent » que Mythos 5, qui sort aujourd’hui de sa période de « Mythos Preview » qui a duré plusieurs mois, mais uniquement pour « un petit groupe de cyberdéfenseurs » jugés dignes de confiance dans le cadre du projet Glasswing existant. Contrairement à Mythos 5, pour autant, Fable 5, accessible au public, est conçu pour rediriger les requêtes portant sur certains sujets sensibles vers l’ancien modèle Claude Opus 4.8 et pour avertir l’utilisateur lorsque cela se produit.
Anthropic a déclaré avoir réglé ces mesures de sécurité pour qu’elles soient « plus strictes que nécessaire », ce qui signifie que le dispositif peut parfois refuser des « demandes inoffensives », tout en reconnaissant que cela peut être frustrant pour les utilisateurs réguliers. Mais selon Anthropic, ces faux positifs ne surviennent que dans moins de 5 % de toutes les sessions testées, et cela en valait la peine pour éviter que Mythos n’aide des acteurs malveillants à « causer des dommages graves qu’ils n’auraient pas pu infliger par d’autres moyens ».
Les mesures de sécurité thématiques de Fable 5 s’appuient sur un mécanisme de classificateurs conçu pour détecter de manière globale les sujets de prompts interdits ainsi que toute tentative potentielle de contournement des restrictions. Au cours de plus de 1 000 heures de tests menés par des équipes d’évaluation (red team) dans le cadre d’un programme de prime aux bogues, Anthropic affirme que les équipes externes n’ont pas réussi à trouver de méthode universelle permettant de contourner les restrictions de Fable 5. Selon Anthropic, ce tout nouveau modèle a également résisté aux tentatives de « jailbreak » automatisé bien mieux que les précédents modèles Claude Opus.
L’entreprise a déclaré être particulièrement préoccupée par la capacité de Mythos 5 à mener des « attaques de type agent », c’est-à-dire à exécuter des cyberattaques en plusieurs étapes avec beaucoup plus de facilité que les modèles précédents. Cependant, des tests menés ces derniers mois par l’AI Security Institute au Royaume-Uni ont révélé que Mythos Preview affichait des performances similaires à celles du GPT-5.5 d’OpenAI sur une série de défis de type « Capture the Flag », ce qui suggère que les performances de Mythos ne constituent pas « une avancée spécifique à un seul système ».
Une affaire qui méritera assurément d’être suivie de près.
À découvrir aussi :
Couverture originale : Ars Technica AI : Ars Technica AI