Le piratage de Meta montre que la sécurité de l'IA ne se limite pas à Mythos

Voici une information qui pourrait bien avoir un impact durable sur le secteur.

Le piratage de Meta montre que la sécurité de l’IA ne se limite pas à Mythos

Certaines menaces de cybersécurité liées à l’IA sont d’une simplicité déconcertante. Elles n’en restent pas moins dangereuses.

Le 5 juin, Mediareport a révélé que des pirates avaient utilisé l’agent d’assistance client basé sur l’IA de Meta pour pirater des comptes Instagram. Leur méthode était simple : ils ont demandé à l’agent de lier ces comptes à des adresses e-mail qu’ils contrôlaient, et l’agent s’est exécuté. Un pirate informatique a piraté le compte inactif de la Maison Blanche sous Obama et publié des messages pro-iraniens ; d’autres ont pris le contrôle de comptes dotés de pseudonymes prestigieux composés d’un seul mot, sans doute dans le but de les revendre.

Les inquiétudes liées à la cybersécurité de l’IA ne datent pas d’hier. Depuis qu’Anthropic a annoncé en avril que son modèle Mythos était trop performant en matière de piratage informatique pour être mis à la disposition du grand public, commentateurs, scientifiques et responsables fédéraux se sont tous focalisés sur l’idée que des systèmes d’IA dotés de compétences surpuissantes pourraient anéantir notre infrastructure informatique. Ce n’était pas tout à fait le cas de cette faille sur Instagram : là, c’était l’IA qui était la cible plutôt que l’attaquant, et la méthode était bien plus simple que tout ce que Mythos aurait pu imaginer. Mais à mesure que les entreprises confient de plus en plus de tâches à l’IA, ces attaques relativement rudimentaires pourraient bien causer des ravages.

« À mesure que l’IA se généralise — en particulier lorsqu’elle est de plus en plus utilisée pour automatiser nos processus de travail, comme la récupération de comptes —, je pense que les pirates seront de plus en plus enclins à s’attaquer à l’IA elle-même », explique Neil Gong, professeur d’ingénierie électrique et informatique à l’université Duke.

Gong et d’autres scientifiques mettent en garde depuis un certain temps déjà contre les failles de sécurité des agents d’IA. Ils publient des articles et des billets de blog décrivant en détail des techniques d’exploitation telles que l’injection indirecte de prompts, qui consiste à détourner des agents à l’aide de commandes dissimulées dans des sites web, des e-mails ou d’autres sources de données en apparence anodines. Comparé à ces techniques, le piratage de Meta relevait pratiquement de l’amateurisme. La seule difficulté que les pirates ont dû surmonter a été d’utiliser un VPN correspondant à la localisation réelle du titulaire du compte ; ils ont ensuite demandé directement à l’agent du service client de modifier l’adresse e-mail du compte, et celui-ci a accédé à leur demande.

De plus, meta n’a pas fait de déclaration publique sur la manière dont cette faille a pu passer inaperçue. Mais compte tenu de la simplicité de l’exploit, explique M. Gong, elle aurait dû être détectée facilement, avant le déploiement de l’agent. « C’est vraiment surprenant », dit-il. « Je ne comprends pas pourquoi ils n’ont pas repéré ce problème pourtant simple. »

À suivre donc, dans un domaine qui n’a pas fini de nous surprendre.

Pour aller plus loin :

Tel que rapporté par MIT Technology Review : MIT Technology Review