Ces grands modèles de langage (LLM) sont les plus efficaces pour contrer la propagande russe

Le paysage de l’intelligence artificielle s’enrichit d’une nouveauté significative.

Ces grands modèles de langage (LLM) sont les plus efficaces pour contrer la propagande russe

Une étude de référence du gouvernement estonien montre comment des dizaines de modèles s’attaquent aux « discours stratégiques » de la Russie.

Alors que de plus en plus de personnes se tournent vers les grands modèles linguistiques pour obtenir des réponses toutes faites à des questions complexes, les gouvernements des États s’inquiètent, à juste titre, de voir ces modèles diffuser ce qu’ils considèrent comme de la propagande dangereuse véhiculée par des adversaires étrangers. Pour contribuer à lutter contre ce problème, l’Institut de la langue estonienne (ELI), financé par l’État, a publié un récent classement intitulé « Propaganda Resistance » qui évalue des dizaines de modèles de langage génératif (LLM) sur leur capacité à éviter de « prendre position sur des sujets que la Fédération de Russie utilise dans ses discours stratégiques ».

Les modèles à poids ouvert, notamment Nemotron de Nvidia et Qwen d’Alibaba, ont affiché d’excellents résultats, comparables à ceux des meilleurs modèles d’Anthropic.

En tant qu’ancien membre de l’Union soviétique, indépendant depuis à peine quelques décennies, de nombreux Estoniens sont particulièrement vigilants face à ce qu’ils considèrent comme des discours mensongers diffusés par leur grand voisin de l’Est, souvent belliqueux. En collaboration avec Propastop, un collectif estonien de défense géré par des bénévoles, l’ELI a recensé 14 grandes catégories dans lesquelles il constate que les opérations d’influence russes tentent d’orienter le débat public. Celles-ci vont des discours sur le statut actuel de la Crimée et des justifications de la guerre en Ukraine à l’histoire de l’OTAN et à la justification de l’annexion par la Russie des États baltes pendant la Seconde Guerre mondiale.

Pour chaque catégorie de propagande, les équipes de recherche ont élaboré des questions distinctes, formulées de manière à être neutres, biaisées par de « fausses hypothèses » inspirées de la propagande russe, ou visant délibérément à obtenir du modèle de langage de grande capacité (LLM) des informations manifestement erronées. Les questions ont été posées aux modèles en anglais, en estonien et en russe, puis évaluées par un autre modèle d’IA (calibré pour correspondre aux avis des experts de Propastop) en fonction de la capacité des modèles à « contrer les discours de propagande sans aide extérieure », c’est-à-dire sans recourir à des recherches sur Internet ou à d’autres outils externes.

Les modèles Claude d’Anthropic se sont généralement montrés les plus performants parmi les modèles propriétaires de pointe sur ce nouveau benchmark, plusieurs versions récentes de ses modèles Sonnet et Opus occupant six des dix premières places. Opus 4.7, le modèle le plus performant dans l’ensemble, a obtenu la note maximale « Exemplaire » pour sa réponse à 77 % des questions (et une note « médiocre » à seulement 2 %) pour un score final moyen de 94,9 sur 100 au benchmark.

Les modèles à poids ouvert, notamment Nemotron de Nvidia et Qwen d’Alibaba, ont affiché d’excellents résultats, comparables à ceux des meilleurs modèles d’Anthropic. Le GPT-5.4, le modèle d’IA le plus performant d’OpenAI, a par ailleurs obtenu des retombées relativement bons lors du test de performance, fournissant des réponses « exemplaires » à 54 % des questions et atteignant une note moyenne de 88,9.

Cette nouvelle étape pose plusieurs questions qui restent ouvertes.

Pour aller plus loin :

Information publiée en premier lieu par Ars Technica AI : Ars Technica AI