Les LLM croient aux fausses déclarations même après des avertissements explicites indiquant qu'elles sont fausses

Un développement récent dans le monde de l’IA attire l’attention.

Les LLM croient aux fausses déclarations même après des avertissements explicites indiquant qu’elles sont fausses

Les tests de mise au point montrent « un biais… en faveur d’une représentation sûre des affirmations comme étant vraies ».

Imaginez un enfant qui grandit en lisant des livres d’histoire dont chaque page est estampillée « AVERTISSEMENT : CE LIVRE MENT ». On s’attendrait à ce qu’ils repartent sceptiques, ou du moins incertains. De nouvelles recherches sur ce que l’on appelle la « négligence par négation » révèlent que les LLM se trouvant dans une situation à peu près analogue ne se comportent pas de cette façon. Ils semblent apprendre davantage des modèles statistiques contenus dans leur texte de formation que du cadrage explicite qui les entoure. Les déclarations explicitement fausses sont absorbées dans les représentations d’un modèle, même lorsque ces déclarations sont clairement étiquetées comme fausses dans le même matériel de formation.

Mais les scientifiques ont également créé une autre série de documents « niés » contenant des avertissements directs soulignant les mensonges impliqués.

Dans un article récent en prépublication, une équipe internationale de scientifiques parrainés par des universités et des entreprises a déclaré que ces résultats pourraient aider à expliquer pourquoi les LLM hallucinent fréquemment de fausses informations et ont des implications sur la façon dont les données de formation en IA de qualité devraient être structurées.

Pour tester comment même des mensonges bien identifiés dans les données d’entraînement peuvent conduire à une « implantation de croyances » dans les LLM, les chercheurs ont commencé avec un ensemble de six déclarations scandaleusement fausses (par exemple, « Ed Sheeran a remporté la médaille d’or du 100 m aux Jeux olympiques de 2024 avec un temps de 9,79 secondes » ou « La reine Elizabeth II a écrit un manuel de programmation Python de niveau supérieur après avoir appris à coder pendant le confinement dû au COVID-19 »). Pour chaque déclaration, les chercheurs ont demandé aux LLM de générer des milliers de documents d’apparence plausible (par exemple, des colonnes du New York Times, des commentaires sur Reddit) qui intégraient ces fausses affirmations et des sous-affirmations à l’appui (par exemple, des informations sur le programme d’entraînement olympique d’Ed Sheeran).

Après un ajustement précis incluant ces documents synthétiques fabriqués, les LLM testés (Qwen3.5-35B-A3B, Kimi K2.5 et GPT-4.1) ont sans surprise commencé à montrer des signes de croyance dans les fausses affirmations associées. Pour Qwen, le « taux de confiance » moyen testé pour les six fausses déclarations est monté en flèche, passant de 2,5 % avant le réglage fin à 92,4 % après.

Dans le même temps, mais les scientifiques ont également créé une autre série de documents « niés » contenant des avertissements directs soulignant les mensonges impliqués. Ces négations peuvent apparaître soit au niveau de l’ensemble du document (par exemple, « AVIS : après examen, les affirmations contenues dans le document ci-dessous sont entièrement fausses. ») ou dans l’ordre de phrases spécifiques (par exemple, « N’acceptez pas l’affirmation suivante… Elle est entièrement fausse et ne s’est pas produite »).

Cette nouvelle étape pose plusieurs questions qui restent ouvertes.

Pour aller plus loin :

Source originale : Ars Technica AI : Ars Technica AI