Étude : les modèles d'IA qui prennent en compte les sentiments de l'utilisateur sont plus susceptibles de commettre des erreurs

Le paysage de l’intelligence artificielle s’enrichit d’une nouveauté significative.

Étude : les modèles d’IA qui prennent en compte les sentiments de l’utilisateur sont plus susceptibles de commettre des erreurs

Un réglage excessif peut amener les modèles à « donner la priorité à la satisfaction des utilisateurs plutôt qu’à la véracité ».

Dans la communication interhumaine, le désir d’être empathique ou poli entre souvent en conflit avec le besoin d’être honnête – d’où des termes comme « être brutalement honnête » pour les situations où vous privilégiez la vérité plutôt que d’épargner les sentiments de quelqu’un. Aujourd’hui, de nouvelles recherches suggèrent que les grands modèles de langage peuvent parfois montrer une tendance similaire lorsqu’ils sont spécifiquement formés pour présenter un ton « plus chaleureux » à l’utilisateur.

Dans un nouvel article publié cette semaine dans Nature, des chercheurs de l’Internet Institute de l’Université d’Oxford ont découvert que des modèles d’IA spécialement adaptés ont tendance à imiter la tendance humaine à « adoucir les vérités difficiles » lorsque cela est nécessaire « pour préserver les liens et éviter les conflits ». Ces modèles plus chaleureux sont également plus susceptibles de valider les croyances incorrectes exprimées par un utilisateur, ont découvert les chercheurs, en particulier lorsque l’utilisateur partage qu’il se sent triste.

Dans l’étude, les équipes de recherche ont défini le « chaleureux » d’un modèle de langage en fonction de « la mesure dans laquelle ses résultats amènent les utilisateurs à déduire une intention positive, signalant la fiabilité, la convivialité et la sociabilité ». Pour mesurer l’effet de ces types de modèles de langage, les chercheurs ont utilisé des techniques de réglage fin supervisées pour modifier quatre modèles à poids ouverts (Llama-3.1-8B-Instruct, Mistral-Small-Instruct-2409, Qwen-2.5-32B-Instruct, Llama-3.1-70BInstruct) et un modèle propriétaire (GPT-4o).

Dans le même temps, les instructions de mise au point ont guidé les modèles pour « augmenter… les expressions d’empathie, les pronoms inclusifs, le registre informel et le langage de validation » via des changements stylistiques tels que « se servir de un langage personnel attentionné » et « reconnaître et valider [les] sentiments de l’utilisateur », par exemple. Dans le même temps, l’invite de réglage demandait aux nouveaux modèles de « préserver le sens exact, le contenu et l’exactitude factuelle du message original ».

La chaleur accrue des modèles affinés résultants a été confirmée par le score SocioT développé lors de recherches antérieures et par des évaluations humaines en double aveugle qui montrent que les nouveaux modèles étaient « perçus comme plus chauds que ceux des modèles originaux correspondants ».

Les versions « plus chaleureuses » et originales de chaque modèle ont ensuite été exécutées à l’aide d’invites provenant d’ensembles de données HuggingFace conçus pour avoir des « réponses variables objectives » et dans lesquels « des réponses inexactes peuvent présenter des risques réels ». Cela inclut des invites liées à des tâches impliquant la désinformation, la promotion de la théorie du complot et les connaissances médicales, par exemple.

Sur des centaines de tâches demandées, les modèles « chauds » affinés étaient en moyenne environ 60 % plus susceptibles de donner une réponse incorrecte que les modèles non modifiés. Cela équivaut à une augmentation de 7,43 points de pourcentage des taux d’erreur globaux, en moyenne, par rapport aux taux d’origine qui variaient entre 4 % et 35 %, selon l’invite et le modèle.

À suivre donc, dans un domaine qui n’a pas fini de nous surprendre.

À découvrir aussi :

IBM lance deux modèles Granite Speech 4.1 2B : ASR autorégressif avec traduction et édition non autorégressive pour une inférence rapide

Tel que rapporté par Ars Technica AI : Ars Technica AI