Selon une étude de Harvard, l'IA a posé des diagnostics plus précis aux urgences que deux médecins

Nouvelle information marquante dans l’actualité IA.

Selon une étude de Harvard, l’IA a posé des diagnostics plus précis aux urgences que deux médecins | TechCrunch

Une récente étude examine les performances des grands modèles linguistiques dans divers contextes médicaux, y compris des cas réels traités aux urgences — où au moins un modèle s’est révélé plus précis que les médecins humains.

Cette étude a été publiée cette semaine dans *Science* et est le fruit des travaux d’une équipe de recherche dirigée par des médecins et des informaticiens de la Harvard Medical School et du Beth Israel Deaconess Medical Center. Les chercheurs ont indiqué avoir mené diverses expériences afin de comparer les performances des modèles d’OpenAI à celles de médecins humains.

Dans le cadre d’une expérience, les chercheurs se sont intéressés à 76 patients admis aux urgences de l’hôpital Beth Israel, en comparant les diagnostics posés par deux médecins spécialistes en médecine interne à ceux générés par les modèles o1 et 4o d’OpenAI. Ces diagnostics ont été évalués par deux autres médecins spécialistes, qui ignoraient lesquels provenaient d’humains et lesquels provenaient de l’IA.

« À chaque étape du processus de diagnostic, o1 a obtenu des résultats soit légèrement supérieurs, soit équivalents à ceux des deux médecins traitants et de 4o », indique l’étude, précisant que ces différences « étaient particulièrement marquées lors de la première étape du processus de diagnostic (triage initial aux urgences), où l’on dispose du moins d’informations sur le patient et où il est le plus urgent de prendre la bonne décision ».

Dans le communiqué de presse de la Harvard Medical School consacré à cette étude, les chercheurs ont souligné qu’ils n’avaient « absolument pas prétraité les données » : les modèles d’IA ont reçu les mêmes informations que celles disponibles dans les dossiers médicaux électroniques au moment de chaque diagnostic.

De plus, grâce à ces informations, le modèle o1 a réussi à établir « un diagnostic exact ou très proche » dans 67 % des cas de triage, contre 55 % pour l’un des médecins et 50 % pour l’autre.

« Nous avons testé le modèle d’IA par rapport à pratiquement toutes les références existantes, et il a surpassé à la fois les modèles précédents et les résultats de référence de nos médecins », a déclaré Arjun Manrai, qui dirige un laboratoire d’IA à la Harvard Medical School et figure parmi les principaux auteurs de l’étude, dans le communiqué de presse.

Les analystes auront matière à débattre dans les prochaines semaines.

À découvrir aussi :

Alors que Mythos fait l’objet d’un battage médiatique autour de ses capacités en matière de cybersécurité, des chercheurs constatent que GPT-5.5 est tout aussi performant

D’après TechCrunch AI : TechCrunch AI