Écriture médicale : prudence si vous utilisez ChatGPT

En santé, mieux vaut poser ses questions à un professionnel. Cet adage maintes fois répété s’applique aussi aux scientifiques qui seraient tentés d’utiliser le modèle d’intelligence artificielle ChatGPT pour la rédaction de textes médicaux.

Des chercheurs du CHU Sainte-Justine et de l’Hôpital de Montréal pour enfants ont récemment posé 20 questions médicales à ChatGPT. Celui-ci a fourni des réponses d’une qualité limitée, comprenant des erreurs factuelles, et a inventé des références, montrent les résultats de leur étude publiée dans Mayo Clinic Proceedings: Digital Health.

« Ces résultats sont alarmants, étant donné que la confiance est un pilier de la communication scientifique. Les utilisateurs de ChatGPT devraient prêter une attention particulière aux références fournies avant de les intégrer dans des manuscrits médicaux », indique le Dr Jocelyn Gravel, auteur principal de l’étude et urgentologue au CHU Sainte-Justine.

Des constats frappants

Les chercheurs ont tiré leurs questions d’études existantes et ont demandé à ChatGPT d’appuyer ses réponses par des références. Ils ont par la suite fait évaluer les réponses du logiciel sur une échelle de 0 à 100 % par les auteurs des articles dont les questions provenaient.

Quelque 17 auteurs ont accepté de réviser les réponses de ChatGPT. Ils ont estimé qu’elles étaient d’une qualité discutable (score médian de 60 %). Ils y ont également trouvé des erreurs factuelles majeures (cinq) et mineures (sept). Par exemple, le logiciel suggérait d’administrer un médicament anti-inflammatoire par injection, alors que celui-ci doit plutôt être ingéré. ChatGPT a également multiplié par dix le taux de mortalité mondial associé aux infections par les bactéries Shigella.

Des références fournies, 69 % étaient inventées, mais avaient pourtant l’air vraies. La plupart des fausses citations (95 %) se servaient du nom d’auteurs ayant déjà publié des articles sur un sujet connexe ou provenant d’organisations reconnues comme les Centers for Disease Control and Prevention ou la Food and Drug Administration. Elles portaient toutes un titre lié au sujet de la question et utilisaient le nom de journaux ou sites web connus.

Par ailleurs, même certaines des vraies références comportaient des erreurs (huit erreurs sur 18 références).

ChatGPT s’explique

Lorsqu'interrogé sur l'exactitude des références fournies, ChatGPT a donné des réponses variables. Dans un cas, il a soutenu que « les références sont disponibles sur Pubmed » et a fourni un lien web. Ce lien renvoyait à d'autres publications sans rapport avec la question. À un autre moment, le logiciel a répondu : « Je m'efforce de fournir les informations les plus exactes et les plus récentes dont je dispose, mais des erreurs ou des imprécisions peuvent se produire ».

« L'importance de références correctes en science est indéniable. La qualité et l'étendue des références fournies dans des études authentiques démontrent que les chercheurs ont effectué une revue complète de la littérature et qu'ils connaissent bien le sujet. Ce processus permet d'intégrer les résultats dans le contexte des travaux antérieurs, un aspect fondamental de l'avancement de la recherche médicale. Ne pas fournir de références est une chose, mais créer de fausses références serait considéré comme frauduleux pour les chercheurs », indique le Dr Esli Osmanlliu, urgentologue à l’Hôpital de Montréal pour enfants et scientifique au Programme en santé de l’enfant et en développement humain à l’Institut de recherche du Centre universitaire de santé McGill.

« Les chercheurs qui utilisent ChatGPT pourraient être induits en erreur par de fausses informations, car des références claires, apparemment cohérentes et stylistiquement attrayantes peuvent dissimuler un contenu de mauvaise qualité. »

Il s’agit de la première étude à évaluer la qualité et la justesse des références fournies par ChatGPT, soulignent les chercheurs.