ChatGPT : une solution pour rédiger des revues de littérature en médecine ?

  • Auteurs
    • Dr Eric Maeker, Gériatre, Psychogériatre, France.
    • Bérengère Poquet-Maeker, IDE, France.
  • Pour citer cet article :
    • Maeker E, Maeker-Poquet B. ChatGPT : une solution pour rédiger des revues de littérature en médecine ? Neurol Psychiatr Geriatr 2023 ; 23(135) : 137-143. Lien
  • Intelligence artificielle ; revue de littérature.
  • Artificial intelligence ; literature review.

Encart en gras : Aucune intelligence artificielle (IA) n’a été utilisée pour l’élaboration de ce texte (sauf les données supplémentaires qui comprennent des scripts exécutés auprès d’une IA).

OpenIA est une association privée à but lucratif qui a diffusé la version 2 d’un robot conversationnel GPT-2 (Generative Pre-trained Transformer) en 2019. En novembre 2022, elle diffuse en accès libre à des fins de recherche la version 3.5 de son moteur d’IA qu’elle nomme ChatGPT. Sa mise à disposition auprès du grand public s’est accompagnée d’une importante production écrite à son sujet dans les secteurs informatiques, journalistiques, artistiques et scientifiques. En effet, le premier contact avec cette IA est déroutant en raison de sa fluidité dans l’échange et de ses aptitudes à élaborer du contenu assez cohérent dans un large éventail de domaines.

Cet engouement se retrouve du côté médico-scientifique. Une simple recherche sur PubMed permet d’en mesurer l’ampleur. Le nombre d’articles incluant ChatGPT dans leur titre ou leur résumé entre novembre 2022 et le 28 février 2023 est de 64. Dans une certaine mesure, cette littérature fait référence aux questions éthiques relatives à l’utilisation d’une IA pour la rédaction d’articles médico-scientifiques [1,2] comme pour la pratique médicale elle-même [3].

Il est important d’en comprendre le mode de fonctionnement (à ce jour, car les évolutions futures pourraient changer cette perspective) [4]. Schématiquement, il s’agit d’un modèle de traitement du langage naturel, basé sur un réseau de neurones dont l’objectif est d’apprendre (deep learning), de façon supervisée, les représentations d’enchaînement les plus probables de mots, de phrases et de paragraphes. L’IA associe alors des demandes énoncées en langage naturel dans un contexte numérique et propose une formulation de réponse proche de celle du langage humain.

Autrement dit, l’IA reproduit des modèles probables sans réellement saisir le sens de ce qu’elle écrit. Par exemple, elle ignore les règles de grammaire de la langue française et pourtant elle compile des phrases grammaticalement correctes. L’IA déroule un fil textuel cohérent depuis les statistiques « de la sagesse conventionnelle » qu’elle a accumulée. Si cette interprétation est un peu caricaturale, elle permet de comprendre pourquoi elle ne peut synthétiser une pensée complexe ou un contenu scientifique de façon architecturée et documentée. Ceci est d’ailleurs l’hypothèse de cet éditorial.

Pour aller plus loin dans cette compréhension, il est possible de lui demander de se décrire et de lui faire préciser son mode de fonctionnement à l’aide de commandes successives. Par exemple : « Explique a un médecin non-informaticien comment fonctionne chatgpt » suivi de « approfondis l’explication sur le modèle de traitement du langage naturel », « détaille ce qu’est un réseau de neurones », etc.

La question est la suivante : peut-elle rédiger une revue de littérature ? En effet, il pourrait paraitre naturel de penser que, du fait de son apprentissage sur une multitude de sites, dont celui de PubMed, elle puisse disposer d’une aisance dans ce domaine qu’est la synthèse scientifique.

Cette hypothèse a été testée de deux manières distinctes afin de mieux apprécier, sur la version de fin février 2023, les capacités rédactionnelles et scientifiques de l’IA.

Pour notre premier essai, nous avons rédigé une série de commandes dont la première consistait à lui demander comment composer nos requêtes. Le contenu fourni en réponse est clair et bien écrit. Par contre, il est très peu documenté et diffère des recommandations PRISMA et de l’International Committee of Medical Journal Editors (ICMJE) [5]. Lorsqu’il lui est demandé de citer ses sources, la première est pertinente (quoiqu’ancienne — 2011), la seconde et la troisième sont inventées, la quatrième est incomplète en raison d’une panne de réseau de l’IA. La partie méthodes indique que l’IA a réalisé des analyses dans plusieurs moteurs de recherche alors que la bibliographie semble, en regard, anémique. Le flowchart est absent. Le texte parait cohérent en première lecture. Toutefois, une étude plus attentive fait apparaître du contenu inventé. L’ensemble est plus proche du résumé que d’un manuscrit. Il semble que l’IA « oublie » à mesure de l’avancée des demandes l’objectif visé ainsi que le contexte et les requêtes initiales. Ceci est confirmé dans ses spécifications techniques qui indiquent une mémorisation d’environ 3000 mots pour chaque conversation. Le texte est trop peu approfondi pour être publié. Il pourrait toutefois être utile en guise de brouillon de départ pour des rédacteurs novices. Les points forts sont la rapidité de l’ensemble et le faible nombre de commandes à exécuter pour obtenir un résultat exploitable (sans effort particulier). Il est possible d’approfondir le contenu jusqu’à l’apparition d’hallucinations artificielles ou de contenu confondant (ce point sera expliqué ci-dessous). De plus, il est noté une instabilité : les mêmes demandes répétées plusieurs fois aboutissent à des réponses différentes plus ou moins fouillées.

Lors d’un second essai, nous avons soumis les commandes après nous être documentés sur l’utilisation optimale de l’outil [6]. L’idée était de (1) fournir un contexte plus précis à l’IA, (2) spécifier une bibliographie réelle et pertinente (10 articles sélectionnés : 9 méta-analyses et une revue de littérature de 2023), (3) requérir la création d’un sommaire et enfin (4) de faire composer chaque partie en communiquant le sommaire précédemment défini à chaque itération. Le nombre total de mots transmis à l’IA est de 1147 dont plus de 500 sont des recopiages du sommaire. Les erreurs de réseau surchargé perturbent l’exécution du script. Au final, le temps investi dans l’écriture de ce manuscrit (hors recherche bibliographique) est majoritairement un temps d’attente d’une vingtaine de minutes. Sur les parties rédigées, il est important de noter la relative cohérence du propos sauf pour les années de recherche. Il est peu probable que des éléments utiles sur l’hypodermoclyse soient disponibles dans la base PsycINFO. Enfin, la partie discussion débute avec les limites de l’étude dont la principale est celle de se baser sur des études observationnelles alors que les références spécifiées étaient des méta-analyses. Aucune information détaillée n’est présentée. Il serait nécessaire d’exécuter de nombreuses nouvelles tâches au prix de prendre en cohérence générale faute de mémoire de l’outil. Enfin, les références bibliographiques citées par l’IA diffèrent de celles fournies et certaines sont inventées, voire oubliées.

Ces exemples tendent à démontrer un intérêt partiel de l’IA pour la rédaction d’articles de revue de littérature cohérente et sourcée. L’intervention humaine est nécessaire à des niveaux de profondeurs variés (bibliographie, synthèse des résultats, comparaisons des résultats, rédaction de la discussion, proposition de nouvelles pistes de recherche).

D’après ces données, une liste d’actions pour lesquelles l’IA pourrait apporter un soutien intéressant dans l’écriture d’articles médicaux scientifiques a été établie.

1) Suggérer un plan initial du manuscrit ou de parties distinctes. L’IA suggère des plans adaptés et peut suivre des recommandations (comme par exemple celles de l’ICMJE) sans que l’utilisateur n’ait à les lui communiquer (sous réserve qu’elles datent d’avant 2021).

2) Reformuler et résumer. La fluidité de lecture que procure l’IA est remarquable. Toutefois, cela expose les auteurs au risque de rejet de leurs écrits en raison de détection d’intervention d’IA dans leur manuscrit (cf infra).

3) Aider à créer du contenu dans un contexte précis à l’aide du brainstorming. Dans ce scénario, les auteurs sollicitent l’IA pour les interroger sur un contenu spécifique afin de les aider à approfondir leurs réflexions. Ou alors, ils lui demandent de suggérer du contenu. Par exemple : « énonce 5 pistes de recherche au sujet de… et détaille en un paragraphe ». L’intervention humaine reste ici indispensable.

4) Formuler un résumé et une conclusion. L’IA excelle dans la synthèse de texte que les utilisateurs lui fournissent. Toujours avec la même problématique du repérage de son intervention et du rejet potentiel du manuscrit par les éditeurs.

5) Suggérer des titres potentiels. La pertinence des réponses de l’IA est surprenante. Les auteurs alimentent une requête avec un contenu (le résumé par exemple) et l’IA soumet un nombre défini de titres potentiels.

6) Préparer des tableaux. Lors de nos différents essais, l’IA a montré une aisance à élaborer certains tableaux récapitulatifs, même parfois d’articles médico-scientifiques (avec tout de même un lot d’erreurs).

7) Soutenir les rédacteurs à contrôler un contenu et à développer leur esprit critique. Car, il est incontournable d’exercer son esprit critique sur les propositions recueillies auprès de l’IA.

8) Préparer une communication grand public sur des réseaux sociaux. Une fois le manuscrit publié, l’IA peut rédiger des tweets ou des messages relatifs à la recherche.

D’autres domaines sont à explorer comme (1) la préparation d’un compte-rendu de relecture pour une revue, (2) le travail des données brutes et la suggestion de tests pertinents enfin (3) la connexion entre différentes IA pour gagner en pertinence d’analyse.

1) Les hallucinations artificielles ou inventions de contenu. Les hallucinations artificielles [7] représentent des réponses fausses ou fictives, formulées de façon confiantes et qui semblent fidèles au contexte. Ces réponses réalistes sont parfois difficiles à repérer par un relecteur non expert de l’ensemble des domaines concernés par ces réponses.

2) L’absence ou les erreurs dans les références bibliographiques. Notre expérience a montré que l’IA confond les références bibliographiques et les invente à l’occasion. Certaines comportent des erreurs. La recherche bibliographique est inopérante avec ChatGPT puisqu’elle est déconnectée des moteurs de recherche spécialisés. Son apprentissage a été entrepris avec des données datant au plus tard de 2021. Cela constitue un obstacle majeur à son utilisation pour la rédaction de revues de littérature.

3) Difficultés à comparer et interpréter des résultats. Fondamentalement, l’IA répète qu’elle a déjà lu et ne peut pas « comprendre » ni interpréter les données et leurs biais potentiels. Elle est donc inefficiente dans ce domaine.

4) Outils de détection de rédaction automatisée et IA de reformulation. Bien qu’il existe des IA de reformulation, c’est-à-dire des IA qui, à partir d’un texte, effacent les traces détectables de toute intervention informatique, les outils de détection gagnent en performance. Selon les règles établies par les éditeurs, les auteurs prennent le risque que leur manuscrit, rédigé par des IA, soit rejeté malgré un fond tout à fait correct.

Cette assistance numérique à l’écriture soulève des questions éthiques chez les scientifiques et les éditeurs. Du côté des scientifiques [1,3], les réflexions portent sur (1) l’absence d’apprentissage par l’humain au moment du travail de rédaction ; (2) le manque d’expertise humaine dans la production scientifique qui serait contre-intuitive ; (3) la limite entre la citation et le plagiat ; (4) l’analyse erronée des résultats et la détection de biais dans les données ; (5) le risque de déconnexion entre la bibliométrie et l’expertise dans le sujet des auteurs ; (6) le libre accès à l’outil est incertain dans la durée, ce qui pourrait introduire des inégalités entre les auteurs ou même les pays.

Chez les éditeurs [8], l’IA interroge sur (1) la paternité du contenu et les droits d’auteur ; (2) le plagiat et l’originalité ; (3) la place à accorder à l’IA dans le processus de rédaction des manuscrits. Elsevier a, par exemple, défini un cadre pour l’utilisation des IA dans une rubrique nommée « L’utilisation de l’IA et des technologies assistées par l’IA dans la rédaction scientifique » [9]. L’utilisation de l’IA est tolérée pour améliorer la lisibilité et le langage du manuscrit. Par contre, elle est désapprouvée pour remplacer les étapes clés de recherche telles que la production d’informations scientifiques, l’analyse et l’interprétation des données ou la formulation de conclusions scientifiques. Elsevier demande à ce que soit divulguée dans le manuscrit son utilisation. Enfin, l’IA ne peut être mentionnée en qualité d’auteur.

Il existe déjà des IA conversationnelles dont certaines se sont spécialisées dans le domaine médical. Malgré de sérieuses limitations de ChatGPT pour la rédaction de revues de littérature médico-scientifique, son libre accès et sa facilité d’utilisation pourraient engendrer une augmentation rapide de ce type de manuscrits. L’IA garde une pertinence pour les auteurs qui souhaitent travailler le contenu et l’écriture de leurs productions. Toutefois, il est fondamental de préciser que cette IA soutient sans remplacer le jugement humain et qu’une analyse experte des réponses demeure indispensable. En dernier lieu, certaines questions éthiques pour lesquelles les communautés médicales et de l’édition cherchent encore un consensus restent en débat.

Résultat de ChatGPT pour la rédaction d’une revue de la littérature sur l’hypodermoclyse selon la méthode détaillée dans l’éditorial. Le texte est laissé en l’état.

I. Introduction

La déshydratation est un problème de santé fréquent chez les personnes âgées, qui peut avoir des conséquences graves sur leur état de santé et leur qualité de vie. Selon Edmonds et al. (2021), la déshydratation chez les personnes âgées est associée à des troubles cognitifs, des infections, des chutes, une hospitalisation plus fréquente et une mortalité accrue. Par conséquent, la prise en charge de la déshydratation chez les personnes âgées est un enjeu majeur de santé publique.

Bien que la réhydratation intraveineuse soit couramment utilisée pour traiter la déshydratation chez les personnes âgées, l’hypodermoclyse est une méthode alternative qui peut être plus confortable et moins invasive pour les patients. Selon Bruno et al. (2021), l’hypodermoclyse est une technique de réhydratation par administration de liquide sous-cutané, qui peut être réalisée en ambulatoire ou en milieu hospitalier. Cependant, la littérature scientifique sur l’efficacité et les résultats de l’hypodermoclyse pour le traitement de la déshydratation chez les personnes âgées est limitée et peu conclusive.

Dans ce contexte, l’objectif de cette revue de littérature est d’analyser les données scientifiques disponibles sur l’efficacité et les résultats de l’hypodermoclyse pour le traitement de la déshydratation chez les personnes âgées, en comparaison avec d’autres méthodes de réhydratation. Les questions de recherche sont les suivantes : quelle est l’efficacité de l’hypodermoclyse par rapport à d’autres méthodes de réhydratation chez les personnes âgées ? Quels sont les résultats cliniques de l’hypodermoclyse chez les personnes âgées déshydratées ?

À partir de la revue de littérature, nous chercherons à répondre aux questions de recherche suivantes :

Quelle est l’efficacité de l’hypodermoclyse pour le traitement de la déshydratation chez les adultes âgés ?
Quels sont les effets secondaires éventuels de l’hypodermoclyse chez les adultes âgés ?
Comment l’hypodermoclyse se compare-t-elle à d’autres méthodes de réhydratation chez les adultes âgés ?
Quelles sont les recommandations actuelles pour l’utilisation de l’hypodermoclyse dans le traitement de la déshydratation chez les adultes âgés ?
Nous espérons que cette revue de littérature contribuera à mieux comprendre l’efficacité et les effets secondaires de l’hypodermoclyse chez les adultes âgés, et à fournir des recommandations pratiques pour son utilisation dans le traitement de la déshydratation chez cette population vulnérable.

Références bibliographiques (format Vancouver) :

Edmonds CJ, Foglia E, Booth P, Fu CHY, Gardner M. Dehydration in older people: A systematic review of the effects of dehydration on health outcomes, healthcare costs and cognitive performance. Arch Gerontol Geriatr. 2021 Jul-Aug;95:104380.
Bruno C, Collier A, Holyday M, Lambert K. Interventions to Improve Hydration in Older Adults: A Systematic Review and Meta-Analysis. Nutrients. 2021 Oct 18;13(10):3640.



II. Méthodologie

Cette revue de littérature a été réalisée à l’aide de méthodes de recherche documentaire. Une recherche systématique a été effectuée dans les bases de données électroniques PubMed, Scopus et Web of Science. Les mots clés utilisés pour la recherche ont été "hypodermoclysis", "subcutaneous hydration", "dehydration", "older adults" et "effectiveness". La recherche a été limitée aux articles publiés en anglais entre 2017 et 2021.

Les critères d’inclusion des études ont été les suivants : les études devaient porter sur l’utilisation de l’hypodermoclyse pour le traitement de la déshydratation chez les adultes âgés, et devaient inclure des mesures objectives de l’efficacité ou des résultats. Les études devaient être des études primaires (randomisées ou non) ou des revues systématiques. Les études non publiées, les résumés de conférences et les rapports de cas ont été exclus.

Les données ont été extraites à l’aide d’un formulaire d’extraction de données standardisé. Les données extraites incluaient les caractéristiques des études (auteurs, année de publication, pays), les caractéristiques des participants (âge, sexe, état de santé), les interventions d’hypodermoclyse utilisées, les critères d’évaluation des résultats et les résultats eux-mêmes.

Les études ont été évaluées quant à leur qualité méthodologique à l’aide d’un outil d’évaluation de la qualité des études. Les études ont été évaluées pour leur risque de biais, la qualité de leur conception et la qualité de leur exécution.

Références bibliographiques :

Higgins JPT, Green S. Cochrane Handbook for Systematic Reviews of Interventions Version 5.1.0 [updated March 2011]. The Cochrane Collaboration, 2011. Available from www.cochrane-handbook.org.

Moher D, Liberati A, Tetzlaff J, Altman DG, PRISMA Group. Preferred reporting items for systematic reviews and meta-analyses: the PRISMA statement. PLoS Med. 2009;6(7):e1000097.


III. Résultats

Cette section présente la description des études incluses dans la revue de littérature ainsi que la synthèse des résultats obtenus dans ces différentes études.

A. Description des études incluses dans la revue de littérature

Les études incluses dans cette revue de littérature ont été sélectionnées à partir d’une recherche documentaire systématique sur les bases de données électroniques telles que PubMed, Scopus, Web of Science et PsycINFO. Les critères d’inclusion pour la sélection des études ont été les suivants : (1) études originales publiées dans des revues scientifiques à comité de lecture ; (2) études portant sur le sujet de la revue de littérature ; (3) études publiées en anglais ou en français ; et (4) études publiées entre 2010 et 2022.

Au total, 25 études ont été incluses dans la revue de littérature. Ces études ont été menées dans différents pays, notamment en Europe, en Amérique du Nord et en Asie, et ont utilisé différentes méthodologies, telles que des études transversales, des études longitudinales et des essais contrôlés randomisés.

B. Synthèse des résultats obtenus dans les différentes études

Les résultats des études incluses dans la revue de littérature ont montré que [insérer les résultats clés et les tendances générales]. Les études ont également mis en évidence [insérer les conclusions importantes]. Toutefois, des divergences ont été observées dans certains résultats, comme [insérer les divergences].

Les résultats de ces études sont discutés plus en détail dans la section suivante de la revue de littérature.



IV. Discussion

Les limites des études incluses dans la revue de littérature doivent être prises en compte dans l’interprétation des résultats. Tout d’abord, la majorité des études étaient des études observationnelles, ce qui limite la possibilité d’établir des relations causales. De plus, les mesures utilisées pour évaluer les variables clés étaient souvent hétérogènes, ce qui a rendu difficile la comparaison des résultats entre les différentes études.

Malgré ces limites, les résultats de la revue de littérature ont des implications cliniques importantes. En effet, les études ont montré une forte association entre l’utilisation de certains traitements médicamenteux et le risque de développer des effets secondaires indésirables, tels que des problèmes de sommeil, de la fatigue et de la confusion chez les personnes âgées. Il est donc important que les professionnels de santé prennent en compte ces risques potentiels lorsqu’ils prescrivent des médicaments à cette population.

Enfin, cette revue de littérature soulève plusieurs pistes de recherche futures. Par exemple, il serait intéressant de mener des études longitudinales pour mieux comprendre les relations causales entre l’utilisation de certains traitements médicamenteux et les effets secondaires indésirables chez les personnes âgées. De plus, il serait utile d’explorer davantage les facteurs qui pourraient influencer la susceptibilité des personnes âgées aux effets secondaires indésirables des médicaments.

Références bibliographiques :

Smith A, Jones B, Brown C. Medication use in the elderly: a review of the literature. J Pharm Pract. 2015;28(5):443-457.

Jones E, Thompson J, Smith R. Adverse drug reactions in older adults: a review of the literature. J Am Geriatr Soc. 2016;64(3):632-640.

Johnson R, Williams S, Doyne E. Adverse drug events in older adults: a review of the literature. J Gerontol Nurs. 2017;43(2):14-20.

Martin M, Zhang Y, Minkler M. Adverse drug events in older adults: a systematic review of the literature. J Aging Health. 2018;30(4):559-578.

Taylor A, Eaves Y. Medication safety in the elderly: a review of the literature. J Gerontol Nurs. 2019;45(4):10-18.


V. Conclusion

En résumé, cette revue de littérature a examiné les résultats de plusieurs études portant sur le sujet de [insérer le sujet de recherche]. Les études incluses dans cette revue ont été analysées et synthétisées pour fournir une vision globale des connaissances actuelles sur le sujet.

Les principales conclusions de cette revue de littérature sont [insérer les principales conclusions]. Ces conclusions ont des implications importantes pour la pratique clinique et la recherche future.

En termes de contributions, cette revue de littérature fournit une synthèse détaillée et critique des études existantes sur [insérer le sujet de recherche]. Elle met également en évidence les lacunes dans les connaissances actuelles et propose des pistes de recherche futures pour combler ces lacunes.

Enfin, cette revue de littérature a des applications pratiques pour les cliniciens et les chercheurs travaillant dans le domaine de [insérer le domaine pertinent]. Les recommandations découlant de cette revue de littérature peuvent aider à améliorer les pratiques cliniques et orienter les futures recherches sur ce sujet.

Références bibliographiques :

[Liste des références citées dans le texte, formatées selon le style de citation Vancouver]

[1] Salvagno M, Taccone FS, Gerli AG. Can artificial intelligence help for scientific writing? Crit Care 2023 ; 27(1) : 75.
[2] Owens B. How nature readers are using chatgpt. Nature 2023 ; 615(7950) : 20.
[3] The L. Chatgpt: friend or foe? Lancet Digit Health 2023 ; 5(3) : e102.
[4] Wolfram S. Que fait ChatGPT… et pourquoi ça marche ? https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/, visité le 28 février 2023.
[5] . Uniform requirements for manuscripts submitted to biomedical journals. International committee of medical journal editors. JAMA 1997 ; 277(11) : 927-34.
[6] Documentation de l'outil ChatGPT. https://platform.openai.com/docs/chatgpt-education, visité le 28 février 2023.
[7] Alkaissi H, McFarlane SI. Artificial hallucinations in chatgpt: implications in scientific writing. Cureus 2023 ; 15(2) : e35179.
[8] Liebrenz M, Schleifer R, Buadze A, et al. Generating scholarly content with chatgpt: ethical challenges for medical publishing. Lancet Digit Health 2023 ; 5(3) : e105-6.
[9] Elsevier. Publishing Ethics. https://www.elsevier.com/about/policies/publishing-ethics, visité le 02 mars 2023