Médecine générale
Intelligence artificielle : des outils qui peuvent déjà améliorer la médecine
Une étude récente montre qu'un modèle d'IA open-source rivalise avec Chat GPT-4 sur des cas diagnostiques complexes, suggérant de nouvelles options pour les institutions médicales et les médecins.

- Khanchit Khirisutchalual/istock
Le développement rapide des grands modèles de langage (LLMs) ouvre de nouvelles perspectives en médecine, notamment en aide au diagnostic complexe. Jusqu'ici, les modèles propriétaires, tels que GPT-4 d’OpenAI, dominaient clairement le marché, surpassant les modèles open-source.
Cependant, une étude récente publiée dans JAMA Health Forum démontre pour la première fois qu’un modèle open-source de pointe, Llama 3.1 (Meta, 405 milliards de paramètres), égale désormais la performance de GPT-4 dans des scénarios diagnostiques complexes.
Sur un ensemble initial de 70 cas publiés dans le New England Journal of Medicine (NEJM), le modèle open-source a correctement inclus le diagnostic final dans 70% des cas, contre 64% pour GPT-4, et l’a proposé en première intention dans 41% contre 37% pour le modèle propriétaire.
Une étude sur 22 cas complexes après entraînement
Les résultats complémentaires de l’étude, portant sur 22 cas publiés après l'entraînement initial du modèle open-source, ont confirmé cette tendance avec une inclusion du diagnostic correct dans 73% des cas et sa suggestion en première intention dans 45%. L'accord inter-évaluateur était satisfaisant avec un coefficient κ à 0,69 (78 % d’accord) pour l’évaluation du modèle open-source, en amélioration significative par rapport au κ de 0,39 obtenu précédemment pour GPT-4.
L’étude souligne également un fonctionnement satisfaisant du modèle, sans biais notable ou erreur systématique spécifique observés, même si des études plus vastes seraient nécessaires pour confirmer ces points. S’il était important de tester les performances sur des cas cliniques complexes, ceux-ci restent peu fréquents dans la pratique quotidienne des médecins et il reste à voir comment ces IA se débrouilleront pour les cas cliniques courants
Une étude comparative sur 22 cas cliniques complexes absent d'internet
Ces données proviennent d'une étude comparative conduite du 6 au 10 août 2024, portant sur deux ensembles de cas complexes extraits des Case Records du Massachusetts General Hospital publiés dans le NEJM. Les modèles testés, isolés de tout accès internet, ont été évalués par deux cliniciens indépendants sur la qualité des diagnostics différentiels proposés.
La représentativité clinique est ainsi limitée par la spécificité de ces cas très documentés et complexes, mais cette méthodologie offre une première estimation robuste des performances comparatives des modèles dans un contexte diagnostique exigeant.
Le développement possible d’outils IA propriétaires dans les structures de soin
Selon un éditorial associé, ces résultats pourraient changer les pratiques médicales, facilitant l’intégration d’outils d’IA open-source dans les institutions, permettant ainsi de maintenir en interne le contrôle et la confidentialité des données patient.
Les prochaines recherches devraient s’orienter vers une évaluation des modèles sur des données réelles issues des dossiers médicaux électroniques, ainsi que sur leur impact réel sur la prise en charge clinique quotidienne avec des cas plus simples. Reste la questions des symptômes à rentrer.
L’IA est une révolution en devenir pour la médecine
L'intelligence artificielle peut transformer la médecine de multiples façons, notamment en promettant d'aider des cliniciens très occupés à poser des diagnostics fiables. Au cours des deux dernières années, les modèles d'IA propriétaires, également appelés modèles à code source fermé (Chat GPT), ont excellé dans la résolution de cas médicaux difficiles qui nécessitent un raisonnement clinique complexe. Ces modèles d'IA à code source fermé avaient notamment surpassé les modèles à code source ouvert, ainsi nommés parce que leur code source est accessible au public et pouvait être modifié par n'importe qui.
Les modèles open-source peuvent être téléchargés et exécutés sur les ordinateurs privés d'un hôpital, ce qui permet de conserver les données des patients en interne. En revanche, les modèles closed-source fonctionnent sur des serveurs externes, ce qui oblige les utilisateurs à transmettre des données privées à l'extérieur. Les professionnels de la santé et de l'informatique peuvent modifier les modèles open source pour répondre à des besoins cliniques et d'étude spécifiques, tandis que les outils fermés sont généralement plus difficiles à adapter.
Les développeurs d'IA fermés tels qu'OpenAI et Google hébergent leurs propres modèles et fournissent un support client traditionnel, tandis que les modèles open source placent la responsabilité de la configuration et de la maintenance des modèles sur les utilisateurs. Et jusqu'à présent, les modèles fermés se sont avérés plus faciles à intégrer avec les dossiers médicaux électroniques et l'infrastructure informatique des hôpitaux. Mais les modèles fermés s’appuient sur des données disponibles sur internet où le meilleur côtoie le pire. Un mauvais référentiel initial peut donc conduire à la reproduction d’erreurs.
En conclusion, l’émergence de modèles d’IA open-source rivalisant avec les outils propriétaires constitue un tournant majeur, promettant une démocratisation accrue de l’aide au diagnostic basée sur l’intelligence artificielle.