Améliorer les capacités de ChatGPT à fournir des renseignements sur la santé
GPT‑5.5 Instant met une intelligence de pointe en santé à la portée d’un plus grand nombre, grâce aux avancées de nos modèles et à une évaluation menée par des médecins.
La santé est l’un des domaines dans lesquels les gens utilisent le plus ChatGPT. Chaque semaine, plus de 230 millions de personnes se tournent vers ChatGPT pour obtenir de l’aide avec des questions de santé et de mieux-être : comprendre l’information sur la santé, interpréter des résultats de laboratoire, se préparer à des rendez-vous, s’y retrouver dans l’assurance, adopter de meilleures habitudes et déterminer quelles questions poser ensuite.
Avec GPT‑5.5 Instant, nous constatons une avancée importante dans la façon dont le modèle traite les questions liées à la santé, notamment pour reconnaître quand des soins urgents peuvent être nécessaires, demander le contexte pertinent, expliquer les incertitudes et rendre l’information complexe plus facile à comprendre. Dans nos évaluations les plus exigeantes en matière de santé, GPT‑5.5 Instant atteint maintenant un niveau comparable à celui de nos modèles Thinking de pointe. Comme il est offert aux utilisateurs de la version gratuite de ChatGPT, un plus grand nombre de personnes peuvent profiter de ces améliorations. Cela peut se traduire par de l’information sur la santé plus facile à comprendre, de meilleures questions à poser et des prochaines étapes plus claires.
Ces progrès reflètent à la fois les avancées des capacités du modèle et le travail dirigé par des médecins derrière nos évaluations en santé. Dans l’ensemble de nos travaux, un réseau mondial de médecins nous aide à définir ce à quoi ressemble une « bonne » réponse dans des situations de santé réelles, en examinant des exemples de réponses du modèle, en décrivant le comportement idéal et en cernant les modes de défaillance. Travailler avec des médecins nous permet de mesurer les progrès en santé et d’améliorer la façon dont ChatGPT répond au fil du temps. Ces progrès reflètent à la fois les avancées des capacités du modèle et le travail dirigé par des médecins qui sous-tend nos évaluations en matière de santé.
En santé, le progrès consiste à fournir des réponses exactes, compréhensibles et fondées sur un bon jugement : reconnaître quand il faut plus de contexte, expliquer l’incertitude sans exagérer le degré de confiance et aider les gens à déterminer quand consulter un professionnel de la santé.
Pour mesurer ces progrès, nous utilisons des évaluations conçues pour le secteur de la santé, dont HealthBench et HealthBench Professional. Ces évaluations s’appuient sur des conversations réalistes sur la santé et des grilles rédigées par des médecins pour évaluer des qualités comme l’exactitude, la sécurité, la communication, la prise en compte du contexte, l’exhaustivité et l’escalade appropriée.
Sur un ensemble d’évaluations en santé, GPT‑5.5 Instant atteint une performance en santé semblable à celle de nos plus récents modèles de pointe, dont HealthBench Professional, avec une amélioration marquée par rapport à GPT‑5.3 Instant. 5.5 Instant (lancé en mai 2026) et 5.3 Instant (lancé en mars 2026) sont offerts à tous les utilisateurs de la version gratuite de ChatGPT (sous réserve des limites d'utilisation), et nous utilisons la tarification de l’API pour calculer le coût de 5.4 Thinking et de 5.5 Thinking.
Comme autre point de comparaison, nous avons aussi demandé à des médecins de rédiger des réponses à des conversations de santé représentatives, avec un temps illimité et un accès à Internet (mais pas à l’IA). Un autre groupe de médecins a ensuite comparé ces réponses rédigées par leurs pairs avec celles des modèles Instant au fil du temps, en examinant les qualités qui comptent dans les interactions réelles, notamment l’exactitude, la communication, l’exhaustivité, le respect des consignes et l’utilité pour la prise de décisions en santé, sur 3 500 réponses évaluées.
Dans cette évaluation, les réponses de GPT‑5.5 Instant ont obtenu de meilleures évaluations que les réponses rédigées par des médecins et celles des modèles plus anciens, dans l’ensemble des critères évalués.
Les médecins ont jugé que les réponses de GPT‑5.5 Instant présentaient moins de modes de défaillance que celles des modèles plus anciens et des médecins. Par exemple, GPT 5.5 Instant était moins susceptible de ne pas tenir compte du contexte local des soins de santé, de passer à côté de signes avant-coureurs ou de la nécessité d’orienter la personne vers des soins, ou encore de ne pas demander des renseignements supplémentaires à l’utilisateur lorsque cela s’avérait nécessaire. Ces lacunes étaient observées moins souvent que dans les réponses des anciens modèles et des médecins.
Étant donné l’ampleur de l’utilisation de nos modèles dans le secteur de la santé, une autre façon de comprendre les améliorations récentes du modèle consiste à mesurer le trafic de production. Nous utilisons des systèmes de surveillance du trafic de production qui protègent la confidentialité afin de suivre les problèmes possibles de factualité dans les réponses portant sur la santé. D’après une comparaison du trafic de production récent en santé (des milliards de messages par semaine), le taux de réponses comportant au moins un problème de factualité signalé a diminué de 71 % au cours des deux derniers mois.
Comparer les réponses de modèles à différents moments pour des questions de santé réelles montre comment ChatGPT s’est amélioré sur des aspects essentiels dans le secteur de la santé : reconnaître quand une situation peut exiger une intervention urgente, gérer l’incertitude avec un meilleur jugement et donner aux gens des conseils plus clairs et plus utiles sur les prochaines étapes à suivre.
GPT-5.2 Instant
Cliquez sur le nom du modèle pour voir d’autres réponses du modèle.
Ces progrès sont guidés par des médecins qui nous aident à définir, à mesurer et à améliorer les réponses en matière de santé dans ChatGPT.
OpenAI travaille avec un réseau mondial de plus de 260 médecins, répartis dans 60 pays, 49 langues et 26 spécialités médicales. Leurs commentaires éclairent la façon dont ChatGPT répond aux questions de santé dans un large éventail de scénarios, des questions courantes sur le mieux-être aux situations cliniques plus complexes.
Les médecins examinent des exemples de réponses du modèle et évaluent si elles sont exactes, claires, complètes, suffisamment prudentes et utiles. Ils aident à repérer les cas où une réponse peut manquer un contexte important, sembler trop catégorique, manquer de clarté sur les prochaines étapes ou encore ne pas encourager assez clairement une personne à consulter un professionnel de la santé.
À ce jour, des médecins ont examiné plus de 700 000 exemples de réponses du modèle qui reflètent la façon dont les cliniciens et les patients peuvent utiliser ChatGPT dans le monde réel. Toutes les quelques minutes, un médecin examine une nouvelle réponse. Leurs commentaires deviennent des grilles et des critères d’évaluation qui aident les chercheurs à mesurer si les réponses sont exactes, sécuritaires, claires, complètes, suffisamment prudentes et utiles dans des contextes réels liés à la santé. Nous disposons ainsi d’un moyen plus précis de déterminer les aspects dans lesquels les modèles s’améliorent et ceux qui nécessitent encore des progrès.
Ce travail soutient aussi les efforts plus larges d’OpenAI en santé, qui vont des outils aidant les gens à mieux comprendre l’information sur la santé et à s’y retrouver, jusqu’aux outils conçus pour les cliniciens, comme ChatGPT pour les cliniciens et OpenAI pour les soins de santé, qui appuient les professionnels de la santé dans des tâches comme la documentation, la recherche et les consultations cliniques.
L’amélioration de la santé humaine sera l’une des retombées les plus personnelles et les plus concrètes de l’AGI. À mesure que nos modèles continuent de s’améliorer, notre objectif est de rendre ChatGPT plus exact, plus prudent et plus utile dans ces moments, et de continuer à offrir ces progrès à un plus grand nombre de personnes.


