Forbedring af sundhedsintelligens i ChatGPT
GPT‑5.5 Instant bringer sundhedsintelligens på frontier-niveau ud til flere, drevet af bedre modeller og lægeledet evaluering.
Sundhed er en af de mest meningsfulde måder, mennesker bruger ChatGPT på. Hver uge henvender mere end 230 millioner mennesker sig til ChatGPT for at få hjælp til spørgsmål om sundhed og trivsel: at forstå sundhedsinformation, forstå laboratoriesvar, forberede sig til aftaler, navigere i forsikring, opbygge sundere vaner og finde ud af, hvad de skal spørge om som det næste.
Med GPT‑5.5 Instant ser vi et betydeligt fremskridt i, hvordan modellen håndterer sundhedsspørgsmål, med forbedringer i at genkende, hvornår akut hjælp kan være nødvendig, spørge efter relevant kontekst, forklare usikkerhed og gøre kompleks information lettere at forstå. I vores mest krævende sundhedsevalueringer præsterer GPT‑5.5 Instant nu på et niveau, der kan sammenlignes med vores førende Thinking-modeller. Fordi den er tilgængelig for gratisbrugere i ChatGPT, kan flere få gavn af disse forbedringer. Det kan betyde sundhedsinformation, der er lettere at forstå, bedre spørgsmål at stille og klare næste skridt.
Fremskridtet afspejler både udviklingen i modelkapaciteter og det lægeledede arbejde bag vores sundhedsevalueringer. På tværs af vores indsats hjælper et globalt netværk af læger med at definere, hvordan »godt« ser ud i virkelige sundhedssituationer, ved at gennemgå eksempler på model-svar, beskrive ideel adfærd og identificere fejlmønstre. Samarbejdet med læger giver os en måde at måle fremskridt inden for sundhed på og forbedre, hvordan ChatGPT svarer over tid.
Inden for sundhed betyder fremskridt at levere svar, der er korrekte, forståelige og bygger på god dømmekraft: at genkende, når der er behov for mere kontekst, forklare usikkerhed uden at overdrive sikkerheden og hjælpe mennesker med at forstå, hvornår de bør søge behandling.
For at måle disse fremskridt bruger vi sundhedsspecifikke evalueringer, herunder HealthBench og HealthBench Professional. Disse evalueringer bruger realistiske sundhedssamtaler og vurderingskriterier skrevet af læger til at vurdere kvaliteter som korrekthed, sikkerhed, kommunikation, kontekstbevidsthed, fuldstændighed og passende eskalering.
GPT‑5.5 Instant opnår sundhedspræstation på niveau med vores nyeste førende modeller på et samlet sæt sundhedsevalueringer, herunder HealthBench Professional, med en markant forbedring fra GPT‑5.3 Instant. 5.5 Instant (udgivet maj 2026) og 5.3 Instant (udgivet marts 2026) er tilgængelige for alle gratisbrugere i ChatGPT (underlagt begrænsninger), og vi bruger API-priser til at beregne omkostningen for 5.4 Thinking og 5.5 Thinking.
Som en anden sammenligning bad vi også læger om at skrive svar til repræsentative sundhedssamtaler med ubegrænset tid og adgang til internettet (men ikke AI). Et separat panel af læger sammenlignede derefter disse lægesvar med Instant-modeller over tid og gennemgik kvaliteter, der betyder noget i reelle interaktioner, herunder korrekthed, kommunikation, fuldstændighed, efterlevelse af instruktioner og hjælp til sundhedsbeslutninger, på tværs af 3500 gennemgåede svar.
GPT‑5.5 Instant-svar blev vurderet højere end lægeskrevne svar og svar fra ældre modeller på tværs af dimensionerne i denne evaluering.
Læger vurderede, at GPT‑5.5 Instant-svar havde færre fejlmønstre end svar fra ældre modeller og læger. For eksempel havde GPT 5.5 Instant færre tilfælde af manglende tilpasning til den lokale sundhedskontekst, oversete advarselstegn eller behov for henvisning til behandling eller manglende indhentning af yderligere kontekst fra brugeren, når det var nødvendigt, end både ældre modeller og læger.
I betragtning af hvor meget vores modeller bruges inden for sundhed, er en anden måde at forstå de seneste model-forbedringer på at måle produktionstrafik. Vi bruger privatlivsbeskyttende overvågning af produktionstrafik til at spore mulige problemer med faktuel korrekthed i sundhedssvar. Baseret på en sammenligning af den seneste produktionstrafik inden for sundhed – milliarder af beskeder om ugen – er andelen af svar med mindst ét markeret problem med faktuel korrekthed faldet med 71 % i de seneste to måneder.
En sammenligning af svar fra modeller på forskellige tidspunkter på tværs af sundhedsspørgsmål fra den virkelige verden viser, hvordan ChatGPT er blevet bedre på måder, der betyder noget for sundhed: at genkende, når en situation kan kræve akut opmærksomhed, håndtere usikkerhed med bedre dømmekraft og give mennesker tydeligere og mere brugbar vejledning om, hvad de skal gøre som det næste.
GPT-5.2 Instant
Klik på modelnavnet for at se flere model-svar.
Disse fremskridt formes af læger, der hjælper os med at definere, måle og forbedre sundhedssvar i ChatGPT.
OpenAI samarbejder med et globalt netværk af mere end 260 læger på tværs af 60 lande, 49 sprog og 26 medicinske specialer. Deres feedback påvirker, hvordan ChatGPT besvarer sundhedsspørgsmål på tværs af mange forskellige scenarier, fra hverdagslige spørgsmål om trivsel til mere komplekse kliniske situationer.
Læger gennemgår eksempler på model-svar og vurderer, om de er korrekte, klare, fuldstændige, passende forsigtige og nyttige. De hjælper med at identificere, hvor et svar kan mangle vigtig kontekst, hvor det kan lyde for selvsikkert, hvor det bør være tydeligere om næste skridt eller mere direkte opfordre nogen til at søge lægehjælp.
Til dato har læger gennemgået mere end 700.000 eksempler på model-svar, der afspejler, hvordan klinikere og patienter kan bruge ChatGPT i den virkelige verden. Med få minutters mellemrum gennemgår en læge et nyt svar. Deres feedback bliver til vurderingsskemaer og evalueringskriterier, der hjælper forskere med at måle, om svar er korrekte, sikre, klare, fuldstændige, passende forsigtige og nyttige i virkelige sundhedssituationer. Det giver os en klarere måde at se, hvor modellerne bliver bedre, og hvor de stadig kræver arbejde.
Dette arbejde understøtter også OpenAIs bredere arbejde med sundhed, fra værktøjer, der hjælper mennesker med bedre at forstå og navigere i sundhedsinformation, til værktøjer bygget til klinikere, såsom ChatGPT til klinikere og OpenAI til sundhedsvæsenet, som hjælper sundhedsprofessionelle med opgaver som dokumentation, forskning og rådgivning om behandling.
Forbedring af menneskers sundhed bliver en af de mest personlige og håndgribelige virkninger af AGI. Efterhånden som vores modeller fortsætter med at blive bedre, er vores mål at gøre ChatGPT mere præcis, mere forsigtig og mere nyttig i disse øjeblikke – og at blive ved med at bringe disse fremskridt ud til flere mennesker.


