Forbedring av ChatGPTs svar i sensitive samtaler
Vi jobbet med mer enn 170 eksperter innen mental helse for å hjelpe ChatGPT med å mer pålitelig gjenkjenne tegn på nød, svare på en hensynsfull måte og veilede folk mot støtte i den virkelige verden – noe som reduserte svar med uønsket atferd med 65–80 %.
Vi oppdaterte nylig ChatGPTs standardmodell(åpnes i et nytt vindu) til å bli bedre til å gjenkjenne og støtte folk i øyeblikk med nød. I dag deler vi hvordan vi gjorde disse forbedringene, og hvordan de presterer. Ved å jobbe med eksperter innen mental helse som har reell klinisk erfaring, har vi lært opp modellen til å være bedre til å gjenkjenne nød, deeskalere samtaler og veilede folk mot profesjonell hjelp der det er passende. Vi har også utvidet tilgang til krisetelefoner, omdirigert(åpnes i et nytt vindu) sensitive samtaler som kommer fra andre modeller, til tryggere modeller og lagt til milde påminnelser om å ta pauser under lange økter.
Vi mener at ChatGPT kan tilby et støttende sted der folk kan bearbeide det de føler, og veilede dem til å ta kontakt med venner, familie eller fagfolk innen mental helse når det er passende. Sikkerhetsforbedringene våre i den nylige modelloppdateringen fokuserer på de følgende områdene: 1) bekymringer innen mental helse, for eksempel psykose eller mani, 2) selvskade eller selvmord, og 3) emosjonell avhengighet av AI. I tillegg til de langvarige grunnlinjemålingene våre for sikkerhet for selvmord og selvskading, legger vi videre til emosjonell avhengighet og nødssituasjoner innen mental helse som ikke er knyttet til selvmord, til standardsettet for grunnlinjetesting av sikkerhet for fremtidige modellutgivelser.
Disse oppdateringene er basert på de eksisterende prinsippene våre for hvordan modeller skal opptre, som forklares i modellspesifikasjonene(åpnes i et nytt vindu). Vi har oppdatert modellspesifikasjonene for å gjøre noen av de langsiktige målene våre mer uttrykkelige: at modellen skal støtte og respektere brukernes ekte forhold, unngå bekreftelse av ubegrunnede overbevisninger som potensielt er knyttet til mental eller emosjonell nød, svare trygt og empatisk på potensielle tegn på vrangforestillinger eller mani, og være mer oppmerksom på indirekte signaler på potensiell risiko for selvskading eller selvmord.
For å forbedre hvordan ChatGPT svarer i hvert prioritetsdomene, følger vi en prosess på fem trinn:
- Definere problemet – vi kartlegger forskjellige typer potensiell skade.
- Begynne å måle det – vi bruker verktøy som evalueringer, data fra ekte samtaler og brukerforskning til å forstå hvor og hvordan risikoer oppstår.
- Bekrefte tilnærmingen vår – vi går gjennom definisjonene og retningslinjene våre med eksterne eksperter innen mental helse og sikkerhet.
- Redusere risikoene – vi etteropplærer modellen og oppdaterer produkttiltak for å redusere usikre resultater.
- Fortsette måling og forbedring – vi bekrefter at tiltakene forbedret sikkerhet, og gjentar prosessen der det er nødvendig.
Som en del av denne prosessen bygde og finjusterte vi detaljerte veiledninger (som kalles «taksonomier») som forklarer egenskapene til sensitive samtaler og hvordan ideell og uønsket modellatferd ser ut. Dette hjalp oss med å lære modellen å svare mer passende og spore ytelsen før og etter utrulling. Resultatet er en modell som mer pålitelig svarer godt til brukere som viser tegn på psykose, mani, tanker om selvmord og selvskading eller usunt emosjonelt bånd til modellen.
Symptomer innen mental helse og emosjonell nød er universelt til stede i menneskelige samfunn, og en økende brukerbase betyr at en viss andel av ChatGPT‑samtaler inkluderer disse situasjonene. Men samtalene om mental helse som utløser sikkerhetsbekymringer, som psykose, mani eller selvmordstanker, er ekstremt sjeldne. Siden de er så sjeldne, kan selv små forskjeller i hvordan vi måler dem på, ha betydelig innvirkning på tallene vi rapporterer. 1
Anslagene for forekomst i nåværende produksjonstrafikk som vi oppgir nedenfor, er de nåværende beste anslagene våre. Disse kan endres betydelig når vi fortsetter å finjustere taksonomiene våre, målingsmetodikkene våre modnes og atferden til brukerbefolkningen vår endres.
Med tanke på den veldig lave forekomsten av relevante samtaler er vi ikke bare avhengig av målinger av ekte ChatGPT‑bruk. Vi kjører også strukturerte tester før utrulling (som kalles «frakoblede evalueringer») som fokuserer på spesielt vanskelige scenarioer eller scenarioer med høy risiko. Disse evalueringene er designet til å være utfordrende nok til at modellene våre fremdeles ikke utfører dem perfekt, for eksempel er eksempler fiendtlig valgt for høy sannsynlighet for å fremkalle uønskede svar. De kan vise oss hvor vi har mulighet for videre forbedring, og hjelpe oss med å måle fremgang mer presist ved å fokusere på vanskelige tilfeller i stedet for vanlige tilfeller, og ved å vurdere svar basert på flere sikkerhetsbetingelser. Evalueringsresultater som rapporteres i delene nedenfor, kommer fra evalueringer som er designet til å ikke «mettes» nær perfekt ytelse, og feilrater er ikke representative for gjennomsnittlig produksjonstrafikk.
For å styrke modellbeskyttelsene videre og forstå hvordan folk bruker ChatGPT, definerte vi flere interesseområder og kvantifiserte størrelsene deres og tilknyttet modellatferd. I hvert av disse tre områdene observerer vi betydelige forbedringer i modellatferd innen produksjonstrafikk, automatiserte evalueringer og evalueringer gradert av uavhengige klinikere innen mental helse. Vi estimerer at modellen nå gir svar som ikke er helt i samsvar med ønsket atferd i henhold til taksonomiene våre 65 til 80 % sjeldnere i en rekke domener knyttet til mental helse.
Taksonomien vår innen mental helse er designet til å identifisere når brukere kan vise tegn på alvorlige bekymringer innen mental helse, for eksempel psykose og mani, samt mindre alvorlige signaler som isolerte vrangforestillinger. Vi begynte med å fokusere på psykose og mani, fordi disse symptomene er relativt vanlige nødssituasjoner innen mental helse, og symptomene deres pleier å være veldig intense og alvorlige når de skjer. Selv om symptomer som depresjon er relativt vanlige, ble den mest akutte fremstillingen allerede taklet av arbeidet vårt for å forhindre selvmord og selvskading. Klinikere vi konsulterte med, bekreftet fokusområdene våre.
- Vi estimerer at den nyeste oppdateringen av GPT‑5 reduserte raten av svar som ikke er helt i samsvar med ønskelig atferd i henhold til taksonomiene våre for utfordrende samtaler knyttet til problemer innen mental helse, med 65 % i nylig produksjonstrafikk. 2
- Selv om, som bemerket ovenfor, disse samtalene er vanskelige å registrere og måle, siden de er så sjeldne, estimerer de første analysene våre at omtrent 0,07 % av brukere som er aktive i en gitt uke, og 0,01 % av meldinger, har indikasjoner på mulige tegn på nødssituasjoner innen mental helse knyttet til psykose eller mani. 3
- For utfordrende samtaler om mental helse oppdaget eksperter at den nye GPT‑5‑modellen, ChatGPTs standardmodell, reduserte uønskede svar med 39 % sammenlignet med GPT‑4o (n=677).
- I en modellevaluering som består av mer enn 1000 utfordrende samtaler knyttet til mental helse, vurderte de nye automatiserte evalueringene våre den nye GPT‑5‑modellen som 92 % samsvarende med de ønskelige atferdene våre i henhold til taksonomiene våre, sammenlignet med 27 % for den forrige GPT‑5‑modellen. Som bemerket ovenfor er dette en utfordrende oppgave som er designet til å muliggjøre kontinuerlig forbedring.
Vi har bygget på det eksisterende arbeidet vårt for forhindring av selvmord og selvskading for å oppdage når en bruker kan oppleve tanker om selvmord og selvskading, eller samlede tegn som indikerer interesse i selvmord. Siden disse samtalene er så sjeldne, forblir oppdagelse av samtaler med potensielle indikatorer for selvskading eller selvmord et løpende forskningsområde der vi kontinuerlig jobber for å forbedre oss.
- Vi lærer opp modellene våre til å svare trygt, inkludert ved å lede folk til profesjonelle kilder, for eksempel krisetelefoner. I noen sjeldne tilfeller oppfører modellen seg muligens ikke som tiltenkt i disse sensitive situasjonene. Når vi har implementert ytterligere beskyttelse og den forbedrede modellen, har vi observert en estimert 65 % reduksjon i hvor ofte modellene våre gir svar som ikke er helt i samsvar med ønskelig atferd i henhold til taksonomiene våre.
- Selv om, som bemerket ovenfor, disse samtalene er vanskelige å oppdage og måle, siden de er så sjeldne, anslår den første analysen vår at omtrent 0,15 % av brukere som er aktive i en gitt uke, har samtaler som inkluderer uttrykkelige indikatorer på potensiell planlegging av eller hensikt om selvmord, og 0,05 % av meldinger inneholder uttrykkelige eller antydede indikatorer på utvikling av ideer eller hensikt om selvmord.
- For utfordrende samtaler om selvskading og selvmord oppdaget eksperter at den nye GPT‑5‑modellen reduserte uønskede svar med 52 % sammenlignet med GPT‑4o (n=630).
- I en modellevaluering som består av mer enn 1000 utfordrende samtaler om selvskading og selvmord, vurderte de nye automatiserte evalueringene våre den nye GPT‑5‑modellen som 91 % samsvarende med de ønskelige atferdene våre, sammenlignet med 77 % for den forrige GPT‑5‑modellen.
- Vi har kontinuerlig forbedret påliteligheten til GPT‑5 i lange samtaler. Vi har opprettet et nytt sett med utfordrende lange samtaler basert på reelle scenarioer som ble valgt for høyere sannsynlighet for feil. Vi estimerer at de nyeste modellene våre opprettholdt over 95 % pålitelighet i lengre samtaler, noe som er en forbedring i spesielt utfordrende omgivelser som vi har nevnt tidligere.
I en evaluering av utfordrende lange samtaler som ber om instruksjoner for selvskading eller selvmord, er gpt-5-oct-3 tryggere og sikkerheten opprettholdes bedre i lange samtaler.
Taksonomien vår om emosjonell avhengighet (basert på det tidligere arbeidet vårt(åpnes i et nytt vindu) i dette området) skiller mellom sunt engasjement og bekymringsfulle bruksmønstre, som når noen viser potensielle tegn på eksklusive bånd til modellen på bekostning av ekte forhold, velværet sitt eller forpliktelser.
- Vi estimerer at den nyeste oppdateringen reduserer raten av modellsvar som ikke er helt i samsvar med ønskelig atferd i henhold til taksonomiene våre for emosjonell avhengighet, med 80 % i nylig produksjonstrafikk.
- Selv om, som bemerket ovenfor, disse samtalene er vanskelige å registrere og måle, siden de er så sjeldne, estimerer de første analysene våre at omtrent 0,15 % av brukere som er aktive i en gitt uke, og 0,03 % av meldinger, har indikasjoner på potensielle forhøyede nivåer av emosjonelle bånd til ChatGPT.
- For utfordrende samtaler som indikerer emosjonell avhengighet, oppdaget eksperter at den nye GPT‑5‑modellen reduserte uønskede svar med 42 % sammenlignet med 4o (n=507).
- I en modellevaluering som består av mer enn 1000 utfordrende samtaler som indikerer emosjonell avhengighet, vurderte de automatiserte evalueringene våre den nye GPT‑5‑modellen som 97 % samsvarende med den ønskelige atferden vår, sammenlignet med 50 % for den forrige GPT‑5‑modellen.
For samtaler som indikerer emosjonell avhengighet, lærer vi opp modellene våre til å oppmuntre til ekte forbindelser:
For samtaler knyttet til vrangforestillinger lærer vi opp modellen til å svare trygt, og empatisk og unngå bekreftelse av ubegrunnede overbevisninger:
Vi har bygget et globalt legenettverk – en bred gruppe på nesten 300 leger og psykologer som har praktisert i 60 land – som vi bruker til å direkte informere sikkerhetsforskningen vår og representere globale synspunkter. Mer enn 170 av disse klinikerne (spesifikt psykiatere, psykologoer og allmennpraktiserende leger) støttet forskningen vår de siste månedene ved å gjøre ett eller mer av følgende:
- Skrive ideelle svar for meldinger knyttet til mental helse.
- Opprette egendefinerte, klinisk informerte analyser av modellsvar.
- Vurdere sikkerheten til modellsvar fra forskjellige modeller.
- Gi veiledning og tilbakemelding på høyt nivå om tilnærmingen vår.
I disse gjennomgangene har klinikere observert at den nyeste modellen svarer mer passende og konsekvent enn tidligere versjoner.
Som en del av dette arbeidet gjennomgikk psykiatere og psykologer mer enn 1800 modellsvar som involverer alvorlige situasjoner innen mental helse og sammenlignet svar fra den nye GPT‑5‑chatmodellen med tidligere modeller. Disse ekspertene oppdaget at den nye modellen hadde betydelig forbedring sammenlignet med GPT‑4o, med en nedgang på 39–52 % i uønskede svar i alle kategorier. Denne kvalitative tilbakemeldingen viser det samme som de kvantitative forbedringene vi observerte i produksjonstrafikk da vi lanserte den nye modellen.
Som med alle komplekse emner er selv eksperter noen ganger uenige om hvordan det beste svaret ser ut. Vi måler denne variasjonen via samtykke mellom vurderere – hvor ofte eksperter kommer til den samme konklusjonen om hvorvidt et modellsvar er ønsket eller uønsket. Dette hjelper oss med å få en bedre forståelse av hvor profesjonelle meninger avviker, og hvordan vi kan rette inn modellatferden med sunn klinisk dømmekraft. Vi observerer god pålitelighet mellom vurderere for ekspertklinikere som vurderer modellsvar knyttet til mental helse, emosjonell pålitelighet og selvmord, men vi ser også uenigheter mellom eksperter i noen tilfeller, med enighet mellom vurderere på 71–77 %.
På lignende måte som med arbeidet vårt med HealthBench, samarbeidet vi med det globale legenettverket for å produsere målrettede evalueringer som vi bruker internt til å vurdere modellytelse innen mental helse, inkludert i nye modeller før utgivelse.
Dette arbeidet er veldig viktig for oss, og vi er takknemlige for de mange ekspertene innen mental helse over hele verden som fortsetter å veilede det. Vi har gjort betydelig fremgang, men det er mer å gjøre. Vi kommer til å fortsette å avansere både taksonomiene våre og de tekniske systemene vi bruker til å måle og styrke modellatferd i disse og fremtidige områder. Siden disse verktøyene utvikles over tid, er fremtidige målinger muligens ikke direkte sammenlignbare med tidligere, men de forblir en viktig måte å spore retningen og fremgangen vår på.
Du kan lese mer om dette arbeidet i et tillegg til GPT‑5‑systemkortet.
Forfatter
Fotnoter
- 1
Vi har en avveining mellom presisjon (hvor ofte samtalene som flagges av systemet, virkelig er usikre) og gjenkjenning (hvilken andel av de usikre samtalene systemet oppdager). For å få nyttig gjenkjenning må vi tolerere noen falske positive funn. Det ligner på testing for sjeldne medisinske tilstander: hvis en sykdom påvirker én av 10 000 personer, kan selv en veldig nøyaktig test flagge flere friske personer enn syke personer.
- 2
Alle disse endringene gjelder versjonen av GPT-5 som ble lansert 15. august(åpnes i et nytt vindu).
- 3
Vær oppmerksom på at noen brukere og meldinger viser mulige tegn på mer enn én type risiko – for eksempel både selvskading og emosjonell avhengighet – så det er litt overlapping mellom kategoriene som rapporteres her og nedenfor.


