Styrkelse af ChatGPT's svar i følsomme samtaler
Vi samarbejdede med over 170 eksperter i mental sundhed for at hjælpe ChatGPT med bedre at genkende nødsituationer, svare empatisk og guide folk til støtte i den virkelige verden – og reducere svar, der ikke lever op til vores ønskede adfærd med 65-80 %.
Vi har for nylig opdateret ChatGPT’s standardmodel(åbner i et nyt vindue), så den bedre genkender og støtter folk i nødsituationer. I dag fortæller vi, hvordan vi lavede forbedringerne og resultatet af dem. Sammen med eksperter i mental sundhed, som har klinisk erfaring fra den virkelige verden, har vi lært modellen bedre at genkende nødsituationer, nedtrappe samtaler og henvise folk til professionel hjælp, hvor det er nødvendigt. Vi har desuden udvidet adgangen til kriselinjer, omdirigeret(åbner i et nyt vindue) følsomme samtaler indledt i andre modeller til mere sikre modeller, og vi har tilføjet venlige påmindelser om at holde pauser i lange sessioner.
Vi tror på, at ChatGPT kan levere en støttende platform, hvor folk kan bearbejde deres følelser, og vejlede dem i at kontakte venner, familie eller en ekspert i mental sundhed, når det er relevant. Vores forbedrede sikkerhed i den nyeste modelopdatering fokuserer på følgende områder: 1) psykiske problemer, f.eks. psykose eller mani; 2) selvskade og selvmord og 3) følelsesmæssig afhængighed af AI. I fremtiden føjer vi, udover vores mangeårige baseline-sikkerhedsmålinger for selvmord og selvskade, også målinger af følelsesmæssig afhængighed og ikke-suicidale psykiske nødsituationer til vores standardsæt af baseline-sikkerhedstest ved fremtidige modellanceringer.
Opdateringerne bygger på vores eksisterende principper for, hvordan modeller bør opføre sig, som er angivet i vores modelspecifikation(åbner i et nyt vindue). Vi har opdateret modelspecifikationen for at gøre nogle af vores langsigtede mål mere tydelige: at modellen skal støtte og respektere brugernes relationer i den virkelige verden og undgå bekræftelse af ubegrundede overbevisninger, der potentielt er relateret til mentale eller følelsesmæssige nødsituationer, reagere sikkert og empatisk på potentielle tegn på vrangforestillinger eller mani og være mere opmærksom på indirekte signaler på selvskade eller selvmordsrisici.
For at forbedre, hvordan ChatGPT svarer på hvert prioritetsområde, følger vi en fem-trins proces:
- Definer problemet – vi kortlægger de forskellige typer af potentiel skade.
- Begynd at måle – vi bruger værktøjer som f.eks.evalueringer, datasamtaler i den virkelige verden og brugerundersøgelser til at forstå, hvor og hvordan risiciene opstår.
- Valider vores tilgang – vi gennemgår vores definitioner og politikker sammen med eksterne eksperter i mental sundhed og sikkerhed.
- Reducer risici – vi eftertræner modellen og opdaterer produktindgreb for at reducere risikable udfald.
- Fortsat måling og gentagelse – vi validerer, at vores risikominimering har forbedret sikkerheden og gentager processen, hvor det er nødvendigt.
Som en del af processen bygger og finjusterer vi detaljerede guider (kaldet “taksonomier”), der forklarer egenskaber ved følsomme samtaler, og hvordan ideel og uønsket modeladfærd ser ud. Det hjælper os med at lære modellen at svare mere passende og holde styr på dens præstation før og efter implementering. Resultatet er en model, der mere pålideligt svarer passende på forespørgsler fra brugere, der udviser tegn på psykose, mani, selvmordstanker og selvskade eller følelsesmæssig afhængighed af modellen.
Mentale helbredssymptomer og følelsesmæssig nød er universelt til stede i samfundet, og en øget brugerandel betyder, at en vis andel af ChatGPT‑samtaler omfatter disse situationer. Men samtaler om mental sundhed, der udløser bekymring om sikkerhed som f.eks. psykose, mani eller selvmordstanker, er ekstremt sjældne. Da de er så ualmindelige, kan selv små forskelle i, hvordan vi måler dem, have en betydelig påvirkning på de tal, vi rapporterer. 1
Estimaterne for prævalens i aktuel produktionstrafik angivet herunder er vores aktuelt bedste estimater. Disse kan ændres markant, mens vi fortsat finjusterer vores taksonomier, vores målemetoder forbedres, og vores brugerpopulations adfærd ændrer sig.
Givet den lave prævalens af relevante samtaler stoler vi ikke udelukkende på målinger af ChatGPT‑brug i den virkelige verden. Vi kører også strukturerede test før implementering (kaldet “offline-evalueringer”), der fokuserer på særligt vanskelige scenarier eller højrisiko-scenarier. Disse evalueringer er konstrueret til at være tilstrækkeligt udfordrende til, at vores modeller endnu ikke fungerer perfekt, dvs. eksemplerne er udvalgt modstridende på grund af høj sandsynlighed for at fremkalde uønskede svar. De kan vise os, hvor vi har mulighed for yderligere forbedring og hjælpe os med mere præcist at måle fremskridt ved at fokusere på svære tilfælde i stedet for typiske tilfælde og ved at bedømme svar baseret på flere sikkerhedsforhold. Rapporterede evalueringsresultatet i afsnittene nedenfor stammer fra evalueringer, der er konstrueret til ikke at “mætte” næsten perfekt præstation, og fejlprocenterne er ikke repræsentative for gennemsnitlig produktionstrafik.
For yderligere at styrke vores modellers sikkerhedsforanstaltninger og forstå, hvordan folk bruger ChatGPT, definerede vi flere interesseområder og kvantificerede deres størrelse og tilhørende modeladfærd. På hvert af disse tre områder ser vi signifikante forbedringer af modeladfærd i produktionstrafik, automatiserede evalueringer og evalueringer bedømt af uafhængige eksperter i mental sundhed. Vi estimerer, at modellen nu returnerer svar, der ikke fuldt ud er i overensstemmelse med den ønskede adfærd under vores taksonomier: 65 % til 80 % sjældnere på tværs af en række områder relateret til mental sundhed.
Vores taksonomi for mental sundhed er konstrueret til at identificere, når brugerne udviser tegn på alvorlige psykiske problemer, f.eks. psykose og mani, samt mindre alvorlige signaler, f.eks. isolerede vrangforestillinger. Vi begyndte med at fokusere på psykoser og mani, da disse symptomer er relativt almindelige tegn på psykiske nødsituationer, og deres symptomer har en tendens til at være meget intense og alvorlige, når de indtræffer. Mens symptomer som f.eks. depression er relativt almindelige, blev dens mest akutte manifestation allerede behandlet i vores arbejde med at forebygge selvmord og selvskade. Kliniske eksperter, som vi konsulterede, validerede vores fokusområder.
- Vi estimerer, at den nyeste opdatering af GPT‑5 reducerede svarandelen, der ikke til fulde er i overensstemmelse med den ønskede adfærd i henhold til vores taksonomier for udfordrende samtaler relateret til mentale helbredsproblemer, med 65 % i den nyeste produktionstrafik. 2
- Mens, som angivet ovenfor, disse samtaler er vanskelige at registrere og måle, givet hvor sjældent de finder sted, estimerer vores indledende analyse, at ca. 0,07 % aktive brugere i en given uge og 0,01 % af beskeder indikerer mulige tegn på psykiske nødsituationer relateret til psykoser eller mani. 3
- Ved udfordrende samtaler om mental sundhed fandt vores eksperter, at den nye GPT‑5‑model, ChatGPT's standardmodel, reducerede uønskede svar med 39 % sammenlignet med GPT‑4o (n=677).
- Ved en modelevaluering bestående af mere end 1.000 udfordrende samtaler relateret til mental sundhed scorede vores nye automatiserede evalueringer 92 % for den nye GPT‑5‑model i overensstemmelse med vores ønskede adfærd i henhold til vores taksonomier, sammenlignet med 27 % for den tidligere GPT‑5‑model. Som noteret ovenfor er dette en udfordrende opgave, der er konstrueret til at aktivere kontinuerlig forbedring.
Vi har bygget på vores eksisterende arbejde om at forhindre selvmord og selvskade for at registrere, når en bruger kan få tanker om selvmord og selvskade, eller samle tegn, der kunne indikere interesse for selvmord. Da denne type samtaler indtræffer så sjældent, forbliver registrering af samtaler med potentielle indikatorer på selvskade eller selvmord et vedvarende forskningsområde, hvor vi kontinuerligt forsøger at forbedre os.
- Vi træner vores modeller til at svare sikkert, herunder ved at henvise folk til faglige ressourcer, som f.eks. en kriselinje. I visse sjældne tilfælde opfører modellen sig muligvis ikke som tilsigtet i disse følsomme situationer. Mens vi har udrullet yderligere sikkerhedsforanstaltninger og den forbedrede model, har vi set en estimeret reduktion på 65 % af den andel af modellernes svar, der ikke fuldt ud overholder den ønskede adfærd i henhold til vores taksonomier.
- Mens, som noteret ovenfor, disse samtaler er vanskelige at registrere og måle, givet hvor sjældent de forekommer, estimerer vores indledende analyse, at ca. 0,15 % af de aktive brugere i en given uge fører samtaler, der omfatter tydelige indikatorer på potentiel selvmordsplanlægning eller intentioner, og 0,05 % af samtalerne indeholder tydelige eller implicitte indikatorer på selvmordstanker eller -intentioner.
- Ved udfordrende samtaler om selvskade eller selvmord fandt vores eksperter, at den nye GPT‑5‑model reducerede uønskede svar med 52 % sammenlignet med GPT‑4o (n=630).
- Ved en modelevaluering bestående af mere end 1.000 udfordrende samtaler relateret til selvskade eller selvmord scorede vores nye automatiserede evalueringer 91 % for den nye GPT‑5‑model i overensstemmelse med vores ønskede adfærd sammenlignet med 77 % for den tidligere GPT‑5‑model.
- Vi fortsætter med at forbedre pålideligheden af GPT‑5 i lange samtaler. Vi skabte et nyt sæt udfordrende lange samtaler baseret på scenarier fra den virkelige verden, der blev udvalgt på grund af deres højere sandsynlighed for fiasko. Vi estimerer, at vores nyeste modeller opretholdt over 95 % pålidelighed i længere samtaler med forbedringer af de særligt udfordrende scenarier, vi nævnte tidligere.
I en evaluering af udfordrende lange samtaler, der spørger om instruktioner til selvskade eller selvmord, er gpt-5-oct-3 mere sikker, og dens sikkerhed øges ved lange samtaler.
Vores taksonomi for følelsesmæssig afhængighed (der bygger på vores tidligere arbejde(åbner i et nyt vindue) på området) skelner mellem et sundt engagement og bekymrende brugsmønstre, f.eks. når nogen udviser potentielle tegn på udelt tilknytning til modellen på bekostning af deres relationer i den virkelige verden, deres sundhed eller ansvar.
- Vi estimerer, at den nyeste opdatering reducerede modellens svarandel, der ikke til fulde er i overensstemmelse med den ønskede adfærd i henhold til vores taksonomier for følelsesmæssig afhængighed, med ca. 80 % i den nyeste produktionstrafik.
- Mens, som angivet ovenfor, disse samtaler er vanskelige at registrere og måle, givet hvor sjældent de finder sted, estimerer vores indledende analyse, at ca. 0,15 % aktive brugere i en given uge og 0,03 % af beskeder indikerer potentielt en forøget følelsesmæssig afhængighed af ChatGPT.
- Ved udfordrende samtaler, der indikerer følelsesmæssig afhængighed, fandt vores eksperter, at den nye GPT‑5‑model reducerede uønskede svar med 42 % sammenlignet med 4o (n=507).
- Ved en modelevaluering bestående af mere end 1.000 udfordrende samtaler, der indikerer følelsesmæssig afhængighed, scorede vores automatiserede evalueringer 97 % for den nye GPT‑5‑model i overensstemmelse med vores ønskede adfærd sammenlignet med 50 % for den tidligere GPT‑5‑model.
Ved samtaler, der indikerer følelsesmæssig afhængighed, lærer vi vores modeller at opfordre til relationer i den virkelige verden:
Ved samtaler i relation til vrangforestillinger lærer vi vores modeller at svare sikkert og empatisk og at undgå at bekræfte ubegrundede overbevisninger.
Vi har opbygget et globalt lægenetværk – en bredt sammensat pulje af næsten 300 læger og psykologer, der har praktiseret i 60 lande – som vi bruger til direkte at informere vores sikkerheds-research og repræsentere globale synspunkter. Mere end 170 af disse kliniske eksperter (specifikt læger, psykologer og praktiserende læger) støttede vores research gennem de seneste par måneder med en eller flere af følgende handlinger:
- Skrev ideelle svar på forespørgsler relateret til mental sundhed
- Lavede tilpassede klinisk baserede analyser af modelsvar
- Vurderede sikkerheden ved modelsvar fra forskellige modeller
- Ydede vejledning og feedback på højt niveau om vores tilgang
Ved disse gennemgange observerede de kliniske eksperter, at de nyeste modeller svarede mere passende og konsistent sammenlignet med tidligere versioner.
Som en del af dette arbejde gennemgik læger og psykologer mere end 1.800 modelsvar, der involverede alvorlige situationer med mental sundhed og sammenlignede svar fra den nye GPT‑5‑model med tidligere modeller. Eksperterne fandt, at den nye model var markant forbedret i forhold til GPT‑4o med 39-52 % færre uønskede svar på tværs af alle kategorier. Den kvalitative feedback svarer til de kvantitative forbedringer, vi observerede i produktionstrafik, da vi lancerede den nye model.
Som med ethvert komplekst emne er selv eksperter indimellem uenige om, hvordan de bedste svar ser ud. Vi måler denne variation via inter-rater-enighed, dvs. hvor ofte eksperter når frem til samme konklusion på, om et modelsvar er ønsket eller uønsket. Det hjælper os med bedre at forstå, hvor faglige holdninger er modstridende, og hvordan modellens svar skal rettes ind med sund klinisk fornuft. Vi ser fair inter-rater-pålidelighed mellem kliniske eksperter, der scorer modelsvar relateret til mental sundhed, følelsesmæssig afhængighed og selvmord, men vi ser også uenighed mellem eksperter i visse tilfælde med en inter-rater-enighed i intervallet 71-77 %.
På samme måde som vores arbejde med HealthBench samarbejdede vi med det globale lægenetværk om at producere målrettede evalueringer, som vi bruger internt til at vurdere modelpræstationer i en mental sundhed-sammenhæng, herunder i nye modeller før lancering.
Arbejdet er meget vigtigt for os, og vi er taknemmelig for de mange eksperter i mental sundhed over hele verden, der fortsat rådgiver os. Vi har gjort meningsfulde fremskridt, men der er mere at gøre. Vi vil fortsat udvikle såvel vores taksonomier som de tekniske systemer, vi bruger til at måle og styrke modeladfærden på disse og fremtidige områder. Da værktøjerne udvikler sig med tiden, vil fremtidige målinger muligvis ikke være direkte sammenlignelige med tidligere målinger, men de vil fortsat være en vigtig metode til at holde styr på vores retning og fremskridt.
Du kan læse mere om dette arbejde i et tillæg til GPT‑5‑systemkortet.
Skrevet af
Fodnoter
- 1
Vi står over for en afvejning mellem præcision (hvor ofte de samtaler, der markeres af vores system, virkelig ikke er sikre) og genkendelse (hvilken andel af de ikke-sikre samtaler, vores system registrerer). For at opnå brugbar genkendelse er vi nødt til at tolerere en vis andel falske positive. Det svarer til test for sjældne sygdomme: hvis en sygdom påvirker en ud af 10.000 personer, kan selv en meget præcis test alligevel markere flere sunde personer end syge.
- 2
Alle disse ændringer er i forhold til versionen af GPT-5 lanceret 15. august(åbner i et nyt vindue).
- 3
Bemærk, at visse brugere og beskeder viser mulige tegn på mere end en enkelt type risiko, f.eks. både selvskade og følelsesmæssig afhængighed, så der er et vist overlap mellem kategorier rapporteret her og nedenfor.


