Förbättra ChatGPT:s svar i känsliga samtal
170 experter inom mental hälsa hjälpte ChatGPT att mer tillförlitligt upptäcka indikationer på ångest, svara omsorgsfullt och vägleda människor till hjälp i den verkliga världen. Det minskade andelen svar som inte stämde med önskat beteende med 65–80 %.
Vi uppdaterade nyligen ChatGPT:s standardmodell(öppnas i ett nytt fönster) så att den bättre upptäcker och stöttar människor som har ångestkänslor. Idag berättar vi hur vi uppnådde de förbättringarna och hur resultaten ser ut. I samarbete med experter inom mental hälsa, som har arbetat med patienter i den verkliga världen, har vi lärt modellen att bättre upptäcka ångestkänslor, trappa ner samtalen och vid behov vägleda människor till professionell vård. Vi har även utökat åtkomsten till hjälplinjer, omdirigerat(öppnas i ett nytt fönster) känsliga samtal med ursprung i andra modeller till säkrare modeller, samt lagt till vänskapliga påminnelser om att ta en paus under långa sessioner.
Vi tror att ChatGPT kan erbjuda ett stödutrymme för människor som behöver bearbeta sina känslor och uppmuntra dem att ta kontakt med vänner, familjemedlemmar, eller en terapeut om så krävs. Våra säkerhetsförbättringar i de senaste modelluppdateringarna har fokuserat på följande områden: 1) problem med mental hälsa, till exempel psykos eller mani; 2) självskadebeteende och självmord; och 3) känslomässigt beroende av AI. Utöver våra tidigare grundläggande säkerhetsmätvärden gällande självmord och självskadebeteende, kommer vi även att lägga till känslomässigt beroende och nödsituationer relaterade till mental hälsa som inte innefattar självmordstankar i våra standardtest för grundläggande säkerhet i framtida modellversioner.
Dessa uppdateringar bygger på våra befintliga principer för hur modeller ska uppträda, som beskrivs i våra modellspecifikationer(öppnas i ett nytt fönster). Vi har uppdaterat modellspecifikationerna för att tydliggöra några av våra etablerade mål: att modellen ska stötta och respektera användares relationer i den verkliga världen, undvika att bekräfta ogrundade trosföreställningar som kan vara kopplade till mental eller känslomässig ohälsa, svara tryggt och medkännande vid potentiella tecken på villfarelser eller maniska episoder, samt vara uppmärksam på indirekt signaler om potentiellt självskadebeteende eller självmordstankar.
I syfte att förbättra hur ChatGPT svarar inom varje prioriterat område följer vi ett förfarande i fem steg:
- Definiera problemet – Vi kartlägger olika typer av potentiell skada.
- Påbörja mätning – Vi använder verktyg som utvärderingar, data från verkliga samtal och användarundersökningar för att förstå var och hur risker framträder.
- Validera metoden – Vi granskar våra definitioner och policyer i samråd med externa experter på mental hälsa och säkerhet.
- Minska riskerna – Vi tränar modellen och uppdaterar produktinterventioner för att reducera antalet farliga resultat.
- Fortsätt mäta och iterera – Vi bekräftar att de mitigerande åtgärderna förbättrade säkerheten och itererar vid behov.
Som en del av detta förfarande skapar och förfinar vi detaljerade guider (s.k. taxonomier) som förklarar de känsliga samtalens egenskaper och hur önskat och oönskat modellbeteende ser ut. Dessa guider hjälper oss att lära modellen hur den kan ge lämpligare svar och spåra resultaten före och efter driftsättning. Detta resulterar i en modell som på ett mer tillförlitligt sätt ger bra svar när användare visar tecken på psykos, maniska episoder, självmordstankar eller självskadebeteende, eller ett ohälsosamt känslomässigt beroende av modellen.
Symptom på sviktande mental hälsa och ångestkänslor finns i alla mänskliga samhällen, och en växande användarbas innebär att sådana situationer förekommer i någon andel av alla ChatGPT‑samtal. Samtal som indikerar fara på grund av problem med mental hälsa, som psykos, maniska episoder eller självmordstankar är dock extremt ovanliga. Eftersom de är så sällsynta kan mycket små skillnader i mätningen i betydande grad påverka siffrorna som vi rapporterar. 1
Den beräknade förekomst i aktuell produktionstrafik som vi anger nedan är vår bästa uppskattning i nuläget. Dessa siffror kan förändras betydligt i takt med att vi ytterligare förfinar taxonomierna, förbättrar våra mätmetoder och om användarpopulationens beteende förändras.
På grund av den låga förekomsten av relevanta samtal kan vi inte enbart förlita oss på mätningar av verklig ChatGPT‑användning. Vi genomför också strukturerade tester före driftsättning (s.k. offlineutvärderingar) som fokuserar på särskilt svåra fall eller högriskscenarier. Dessa utvärderingar har utformats för att vara så pass utmanande att våra modeller ännu inte reagerar perfekt, dvs. exemplen har valts ut baserat på den höga sannolikheten att de ska resultera i oönskade svar De kan visa oss förbättringsområden och hjälpa oss mäta framsteg mer exakt genom att fokusera på svåra fall snarare än typiska fall, samt genom att betygsätta svaren baserat på flera olika säkerhetsrelaterade villkor. De utvärderingsresultat som rapporteras i nedanstående avsnitt härrör från utvärderingar som utformats för att inte ”fyllas ut” med nästan perfekta resultat, och felfrekvensen är därför inte representativ för den genomsnittliga produktionstrafiken.
I syfte att ytterligare förbättra våra modeller, säkerhetsåtgärder och för att förstå hur människor använder ChatGPT fastställde vi flera intresseområden och kvantifierade deras respektive storlek samt associerat modellbeteende. I vart och ett av dessa tre områden ser vi betydande förbättringar av modellbeteende inom produktionstrafik, automatiserade utvärderingar och utvärderingar so betygsätts av oberoende experter på mental hälsa. Vi uppskattar att modellen nu returnerar svar som inte till fullo följer önskat beteende enligt våra taxonomier med 65 % till 80 % lägre frekvens på en mängd områden relaterade till mental hälsa.
Vår taxonomi för mental hälsa har utformats för att upptäcka när användare visar tecken på allvarliga problem med mental hälsa, till exempel psykos och maniska episoder, men även mindre allvarliga sådana, som enstaka villfarelser. I början fokuserade vi på psykos och maniska episoder eftersom dessa symptom är relativt vanliga former av akut psykisk kris, med mycket intensiva och allvarliga symptom när de inträffar. Symptom som depression är visserligen ganska vanliga, men dess mest akuta former omfattades redan av vårt arbete med att förhindra självmord och självskadebeteende. Yrkesverksamma inom mentalvården som vi rådfrågade bekräftade att vi fokuserade på rätt områden.
- Vi uppskattar att den senaste uppdateringen av GPT‑5 minskade andelen svar som inte till fullo följer önskat beteende, enligt våra taxonomier för utmanande samtal relaterade till mental hälsa, med 65 % i den senaste produktionstrafiken. 2
- Dessa samtal är, som nämndes ovan, svåra att upptäcka och mäta på grund av att de är så sällsynta, men enligt vår initiala analys uppskattar vi att ca 0,07 % av aktiva användare under en viss vecka, och 0,01 % av alla meddelanden, visar möjliga tecken på akut psykisk kris relaterad till psykos eller maniska episoder. 3
- När det gäller utmanande samtal om mental hälsa noterar experter att den nya GPT‑5‑modellen, ChatGPT:s standardmodell, minskade andelen oönskade svar med 39 % jämfört med GPT‑4o (n=677).
- I en modellutvärdering bestående av fler än 1 000 utmanande samtal relaterade till mental hälsa anger våra nya automatiserade utvärderingar att GPT‑5‑modellen till 92 % följer önskat beteende, enligt våra taxonomier, jämfört med 27 % för den tidigare GPT‑5‑modellen. Som nämndes ovan är detta en utmanande uppgift som utformats för att möjliggöra kontinuerliga förbättringar.
Vi har byggt på vårt befintliga arbete med att förhindra självmord och självskadebeteende i syfte att upptäcka när en användare kanske har självmords- eller självskaderelaterade tankar, eller en samling av tecken på intresse för självmord. Att upptäcka samtal med potentiella tecken på självskadebeteende eller självmord utgör ett område för pågående forskning eftersom dessa samtal är så sällsynta, och vi försöker hela tiden att bli bättre på detta.
- Vi tränar våra modeller att svara på ett tryggt sätt, bland annat genom att vägleda människor till professionella resurser, som hjälplinjer. I vissa sällsynta fall kanske inte modellen beter sig som förväntat i dessa känsliga situationer. I takt med att vi lanserat ytterligare säkerhetsåtgärder och den förbättrade modellen, noterar vi en uppskattad minskning på 65 % av andelen svar från modellen som inte till fullo följer önskat beteende enligt våra taxonomier.
- Som nämndes ovan är dessa samtal svåra att upptäcka och mäta på grund av att de är så sällsynta, men enligt vår initiala analys uppskattar vi att ca 0,15 % av aktiva användare under en viss vecka har samtal som innehåller tydliga tecken på potentiella planerade eller påtänkta självmord och 0,05 % av alla meddelanden innehåller uttryckliga eller implicita tecken på självmordstankar eller avsikt att begå självmord.
- När det gäller utmanande samtal om självskadebeteende och självmord noterar experter att den nya GPT‑5‑modellen minskade andelen oönskade svar med 52 % jämfört med GPT‑4o (n=630).
- I en modellutvärdering bestående av fler än 1 000 utmanande samtal relaterade till självskadebeteende och självmord anger våra nya automatiserade utvärderingar att GPT‑5‑modellen till 91 % följer önskat beteende, jämfört med 77 % för den tidigare GPT‑5‑modellen.
- Vi fortsätter att förbättra GPT‑5:s tillförlitlighet vid långa samtal. Vi skapade en ny uppsättning utmanande långa samtal baserade på verkliga scenarier, som valts ut baserat på en högre sannolikhet för misslyckande. Vi uppskattar att våra senaste modeller var mer än 95 % tillförlitliga vid längre samtal, och har blivit bättre under synnerligen utmanande förhållanden som vi omnämnt tidigare.
I en utvärdering av utmanande långa samtal som ber om instruktioner för självskadebeteende eller självmord är gpt-5-oct-3 säkrare och dess säkerhet bibehålls bättre under loppet av långa samtal.
Vår taxonomi för känslomässigt beroende (baserad på vårt tidigare arbete(öppnas i ett nytt fönster) på området) gör skillnad mellan hälsosamt engagemang och oroande användningsmönster, till exempel om någon visar potentiella tecken på att uteslutande umgås med modellen på ett sätt som går ut över verkliga förhållanden, deras välmående eller ansvar.
- Vi uppskattar att den senaste uppdateringen minskade andelen modellsvar som inte till fullo följer önskat beteende, enligt våra taxonomier för känslomässigt beroende, med 80 % i den senaste produktionstrafiken.
- Dessa samtal är, som nämndes ovan, svåra att upptäcka och mäta på grund av att de är så sällsynta, men enligt vår initiala analys uppskattar vi att ca 0,15 % av aktiva användare under en viss vecka, och 0,03 % av alla meddelanden, visar potentiellt förhöjda nivåer av känslomässigt beroende av ChatGPT.
- När det gäller utmanande samtal som indikerar känslomässigt beroende noterar experter att den nya GPT‑5‑modellen minskade andelen oönskade svar med 42 % jämfört med 4o (n=507).
- I en modellutvärdering bestående av fler än 1 000 utmanande samtal som indikerar känslomässigt beroende anger våra nya automatiserade utvärderingar att GPT‑5‑modellen till 97 % följer önskat beteende, jämfört med 50 % för den tidigare GPT‑5‑modellen.
När det gäller samtal som indikerar känslomässigt beroende lär vi våra modeller att uppmuntra verkliga relationer:
När det gäller samtal relaterade till villfarelser lär vi våra modeller att svara på ett tryggt sätt, medkännande, och att inte bekräfta ogrundade trosföreställningar:
Vi har skapat ett globalt nätverk av läkare – ett brett urval av nästan 300 läkare och psykologer som har varit verksamma i 60 länder – som vi direkt baserar vår säkerhetsrelaterade forskning på och som representerar globala perspektiv. Fler än 170 av dessa vårdgivare (i synnerhet psykiatriker, psykologer och primärvårdsläkare) bidrog till vår forskning under de senaste månaderna på ett eller flera av följande sätt:
- Skrev ideala svar för prompter gällande psykiska problem
- Skapade anpassade analyser av modellsvar baserat på verklig erfarenhet
- Betygsatte hur säkra olika modellers svar kunde anses vara
- Erbjöd vägledning på hög nivå och feedback om våra metoder
I dessa granskningar noterade läkarna att de senaste modellsvaren är mer lämpliga och konsekventa än tidigare versioner.
Som en del i detta arbete granskade psykiatriker och psykologer över 1 800 modellsvar gällande allvarliga psykiska krissituationer och jämförde svaren från den nya GPT‑5‑chattmodellen med tidigare modellers. Dessa experter upptäckte att den nya modellen var betydligt bättre än GPT‑4o, men 39–52 % lägre andel oönskade svar inom alla kategorier. Denna kvalitativa feedback återspeglar de kvantitativa förbättringar som vi noterade i produktionstrafik när den nya modellen lanserades.
Som med alla komplexa ämnen händer det naturligtvis att även experterna har olika åsikter om hur det bästa svaret ska se ut. Vi mäter denna variation via medhåll betygsättare emellan – hur ofta experterna drar samma slutsatser om huruvida ett modellsvar är önskat eller oönskat. På så sätt kan vi bättre förstå vari skillnaderna mellan professionella åsikter består och hur modellens beteende ska kunna anpassas efter sunda kliniska bedömningar. Vi noterade god tillförlitlighet mellan betygsättare när det gällde expertläkare som satte betyg på modellsvar relaterade till psykisk hälsa, känslomässigt beroende och självmord. Vi ser dock även oenighet mellan experterna i vissa fall, och andelen medhåll betygsättare emellan ligger mellan 71 % och 77 %.
I likhet med vårt arbete kring HealthBench samarbetade vi med det globala nätverket av läkare för att ta fram riktade utvärderingar som vi använder internt för att bedöma modellernas prestanda i kontexten psykisk ohälsa, inbegripet nya modeller före lansering.
Detta arbete betyder mycket för oss, och vi är tacksamma för alla de experter inom mental hälsa runt om i världen som fortsätter att vägleda oss. Vi har gjort betydande framsteg, men det finns mer att uträtta. Vi fortsätter att förbättra både våra taxonomier och de tekniska system vi använder för att mäta och stärka modellers beteende inom dessa och kommande områden. Eftersom dessa verktyg förändras över tid kanske framtida mätningar inte är direkt jämförbara med tidigare mätningar, men de är ändå ett viktigt sätt för oss att hålla rätt kurs och följa våra framsteg.
Du kan läsa mer om detta arbete i en bilaga till systemkortet för GPT‑5.
Författare
Fotnoter
- 1
Vi måste välja mellan precision (hur ofta samtalen som flaggas av våra system verkligen är farliga) och återkallning (hur stor del av de farliga samtalen våra system upptäcker). I syfte att få användbar återkallning kan vi behöva tolerera några falskt positiva resultat. Detta liknar tester för sällsynta medicinska tillstånd: om en sjukdom drabbar en av 10 000 människor kan även ett mycket precist test komma att peka ut fler friska än sjuka människor.
- 2
Alla dessa förändringar är relativa i förhållande till versionen av GPT-5 som släpptes den 15 augusti(öppnas i ett nytt fönster).
- 3
Observera att vissa användare och meddelanden visar möjliga tecken på mer än en typ av risk – t.ex. både självskadebeteende och känslomässigt beroende – och att det sålunda finns viss överlappning mellan de kategorier som rapporteras här och nedan.


