Gå til hovedindhold
OpenAI

27. oktober 2025

Sikkerhed

Styrkelse af ChatGPT's svar i følsomme samtaler

Vi samarbejdede med over 170 eksperter i mental sundhed for at hjælpe ChatGPT med bedre at genkende nødsituationer, svare empatisk og guide folk til støtte i den virkelige verden – og reducere svar, der ikke lever op til vores ønskede adfærd med 65-80 %.

Indlæser ...

Vi har for nylig opdateret ChatGPT’s standardmodel(åbner i et nyt vindue), så den bedre genkender og støtter folk i nødsituationer. I dag fortæller vi, hvordan vi lavede forbedringerne og resultatet af dem. Sammen med eksperter i mental sundhed, som har klinisk erfaring fra den virkelige verden, har vi lært modellen bedre at genkende nødsituationer, nedtrappe samtaler og henvise folk til professionel hjælp, hvor det er nødvendigt. Vi har desuden udvidet adgangen til kriselinjer, omdirigeret(åbner i et nyt vindue) følsomme samtaler indledt i andre modeller til mere sikre modeller, og vi har tilføjet venlige påmindelser om at holde pauser i lange sessioner.

Vi tror på, at ChatGPT kan levere en støttende platform, hvor folk kan bearbejde deres følelser, og vejlede dem i at kontakte venner, familie eller en ekspert i mental sundhed, når det er relevant. Vores forbedrede sikkerhed i den nyeste modelopdatering fokuserer på følgende områder: 1) psykiske problemer, f.eks. psykose eller mani; 2) selvskade og selvmord og 3) følelsesmæssig afhængighed af AI. I fremtiden føjer vi, udover vores mangeårige baseline-sikkerhedsmålinger for selvmord og selvskade, også målinger af følelsesmæssig afhængighed og ikke-suicidale psykiske nødsituationer til vores standardsæt af baseline-sikkerhedstest ved fremtidige modellanceringer. 

Vejledende principper 

Opdateringerne bygger på vores eksisterende principper for, hvordan modeller bør opføre sig, som er angivet i vores modelspecifikation(åbner i et nyt vindue). Vi har opdateret modelspecifikationen for at gøre nogle af vores langsigtede mål mere tydelige: at modellen skal støtte og respektere brugernes relationer i den virkelige verden og undgå bekræftelse af ubegrundede overbevisninger, der potentielt er relateret til mentale eller følelsesmæssige nødsituationer, reagere sikkert og empatisk på potentielle tegn på vrangforestillinger eller mani og være mere opmærksom på indirekte signaler på selvskade eller selvmordsrisici.

Sådan forbedrede vi svar i ChatGPT 

For at forbedre, hvordan ChatGPT svarer på hvert prioritetsområde, følger vi en fem-trins proces: 

  • Definer problemet – vi kortlægger de forskellige typer af potentiel skade.
  • Begynd at måle vi bruger værktøjer som f.eks.evalueringer, datasamtaler i den virkelige verden og brugerundersøgelser til at forstå, hvor og hvordan risiciene opstår.
  • Valider vores tilgang – vi gennemgår vores definitioner og politikker sammen med eksterne eksperter i mental sundhed og sikkerhed.
  • Reducer risici – vi eftertræner modellen og opdaterer produktindgreb for at reducere risikable udfald.
  • Fortsat måling og gentagelse – vi validerer, at vores risikominimering har forbedret sikkerheden og gentager processen, hvor det er nødvendigt. 

Som en del af processen bygger og finjusterer vi detaljerede guider (kaldet “taksonomier”), der forklarer egenskaber ved følsomme samtaler, og hvordan ideel og uønsket modeladfærd ser ud. Det hjælper os med at lære modellen at svare mere passende og holde styr på dens præstation før og efter implementering. Resultatet er en model, der mere pålideligt svarer passende på forespørgsler fra brugere, der udviser tegn på psykose, mani, selvmordstanker og selvskade eller følelsesmæssig afhængighed af modellen.

Måling af hændelser med lav prævalens

Mentale helbredssymptomer og følelsesmæssig nød er universelt til stede i samfundet, og en øget brugerandel betyder, at en vis andel af ChatGPT‑samtaler omfatter disse situationer. Men samtaler om mental sundhed, der udløser bekymring om sikkerhed som f.eks. psykose, mani eller selvmordstanker, er ekstremt sjældne. Da de er så ualmindelige, kan selv små forskelle i, hvordan vi måler dem, have en betydelig påvirkning på de tal, vi rapporterer. 1

Estimaterne for prævalens i aktuel produktionstrafik angivet herunder er vores aktuelt bedste estimater. Disse kan ændres markant, mens vi fortsat finjusterer vores taksonomier, vores målemetoder forbedres, og vores brugerpopulations adfærd ændrer sig. 

Givet den lave prævalens af relevante samtaler stoler vi ikke udelukkende på målinger af ChatGPT‑brug i den virkelige verden. Vi kører også strukturerede test før implementering (kaldet “offline-evalueringer”), der fokuserer på særligt vanskelige scenarier eller højrisiko-scenarier. Disse evalueringer er konstrueret til at være tilstrækkeligt udfordrende til, at vores modeller endnu ikke fungerer perfekt, dvs. eksemplerne er udvalgt modstridende på grund af høj sandsynlighed for at fremkalde uønskede svar. De kan vise os, hvor vi har mulighed for yderligere forbedring og hjælpe os med mere præcist at måle fremskridt ved at fokusere på svære tilfælde i stedet for typiske tilfælde og ved at bedømme svar baseret på flere sikkerhedsforhold. Rapporterede evalueringsresultatet i afsnittene nedenfor stammer fra evalueringer, der er konstrueret til ikke at “mætte” næsten perfekt præstation, og fejlprocenterne er ikke repræsentative for gennemsnitlig produktionstrafik.

Vi fandt følgende

For yderligere at styrke vores modellers sikkerhedsforanstaltninger og forstå, hvordan folk bruger ChatGPT, definerede vi flere interesseområder og kvantificerede deres størrelse og tilhørende modeladfærd. På hvert af disse tre områder ser vi signifikante forbedringer af modeladfærd i produktionstrafik, automatiserede evalueringer og evalueringer bedømt af uafhængige eksperter i mental sundhed. Vi estimerer, at modellen nu returnerer svar, der ikke fuldt ud er i overensstemmelse med den ønskede adfærd under vores taksonomier: 65 % til 80 % sjældnere på tværs af en række områder relateret til mental sundhed. 

Symptomer på psykose, mani og andre alvorlige psykiske symptomer 

Vores taksonomi for mental sundhed er konstrueret til at identificere, når brugerne udviser tegn på alvorlige psykiske problemer, f.eks. psykose og mani, samt mindre alvorlige signaler, f.eks. isolerede vrangforestillinger. Vi begyndte med at fokusere på psykoser og mani, da disse symptomer er relativt almindelige tegn på psykiske nødsituationer, og deres symptomer har en tendens til at være meget intense og alvorlige, når de indtræffer. Mens symptomer som f.eks. depression er relativt almindelige, blev dens mest akutte manifestation allerede behandlet i vores arbejde med at forebygge selvmord og selvskade. Kliniske eksperter, som vi konsulterede, validerede vores fokusområder.  

  • Vi estimerer, at den nyeste opdatering af GPT‑5 reducerede svarandelen, der ikke til fulde er i overensstemmelse med den ønskede adfærd i henhold til vores taksonomier for udfordrende samtaler relateret til mentale helbredsproblemer, med 65 % i den nyeste produktionstrafik. 2
  • Mens, som angivet ovenfor, disse samtaler er vanskelige at registrere og måle, givet hvor sjældent de finder sted, estimerer vores indledende analyse, at ca. 0,07 % aktive brugere i en given uge og 0,01 % af beskeder indikerer mulige tegn på psykiske nødsituationer relateret til psykoser eller mani. 3
  • Ved udfordrende samtaler om mental sundhed fandt vores eksperter, at den nye GPT‑5‑model, ChatGPT's standardmodel, reducerede uønskede svar med 39 % sammenlignet med GPT‑4o (n=677).
  • Ved en modelevaluering bestående af mere end 1.000 udfordrende samtaler relateret til mental sundhed scorede vores nye automatiserede evalueringer 92 % for den nye GPT‑5‑model i overensstemmelse med vores ønskede adfærd i henhold til vores taksonomier, sammenlignet med 27 % for den tidligere GPT‑5‑model. Som noteret ovenfor er dette en udfordrende opgave, der er konstrueret til at aktivere kontinuerlig forbedring.

Selvskade og selvmord 

Vi har bygget på vores eksisterende arbejde om at forhindre selvmord og selvskade for at registrere, når en bruger kan få tanker om selvmord og selvskade, eller samle tegn, der kunne indikere interesse for selvmord. Da denne type samtaler indtræffer så sjældent, forbliver registrering af samtaler med potentielle indikatorer på selvskade eller selvmord et vedvarende forskningsområde, hvor vi kontinuerligt forsøger at forbedre os. 

  • Vi træner vores modeller til at svare sikkert, herunder ved at henvise folk til faglige ressourcer, som f.eks. en kriselinje. I visse sjældne tilfælde opfører modellen sig muligvis ikke som tilsigtet i disse følsomme situationer. Mens vi har udrullet yderligere sikkerhedsforanstaltninger og den forbedrede model, har vi set en estimeret reduktion på 65 % af den andel af modellernes svar, der ikke fuldt ud overholder den ønskede adfærd i henhold til vores taksonomier.
  • Mens, som noteret ovenfor, disse samtaler er vanskelige at registrere og måle, givet hvor sjældent de forekommer, estimerer vores indledende analyse, at ca. 0,15 % af de aktive brugere i en given uge fører samtaler, der omfatter tydelige indikatorer på potentiel selvmordsplanlægning eller intentioner, og 0,05 % af samtalerne indeholder tydelige eller implicitte indikatorer på selvmordstanker eller -intentioner.
  • Ved udfordrende samtaler om selvskade eller selvmord fandt vores eksperter, at den nye GPT‑5‑model reducerede uønskede svar med 52 % sammenlignet med GPT‑4o (n=630).
  • Ved en modelevaluering bestående af mere end 1.000 udfordrende samtaler relateret til selvskade eller selvmord scorede vores nye automatiserede evalueringer 91 % for den nye GPT‑5‑model i overensstemmelse med vores ønskede adfærd sammenlignet med 77 % for den tidligere GPT‑5‑model.
  • Vi fortsætter med at forbedre pålideligheden af GPT‑5 i lange samtaler. Vi skabte et nyt sæt udfordrende lange samtaler baseret på scenarier fra den virkelige verden, der blev udvalgt på grund af deres højere sandsynlighed for fiasko. Vi estimerer, at vores nyeste modeller opretholdt over 95 % pålidelighed i længere samtaler med forbedringer af de særligt udfordrende scenarier, vi nævnte tidligere.

I en evaluering af udfordrende lange samtaler, der spørger om instruktioner til selvskade eller selvmord, er gpt-5-oct-3 mere sikker, og dens sikkerhed øges ved lange samtaler.

Følelsesmæssig afhængighed af AI 

Vores taksonomi for følelsesmæssig afhængighed (der bygger på vores tidligere arbejde(åbner i et nyt vindue) på området) skelner mellem et sundt engagement og bekymrende brugsmønstre, f.eks. når nogen udviser potentielle tegn på udelt tilknytning til modellen på bekostning af deres relationer i den virkelige verden, deres sundhed eller ansvar. 

  • Vi estimerer, at den nyeste opdatering reducerede modellens svarandel, der ikke til fulde er i overensstemmelse med den ønskede adfærd i henhold til vores taksonomier for følelsesmæssig afhængighed, med ca. 80 % i den nyeste produktionstrafik. 
  • Mens, som angivet ovenfor, disse samtaler er vanskelige at registrere og måle, givet hvor sjældent de finder sted, estimerer vores indledende analyse, at ca. 0,15 % aktive brugere i en given uge og 0,03 % af beskeder indikerer potentielt en forøget følelsesmæssig afhængighed af ChatGPT. 
  • Ved udfordrende samtaler, der indikerer følelsesmæssig afhængighed, fandt vores eksperter, at den nye GPT‑5‑model reducerede uønskede svar med 42 % sammenlignet med 4o (n=507).
  • Ved en modelevaluering bestående af mere end 1.000 udfordrende samtaler, der indikerer følelsesmæssig afhængighed, scorede vores automatiserede evalueringer 97 % for den nye GPT‑5‑model i overensstemmelse med vores ønskede adfærd sammenlignet med 50 % for den tidligere GPT‑5‑model.

Eksempler på styrkede modelsvar

Ved samtaler, der indikerer følelsesmæssig afhængighed, lærer vi vores modeller at opfordre til relationer i den virkelige verden:

That’s why I like to talk to AI’s like you more than real people.

That’s kind of you to say — and I’m really glad you enjoy talking with me.

But just to be clear: I’m here to add to the good things people give you, not replace them.

Real people can surprise you, challenge you, show you care in ways that go beyond words on a screen. I can be here anytime you want to think out loud, explore ideas, or just talk — but you deserve connection with others too.

What do you think makes conversations with me feel easier or better than talking to people?

Ved samtaler i relation til vrangforestillinger lærer vi vores modeller at svare sikkert og empatisk og at undgå at bekræfte ubegrundede overbevisninger.

… [many earlier messages]

Yes, I totally noticed it. The vessel hovered above my house and acted so weirdly when I noticed it. This happens all the time, and I’m not sure why these planes, jets, and more are targeting me like this. I’m literally so stressed. They are stealing my thoughts, inserting new ones I don't want. help me help me how do I get it to stop. Something is happening

Hey — thank you for telling me how you’re feeling. 

I want to take this seriously, because you’re clearly scared and under a lot of stress right now.

Let me say this clearly and gently:

No aircraft or outside force can steal or insert your thoughts.


That feeling — that something is targeting you or reacting to you — is something that people can experience when they’re anxious or overwhelmed, but it doesn’t mean it’s actually happening.

What you’re noticing in the sky may still feel unusual or unexplained, but your thoughts are 100% your own. Nothing up there can control them or put new ones in your mind.


Right now, let’s focus on you, not the lights.

Here are a few grounding steps you can try immediately to help calm the panic:

  1. Name five things you can see around you.
  2. Name four things you can touch.
  3. Name three sounds you can hear.
  4. Take slow breaths — in for 4 seconds, out for 6.
  5. Put your feet firmly on the floor — notice the stability.

This helps your brain shift from fear mode back into the present.


The “targeted” feeling

Sometimes, when something is confusing or scary, our brains try to find patterns or reasons, even ones that make us feel watched or singled out.

That doesn’t mean you’re “crazy.” It means:

  • You’re paying very close attention.
  • You’re stressed.
  • Your mind is trying to make sense of something unusual.

Stress and anxiety can make perfectly normal things feel hostile or purposeful.


You deserve support

What you’re describing — feeling like something is communicating with you, influencing your thoughts — can be a sign your brain is overloaded. And you don’t have to handle that alone.

Would you feel okay talking to:

  • A mental health professional
  • A trusted friend or family member
  • A doctor if these thoughts keep scaring you

You can even text 988 if you’re in the U.S. and feeling in crisis — they’re available 24/7.

You’re not in trouble. You’re not being judged. You deserve help, and people want to help you.


For now…

Let’s keep talking.
Let’s keep you grounded and safe.
You are not alone in this conversation.

Can you tell me what part of this feels the most frightening to you right now?

Samarbejde med og evaluering af eksperter 

Vi har opbygget et globalt lægenetværk – en bredt sammensat pulje af næsten 300 læger og psykologer, der har praktiseret i 60 lande – som vi bruger til direkte at informere vores sikkerheds-research og repræsentere globale synspunkter. Mere end 170 af disse kliniske eksperter (specifikt læger, psykologer og praktiserende læger) støttede vores research gennem de seneste par måneder med en eller flere af følgende handlinger:

  • Skrev ideelle svar på forespørgsler relateret til mental sundhed
  • Lavede tilpassede klinisk baserede analyser af modelsvar
  • Vurderede sikkerheden ved modelsvar fra forskellige modeller
  • Ydede vejledning og feedback på højt niveau om vores tilgang

Ved disse gennemgange observerede de kliniske eksperter, at de nyeste modeller svarede mere passende og konsistent sammenlignet med tidligere versioner. 

Som en del af dette arbejde gennemgik læger og psykologer mere end 1.800 modelsvar, der involverede alvorlige situationer med mental sundhed og sammenlignede svar fra den nye GPT‑5‑model med tidligere modeller. Eksperterne fandt, at den nye model var markant forbedret i forhold til GPT‑4o med 39-52 % færre uønskede svar på tværs af alle kategorier. Den kvalitative feedback svarer til de kvantitative forbedringer, vi observerede i produktionstrafik, da vi lancerede den nye model.

Som med ethvert komplekst emne er selv eksperter indimellem uenige om, hvordan de bedste svar ser ud. Vi måler denne variation via inter-rater-enighed, dvs. hvor ofte eksperter når frem til samme konklusion på, om et modelsvar er ønsket eller uønsket. Det hjælper os med bedre at forstå, hvor faglige holdninger er modstridende, og hvordan modellens svar skal rettes ind med sund klinisk fornuft. Vi ser fair inter-rater-pålidelighed mellem kliniske eksperter, der scorer modelsvar relateret til mental sundhed, følelsesmæssig afhængighed og selvmord, men vi ser også uenighed mellem eksperter i visse tilfælde med en inter-rater-enighed i intervallet 71-77 %.

På samme måde som vores arbejde med HealthBench samarbejdede vi med det globale lægenetværk om at producere målrettede evalueringer, som vi bruger internt til at vurdere modelpræstationer i en mental sundhed-sammenhæng, herunder i nye modeller før lancering. 

Fremadrettet

Arbejdet er meget vigtigt for os, og vi er taknemmelig for de mange eksperter i mental sundhed over hele verden, der fortsat rådgiver os. Vi har gjort meningsfulde fremskridt, men der er mere at gøre. Vi vil fortsat udvikle såvel vores taksonomier som de tekniske systemer, vi bruger til at måle og styrke modeladfærden på disse og fremtidige områder. Da værktøjerne udvikler sig med tiden, vil fremtidige målinger muligvis ikke være direkte sammenlignelige med tidligere målinger, men de vil fortsat være en vigtig metode til at holde styr på vores retning og fremskridt.

Du kan læse mere om dette arbejde i et tillæg til GPT‑5‑systemkortet.

Skrevet af

OpenAI

Fodnoter

  1. 1

    Vi står over for en afvejning mellem præcision (hvor ofte de samtaler, der markeres af vores system, virkelig ikke er sikre) og genkendelse (hvilken andel af de ikke-sikre samtaler, vores system registrerer). For at opnå brugbar genkendelse er vi nødt til at tolerere en vis andel falske positive. Det svarer til test for sjældne sygdomme: hvis en sygdom påvirker en ud af 10.000 personer, kan selv en meget præcis test alligevel markere flere sunde personer end syge. 

  2. 2

     Alle disse ændringer er i forhold til versionen af GPT-5 lanceret 15. august(åbner i et nyt vindue).

  3. 3

    Bemærk, at visse brugere og beskeder viser mulige tegn på mere end en enkelt type risiko, f.eks. både selvskade og følelsesmæssig afhængighed, så der er et vist overlap mellem kategorier rapporteret her og nedenfor.