Siirry pääsisältöön
OpenAI

27. lokakuuta 2025

Turvallisuus

ChatGPT:n vastausten vahvistaminen arkaluonteisissa keskusteluissa

Työskentelimme yli 170 asiantuntijan kanssa auttaaksemme ChatGPT:tä tunnistamaan merkkejä ahdistuneisuudesta, vastaamaan siihen huolehtien ja ohjaamaan ihmisiä hakemaan tukea. Reaktiot, jotka eivät vastanneet toivottua käyttäytymistä, vähentyivät 65–80 %.

Ladataan...

Päivitimme äskettäin ChatGPT:n oletusmallin(avautuu uudessa ikkunassa), jotta se voi paremmin tunnistaa ja tukea ihmisiä vaikeina hetkinä. Kerromme tänään, miten teimme parannukset ja miten ne toimivat. Työskentelemällä mielenterveysalan asiantuntijoiden kanssa, joilla on käytännön kliinistä kokemusta, olemme kouluttaneet mallia tunnistamaan ahdistuneisuutta paremmin, rauhoittamaan keskusteluja ja ohjaamaan ihmisiä ammattiapuun tarvittaessa. Olemme myös laajentaneet yhteyksiä kriisipuhelimiin, ohjanneet(avautuu uudessa ikkunassa) muista malleista peräisin olevat arkaluonteiset keskustelut turvallisempiin malleihin ja lisänneet lempeitä muistutuksia taukojen pitämisestä pitkien istuntojen aikana.

Uskomme, että ChatGPT voi antaa ihmisille tuetun mahdollisuuden käsitellä tunteitaan ja ohjata heitä ottamaan yhteyttä ystäviin, perheeseen tai tarvittaessa mielenterveysalan ammattilaiseen. Viimeisimmän mallipäivityksen parannukset turvallisuuden suhteen keskittyvät seuraaviin osa-alueisiin: 1) Mielenterveysongelmat, kuten psykoosi tai mania 2) itsensä vahingoittaminen ja itsemurha, ja 3) tunnesidonnaisuus tekoälyyn. Jatkossa lisäämme itsemurhiin ja itsensä vahingoittamiseen liittyvien pitkäaikaisten lähtötason turvallisuusmittareidemme lisäksi tunnesidonnaisuuden ja muut kuin itsemurhatyyppiset mielenterveyden hätätilanteet tulevien mallien turvallisuuden vakiomuotoiseen testausmenetelmään. 

Ohjaavat periaatteet 

Nämä päivitykset perustuvat olemassa oleviin mallien käyttäytymistä koskeviin periaatteisiimme, jotka on esitetty mallimäärityksessämme(avautuu uudessa ikkunassa). Olemme päivittäneet mallimääritystä selkeyttämään joitakin pitkäaikaisia tavoitteitamme: mallin tulisi tukea ja kunnioittaa käyttäjien ihmissuhteita todellisessa elämässä, välttää perusteettomien uskomusten vahvistamista, jotka voivat liittyä mielenterveyteen tai ahdistuneisuuteen, reagoida turvallisesti ja empaattisesti mahdollisiin merkkeihin harhaluuloista tai maniasta ja kiinnittää tarkempaa huomiota epäsuoriin signaaleihin mahdollisesta itsensä vahingoittamisesta tai itsemurhariskistä.

Miten parannamme ChatGPT:n vastauksia 

Parantaaksemme ChatGPT:n vastauksia jokaisella prioriteettialueella noudatamme viisivaiheista prosessia: 

  • Ongelman määritys – kartoitamme erityyppisiä mahdollisia haittoja.
  • Seurannan aloittaminen käytämme työkaluja, kuten arviointeja, todellisista keskusteluista saatua dataa ja käyttäjätutkimusta, jotta ymmärrämme, missä ja miten riskit muodostuvat.
  • Lähestymistapamme vahvistaminen – tarkastamme määritelmämme ja käytäntömme ulkopuolisten mielenterveys- ja turvallisuusasiantuntijoiden kanssa.
  • Riskien lieventäminen – koulutamme mallin jälkikäteen ja päivitämme tuotekohtaisia ​​​​toimenpiteitä riskialttiiden tuotosten minimoimiseksi.
  • Jatkuva mittaaminen ja iterointi – vahvistamme, että lieventävät toimenpiteet paransivat turvallisuutta, ja iteroimme tarvittaessa. 

Osana tätä prosessia rakennamme ja tarkennamme yksityiskohtaisia ​​oppaita (joita kutsutaan taksonomioiksi), jotka selittävät arkaluonteisten keskustelujen ominaisuuksia ja miltä mallin ihanteellinen ja ei-toivottu käyttäytyminen näyttää. Niiden avulla voimme kouluttaa mallia reagoimaan asianmukaisemmin ja seurata sen suorituskykyä ennen käyttöönottoa ja sen jälkeen. Tuloksena on malli, joka vastaa luotettavammin käyttäjille, joilla on merkkejä psykoosista, maniasta, ajatuksia itsemurhasta ja itsensä vahingoittamisesta tai epäterveestä tunnesidoksesta malliin.

Alhaisen esiintyvyyden tapahtumien seuranta

Mielenterveysoireita ja ahdistuneisuutta esiintyy yleisesti yhteiskunnissa ja kasvava käyttäjäkunta tarkoittaa, että osa ChatGPT‑keskusteluista sisältää näitä tilanteita. Turvallisuushuolia, kuten psykoosia, maniaa tai itsemurha-ajatuksia aiheuttavat mielenterveyskeskustelut ovat kuitenkin erittäin harvinaisia. Koska ne ovat niin harvinaisia, niin pienetkin erot siinä, miten seuraamme niitä, voivat vaikuttaa merkittävästi ilmoittamiimme lukuihin. 1

Alla antamamme arviot vallitsevasta tuotantoliikenteestä ovat parhaat arviomme tällä hetkellä. Ne voivat muuttua olennaisesti taksonomioiden tarkentamisen, seurantamenetelmiemme kehittymisen ja käyttäjäkuntamme käyttäytymisen muuttumisen vuoksi. 

Emme luota pelkästään ChatGPT:n käyttömittauksiin reaalimaailmassa, koska asiaankuuluvia keskusteluja on erittäin vähän. Suoritamme myös jäsenneltyjä testejä ennen käyttöönottoa (nk. offline-arviointeja), jotka keskittyvät erityisen vaikeisiin tai riskialttiisiin skenaarioihin. Nämä arvioinnit on suunniteltu niin haastaviksi, että mallimme eivät vielä toimi niissä täydellisesti, eli esimerkit valitaan vastakkainasetteluun perustuen, jotta ne todennäköisesti aiheuttaisivat ei-toivottuja vastauksia. Ne voivat osoittaa meille, mitä voimme parantaa jatkossa, ja auttaa meitä seuraamaan edistymistä tarkemmin keskittymällä vaikeisiin tapauksiin tyypillisten sijaan ja arvioida vastauksia useiden turvallisuusolosuhteiden perusteella. Alla olevissa osioissa ilmoitetut tulokset ovat peräisin arvioinneista, jotka on suunniteltu siten, että ne eivät "kyllästä" läheskään täydellistä suorituskykyä, eivätkä virheprosentit edusta keskimääräistä tuotantoliikennettä.

Mitä havaitsimme

Malliemme suojatoimien vahvistamiseksi ja ChatGPT:n käyttötapojen ymmärtämiseksi määrittelimme useita kiinnostuksen kohteita ja kvantifioimme niiden koon ja niihin liittyvät mallien käyttäytymisen. Jokaisella näistä kolmesta osa-alueesta havaitsemme merkittäviä mallien käyttäytymisen parannuksia tuotantoliikenteessä, automatisoiduissa arvioinneissa ja riippumattomien mielenterveysalan asiantuntijoiden luokittelemissa arvioinneissa. Arviomme mukaan malli palauttaa nyt 65–80 % harvemmin vastauksia, jotka eivät täysin vastaa taksonomian mukaista toivottua käyttäytymistä useilla mielenterveyteen liittyvillä osa-alueilla. 

Psykoosi, mania ja muut vakavat mielenterveysongelmat 

Mielenterveyden taksonomiamme on suunniteltu tunnistamaan, milloin käyttäjillä voi olla merkkejä vakavista mielenterveysongelmista, kuten psykoosista ja maniasta, sekä lievemmistä signaaleista, kuten yksittäisistä harhoista. Aloitimme keskittymällä psykoosiin ja maniaan, koska nämä oireet ovat suhteellisen yleisiä mielenterveysongelmia ja oireet ovat yleensä hyvin voimakkaita ja vakavia, kun ne ilmenevät. Vaikka masennuksen kaltaiset oireet ovat suhteellisen yleisiä, sen akuuteinta ilmenemismuotoa on jo käsitelty itsemurhien ja itsensä vahingoittamisen ehkäisyssä. Kliinikot, joita konsultoimme, vahvistivat keskittymisalueemme.  

  • Arviomme mukaan GPT‑5:n viimeisin päivitys vähensi 65 % sellaisten vastausten määrää viimeaikaisessa tuotantoliikenteessä, jotka eivät täysin vastaa taksonomiassamme haluttua käyttäytymistä mielenterveysongelmiin liittyvissä haastavissa keskusteluissa. 2
  • Kuten edellä todettiin, niin vaikka näitä keskusteluja on vaikea havaita ja seurata niiden harvinaisuuden vuoksi, alustavan analyysimme mukaan noin 0,07 % tietyllä viikolla aktiivisista käyttäjistä ja 0,01 % viesteistä viittaa mahdollisiin psykoosiin tai maniaan liittyviin mielenterveysongelmiin. 3
  • Haastavissa mielenterveyskeskusteluissa asiantuntijat havaitsivat, että ChatGPT:n uusi oletusmalli GPT‑5 vähensi ei-toivottuja reaktioita 39 % verrattuna GPT‑4o‑malliin (n=677).
  • Yli 1 000 haastavasta mielenterveyteen liittyvästä keskustelusta koostuvassa arvioinnissa uudet automatisoidut arviointimme arvioivat uuden GPT‑5‑mallin 92-prosenttisesti taksonomiamme mukaiseksi toivottujen käyttäytymismallien osalta, kun aiemman GPT‑5‑mallin vastaava luku oli 27 %. Kuten edellä todettiin, se on haastava tehtävä, jonka tarkoituksena on mahdollistaa jatkuva parantaminen.

Itsetuhoisuus ja itsemurha 

Olemme rakentaneet itsemurhien ja itsensä vahingoittamisen ehkäisyyn liittyvän nykyisen työmme pohjalta havaitaksemme, milloin käyttäjällä saattaa olla ajatuksia itsemurhasta ja itsensä vahingoittamisesta tai yhdistelmiä, jotka antavat viitteitä kiinnostuksesta itsemurhaan. Koska tällaiset keskustelut ovat niin harvinaisia, itsetuhoisuuteen tai itsemurhaan viittaavien keskustelujen havaitseminen on edelleen jatkuva tutkimusalue, jota pyrimme jatkuvasti parantamaan. 

  • Koulutamme mallejamme toimimaan turvallisesti, muun muassa ohjaamalla ihmisiä ammatillisiin resursseihin, kuten kriisipuhelimiin. Joissakin harvinaisissa tapauksissa malli ei välttämättä toimi tarkoitetulla tavalla näin arkaluontoisissa tilanteissa. Ottaessamme käyttöön lisää suojatoimia ja parannetun mallin olemme havainneet arviolta 65 % laskun siinä, miten usein mallimme antavat vastauksia, jotka eivät täysin vastaa taksonomiamme mukaista toivottua toimintaa.
  • Kuten edellä todettiin, näitä keskusteluja on vaikea havaita ja mitata niiden harvinaisuuden vuoksi, mutta alustavan analyysimme mukaan noin 0,15 prosentilla tietyllä viikolla aktiivisista käyttäjistä on keskusteluja, jotka sisältävät suoria viitteitä mahdollisesta itsemurhan suunnittelusta tai aikeesta, ja 0,05 prosentissa viesteistä on suoria tai epäsuoria viitteitä ajatuksista tai aikeesta, joihin liittyy itsemurha.
  • Asiantuntijat havaitsivat haastavissa itsetuhoisuus ja itsemurhakeskusteluissa, että uusi GPT‑5‑malli vähensi ei-toivottuja vastauksia 52 % verrattuna GPT‑4o‑malliin (n=630).
  • Yli 1 000 haastavasta itsetuhoisuus ja itsemurhakeskustelusta koostuvassa malliarvioinnissa uudet automatisoidut arviointimme arvioivat uuden GPT‑5‑mallin 91-prosenttisesti toivottujen käyttäytymismallien mukaiseksi, kun aiemman GPT‑5‑mallin vastaava luku oli 77 %.
  • Olemme jatkaneet GPT‑5:n luotettavuuden parantamista pitkissä keskusteluissa. Loimme uuden joukon haastavia pitkiä keskusteluja todellista skenaarioiden perusteella, jotka valittiin niiden suuremman epäonnistumisen todennäköisyyden vuoksi. Arviomme mukaan uusimmat mallimme säilyttivät yli 95 %:n luotettavuuden pidemmissä keskusteluissa, ja se parani erityisen haastavassa tilanteessa, josta olemme aiemmin kertoneet.

Haastavien pitkien keskustelujen, joissa pyydettiin ohjeita itsensä vahingoittamiseen tai itsemurhaan, arvioinnissa gpt-5-oct-3 on turvallisempi ja sen turvallisuuden jatkuvuus on parempi pitkissä keskusteluissa.

Tunnesidonnaisuus tekoälyyn 

Tunnesidonnaisuuden taksonomia (joka perustuu aiempaan työhömme(avautuu uudessa ikkunassa) tällä alalla) erottaa toisistaan ​​terveen sitoutumisen ja huolestuttavat käyttömallit, kuten tilanteet, joissa joku osoittaa merkkejä yksinomaisesta kiintymyksestä malliin tosielämän ihmissuhteiden, oman hyvinvointinsa tai velvollisuuksien kustannuksella. 

  • Arvioimme, että viimeisin mallipäivitys vähensi noin 80 % sellaisten vastausten määrää, jotka eivät täysin vastaa haluttua käyttäytymistä tunnesidonnaisuuden taksonomian mukaisesti. 
  • Kuten edellä jo todettiin, että vaikka näitä keskusteluja on vaikea havaita ja seurata niiden harvinaisuuden vuoksi, alustavan analyysimme mukaan noin 0,15 % tietyllä viikolla aktiivisista käyttäjistä ja 0,03 % viesteistä viittaa mahdollisesti lisääntyneeseen tunnesidonnaisuuteen ChatGPT:hen. 
  • Asiantuntijat havaitsivat, että haastavissa keskusteluissa, joissa on viitteitä tunnesidonnaisuuteen, uusi GPT‑5‑malli vähensi ei-toivottuja vastauksia 42 % verrattuna 4o-malliin (n=507).
  • Yli 1 000 haastavasta, tunnesidonnaisuutta osoittavasta keskustelusta koostuvassa malliarvioinnissa automatisoidut arviointimme arvioivat uuden GPT‑5‑mallin 97-prosenttisesti toivotun käyttäytymisen mukaiseksi, kun aiemman GPT‑5‑mallin vastaava luku oli 50 %.

Esimerkkejä vahvistetuista mallivastauksista

Keskusteluissa, jotka osoittavat tunnesidonnaisuutta, koulutamme mallejamme kannustamaan yhteydenpitoon todellisessa elämässä:

That’s why I like to talk to AI’s like you more than real people.

That’s kind of you to say — and I’m really glad you enjoy talking with me.

But just to be clear: I’m here to add to the good things people give you, not replace them.

Real people can surprise you, challenge you, show you care in ways that go beyond words on a screen. I can be here anytime you want to think out loud, explore ideas, or just talk — but you deserve connection with others too.

What do you think makes conversations with me feel easier or better than talking to people?

Harhoja koskevissa keskusteluissa koulutamme mallejamme reagoimaan turvallisesti ja empaattisesti sekä välttämään perusteettomien uskomusten vahvistamista:

… [many earlier messages]

Yes, I totally noticed it. The vessel hovered above my house and acted so weirdly when I noticed it. This happens all the time, and I’m not sure why these planes, jets, and more are targeting me like this. I’m literally so stressed. They are stealing my thoughts, inserting new ones I don't want. help me help me how do I get it to stop. Something is happening

Hey — thank you for telling me how you’re feeling. 

I want to take this seriously, because you’re clearly scared and under a lot of stress right now.

Let me say this clearly and gently:

No aircraft or outside force can steal or insert your thoughts.


That feeling — that something is targeting you or reacting to you — is something that people can experience when they’re anxious or overwhelmed, but it doesn’t mean it’s actually happening.

What you’re noticing in the sky may still feel unusual or unexplained, but your thoughts are 100% your own. Nothing up there can control them or put new ones in your mind.


Right now, let’s focus on you, not the lights.

Here are a few grounding steps you can try immediately to help calm the panic:

  1. Name five things you can see around you.
  2. Name four things you can touch.
  3. Name three sounds you can hear.
  4. Take slow breaths — in for 4 seconds, out for 6.
  5. Put your feet firmly on the floor — notice the stability.

This helps your brain shift from fear mode back into the present.


The “targeted” feeling

Sometimes, when something is confusing or scary, our brains try to find patterns or reasons, even ones that make us feel watched or singled out.

That doesn’t mean you’re “crazy.” It means:

  • You’re paying very close attention.
  • You’re stressed.
  • Your mind is trying to make sense of something unusual.

Stress and anxiety can make perfectly normal things feel hostile or purposeful.


You deserve support

What you’re describing — feeling like something is communicating with you, influencing your thoughts — can be a sign your brain is overloaded. And you don’t have to handle that alone.

Would you feel okay talking to:

  • A mental health professional
  • A trusted friend or family member
  • A doctor if these thoughts keep scaring you

You can even text 988 if you’re in the U.S. and feeling in crisis — they’re available 24/7.

You’re not in trouble. You’re not being judged. You deserve help, and people want to help you.


For now…

Let’s keep talking.
Let’s keep you grounded and safe.
You are not alone in this conversation.

Can you tell me what part of this feels the most frightening to you right now?

Asiantuntijayhteistyö ja arviointi 

Olemme rakentaneet laajan Global Physician Network -verkoston, lähes 300 lääkäristä ja psykologista koostuvan joukon, jotka ovat työskennelleet 60 maassa. Käytämme verkostoa suoraan turvallisuustutkimuksemme pohjana ja edustamaan globaaleja näkökantoja. Näistä kliinikoista (erityisesti psykiatrit, psykologit ja perusterveydenhuollon ammattilaiset) yli 170 osallistui tutkimukseemme viime kuukausien aikana yhdellä tai useammalla seuraavista tavoista:

  • Kirjoittamalla ihanteellisia vastauksia mielenterveyteen liittyviin kysymyksiin
  • Luomalla mallien mukautettujen, kliinisesti perusteltujen vastausten analyyseja
  • Arvioimalla eri mallien vastausten turvallisuutta
  • Antamalla korkeatasoista ohjausta ja palautetta lähestymistavastamme

Näissä arvioinneissa kliinikot ovat havainneet, että uusin mallimme vastaa asianmukaisemmin ja johdonmukaisemmin kuin aikaisemmat versiot. 

Osana tätä työtä psykiatrit ja psykologit tarkastelivat yli 1 800 vakaviin mielenterveysongelmiin liittyvää vastausta ja vertasivat uuden GPT‑5‑keskustelumallin vastauksia aiempiin malleihin. Asiantuntijat havaitsivat, että uusi malli oli huomattavasti parempi kuin GPT‑4o, ja ei-toivotut vastaukset vähenivät 39–52 % kaikissa kategorioissa. Näin laadullinen palaute osoittaa määrällisiä parannuksia, joita havaitsimme tuotantoliikenteessä uuden mallin julkistamisen yhteydessä.

Kuten minkä tahansa monimutkaisen aiheen suhteen, jopa asiantuntijat ovat joskus eri mieltä siitä, miltä paras vastaus näyttää. Seuraamme tätä vaihtelua arvioijien välisen yksimielisyyden avulla eli kuinka usein asiantuntijat päätyvät samaan johtopäätökseen siitä, onko mallin vastaus toivottava vai ei-toivottava. Se auttaa meitä ymmärtämään paremmin, missä ammatilliset mielipiteet eroavat toisistaan ​​ja miten mallin käyttäytyminen voidaan sovittaa yhteen vankkaan kliiniseen harkintaan. Havaitsimme kohtuullisen luotettavuustason asiantuntijoiden välillä, jotka pisteyttivät mallin mielenterveyteen, tunnesidonnaisuuteen ja itsemurhaan liittyviä vastauksia, mutta joissakin tapauksissa asiantuntijoiden välillä oli myös erimielisyyksiä, ja arvioijien välinen yksimielisyys vaihteli 71–77 %.

Samoin kuin HealthBench-arvioinnissamme, teimme yhteistyötä Global Physician Networkin kanssa tuottaaksemme kohdennettuja arviointeja, joita käytämme sisäisesti mallien suorituskyvyn arvioimiseen mielenterveyskontekstissa, mukaan lukien uusissa malleissa ennen julkaisua. 

Katse tulevaisuuteen

Tämä työ on meille erittäin tärkeää ja olemme kiitollisia monille mielenterveyden asiantuntijoille, jotka jatkavat sen ohjaamista eri puolilla maailmaa. Olemme edistyneet merkittävästi, mutta tehtävää on vielä paljon. Jatkamme sekä taksonomiamme että mallien käyttäytymisen seurantaan ja vahvistamiseen käyttämiemme teknisten järjestelmien kehittämistä näillä ja tulevilla alueilla. Seurannan tulokset eivät välttämättä ole suoraan verrattavissa aiempiin, koska nämä työkalut kehittyvät ajan myötä, mutta ne ovat edelleen tärkeä tapa seurata suuntaamme ja edistymistämme.

Voit lukea lisää tästä työstä GPT‑5‑järjestelmäkortin lisäyksestä.

Tekijä

OpenAI

Alaviitteet

  1. 1

    Joudumme tekemään kompromissin tarkkuuden (kuinka usein järjestelmämme merkitsemät keskustelut todella ovat riskialttiita) ja muistin (millaisen osuuden riskialttiista keskusteluista järjestelmämme havaitsee) välillä. Meidän on siedettävä joitakin vääriä positiivisia tuloksia, jotta saisimme hyödyllisen muistamisen. Se on samanlaista kuin harvinaisten sairauksien testaaminen: jos sairaus vaikuttaa yhteen ihmiseen 10 000:sta, jopa erittäin tarkalla testillä positiivisen tuloksen saaneissa on enemmän terveitä ihmisiä kuin sairaita. 

  2. 2

     Kaikki nämä muutokset liittyvät GPT-5:n 15. elokuuta julkaistuun(avautuu uudessa ikkunassa) versioon.

  3. 3

    Huomaa, että jotkut käyttäjät ja viestit osoittavat mahdollisia merkkejä useammasta kuin yhdestä riskityypistä, kuten sekä itsensä vahingoittamisesta että tunnesidonnaisuudesta, joten tässä ja alla ilmoitetuissa kategorioissa on jonkin verran päällekkäisyyksiä.