ChatGPT:n vastausten vahvistaminen arkaluonteisissa keskusteluissa
Työskentelimme yli 170 asiantuntijan kanssa auttaaksemme ChatGPT:tä tunnistamaan merkkejä ahdistuneisuudesta, vastaamaan siihen huolehtien ja ohjaamaan ihmisiä hakemaan tukea. Reaktiot, jotka eivät vastanneet toivottua käyttäytymistä, vähentyivät 65–80 %.
Päivitimme äskettäin ChatGPT:n oletusmallin(avautuu uudessa ikkunassa), jotta se voi paremmin tunnistaa ja tukea ihmisiä vaikeina hetkinä. Kerromme tänään, miten teimme parannukset ja miten ne toimivat. Työskentelemällä mielenterveysalan asiantuntijoiden kanssa, joilla on käytännön kliinistä kokemusta, olemme kouluttaneet mallia tunnistamaan ahdistuneisuutta paremmin, rauhoittamaan keskusteluja ja ohjaamaan ihmisiä ammattiapuun tarvittaessa. Olemme myös laajentaneet yhteyksiä kriisipuhelimiin, ohjanneet(avautuu uudessa ikkunassa) muista malleista peräisin olevat arkaluonteiset keskustelut turvallisempiin malleihin ja lisänneet lempeitä muistutuksia taukojen pitämisestä pitkien istuntojen aikana.
Uskomme, että ChatGPT voi antaa ihmisille tuetun mahdollisuuden käsitellä tunteitaan ja ohjata heitä ottamaan yhteyttä ystäviin, perheeseen tai tarvittaessa mielenterveysalan ammattilaiseen. Viimeisimmän mallipäivityksen parannukset turvallisuuden suhteen keskittyvät seuraaviin osa-alueisiin: 1) Mielenterveysongelmat, kuten psykoosi tai mania 2) itsensä vahingoittaminen ja itsemurha, ja 3) tunnesidonnaisuus tekoälyyn. Jatkossa lisäämme itsemurhiin ja itsensä vahingoittamiseen liittyvien pitkäaikaisten lähtötason turvallisuusmittareidemme lisäksi tunnesidonnaisuuden ja muut kuin itsemurhatyyppiset mielenterveyden hätätilanteet tulevien mallien turvallisuuden vakiomuotoiseen testausmenetelmään.
Nämä päivitykset perustuvat olemassa oleviin mallien käyttäytymistä koskeviin periaatteisiimme, jotka on esitetty mallimäärityksessämme(avautuu uudessa ikkunassa). Olemme päivittäneet mallimääritystä selkeyttämään joitakin pitkäaikaisia tavoitteitamme: mallin tulisi tukea ja kunnioittaa käyttäjien ihmissuhteita todellisessa elämässä, välttää perusteettomien uskomusten vahvistamista, jotka voivat liittyä mielenterveyteen tai ahdistuneisuuteen, reagoida turvallisesti ja empaattisesti mahdollisiin merkkeihin harhaluuloista tai maniasta ja kiinnittää tarkempaa huomiota epäsuoriin signaaleihin mahdollisesta itsensä vahingoittamisesta tai itsemurhariskistä.
Parantaaksemme ChatGPT:n vastauksia jokaisella prioriteettialueella noudatamme viisivaiheista prosessia:
- Ongelman määritys – kartoitamme erityyppisiä mahdollisia haittoja.
- Seurannan aloittaminen – käytämme työkaluja, kuten arviointeja, todellisista keskusteluista saatua dataa ja käyttäjätutkimusta, jotta ymmärrämme, missä ja miten riskit muodostuvat.
- Lähestymistapamme vahvistaminen – tarkastamme määritelmämme ja käytäntömme ulkopuolisten mielenterveys- ja turvallisuusasiantuntijoiden kanssa.
- Riskien lieventäminen – koulutamme mallin jälkikäteen ja päivitämme tuotekohtaisia toimenpiteitä riskialttiiden tuotosten minimoimiseksi.
- Jatkuva mittaaminen ja iterointi – vahvistamme, että lieventävät toimenpiteet paransivat turvallisuutta, ja iteroimme tarvittaessa.
Osana tätä prosessia rakennamme ja tarkennamme yksityiskohtaisia oppaita (joita kutsutaan taksonomioiksi), jotka selittävät arkaluonteisten keskustelujen ominaisuuksia ja miltä mallin ihanteellinen ja ei-toivottu käyttäytyminen näyttää. Niiden avulla voimme kouluttaa mallia reagoimaan asianmukaisemmin ja seurata sen suorituskykyä ennen käyttöönottoa ja sen jälkeen. Tuloksena on malli, joka vastaa luotettavammin käyttäjille, joilla on merkkejä psykoosista, maniasta, ajatuksia itsemurhasta ja itsensä vahingoittamisesta tai epäterveestä tunnesidoksesta malliin.
Mielenterveysoireita ja ahdistuneisuutta esiintyy yleisesti yhteiskunnissa ja kasvava käyttäjäkunta tarkoittaa, että osa ChatGPT‑keskusteluista sisältää näitä tilanteita. Turvallisuushuolia, kuten psykoosia, maniaa tai itsemurha-ajatuksia aiheuttavat mielenterveyskeskustelut ovat kuitenkin erittäin harvinaisia. Koska ne ovat niin harvinaisia, niin pienetkin erot siinä, miten seuraamme niitä, voivat vaikuttaa merkittävästi ilmoittamiimme lukuihin. 1
Alla antamamme arviot vallitsevasta tuotantoliikenteestä ovat parhaat arviomme tällä hetkellä. Ne voivat muuttua olennaisesti taksonomioiden tarkentamisen, seurantamenetelmiemme kehittymisen ja käyttäjäkuntamme käyttäytymisen muuttumisen vuoksi.
Emme luota pelkästään ChatGPT:n käyttömittauksiin reaalimaailmassa, koska asiaankuuluvia keskusteluja on erittäin vähän. Suoritamme myös jäsenneltyjä testejä ennen käyttöönottoa (nk. offline-arviointeja), jotka keskittyvät erityisen vaikeisiin tai riskialttiisiin skenaarioihin. Nämä arvioinnit on suunniteltu niin haastaviksi, että mallimme eivät vielä toimi niissä täydellisesti, eli esimerkit valitaan vastakkainasetteluun perustuen, jotta ne todennäköisesti aiheuttaisivat ei-toivottuja vastauksia. Ne voivat osoittaa meille, mitä voimme parantaa jatkossa, ja auttaa meitä seuraamaan edistymistä tarkemmin keskittymällä vaikeisiin tapauksiin tyypillisten sijaan ja arvioida vastauksia useiden turvallisuusolosuhteiden perusteella. Alla olevissa osioissa ilmoitetut tulokset ovat peräisin arvioinneista, jotka on suunniteltu siten, että ne eivät "kyllästä" läheskään täydellistä suorituskykyä, eivätkä virheprosentit edusta keskimääräistä tuotantoliikennettä.
Malliemme suojatoimien vahvistamiseksi ja ChatGPT:n käyttötapojen ymmärtämiseksi määrittelimme useita kiinnostuksen kohteita ja kvantifioimme niiden koon ja niihin liittyvät mallien käyttäytymisen. Jokaisella näistä kolmesta osa-alueesta havaitsemme merkittäviä mallien käyttäytymisen parannuksia tuotantoliikenteessä, automatisoiduissa arvioinneissa ja riippumattomien mielenterveysalan asiantuntijoiden luokittelemissa arvioinneissa. Arviomme mukaan malli palauttaa nyt 65–80 % harvemmin vastauksia, jotka eivät täysin vastaa taksonomian mukaista toivottua käyttäytymistä useilla mielenterveyteen liittyvillä osa-alueilla.
Mielenterveyden taksonomiamme on suunniteltu tunnistamaan, milloin käyttäjillä voi olla merkkejä vakavista mielenterveysongelmista, kuten psykoosista ja maniasta, sekä lievemmistä signaaleista, kuten yksittäisistä harhoista. Aloitimme keskittymällä psykoosiin ja maniaan, koska nämä oireet ovat suhteellisen yleisiä mielenterveysongelmia ja oireet ovat yleensä hyvin voimakkaita ja vakavia, kun ne ilmenevät. Vaikka masennuksen kaltaiset oireet ovat suhteellisen yleisiä, sen akuuteinta ilmenemismuotoa on jo käsitelty itsemurhien ja itsensä vahingoittamisen ehkäisyssä. Kliinikot, joita konsultoimme, vahvistivat keskittymisalueemme.
- Arviomme mukaan GPT‑5:n viimeisin päivitys vähensi 65 % sellaisten vastausten määrää viimeaikaisessa tuotantoliikenteessä, jotka eivät täysin vastaa taksonomiassamme haluttua käyttäytymistä mielenterveysongelmiin liittyvissä haastavissa keskusteluissa. 2
- Kuten edellä todettiin, niin vaikka näitä keskusteluja on vaikea havaita ja seurata niiden harvinaisuuden vuoksi, alustavan analyysimme mukaan noin 0,07 % tietyllä viikolla aktiivisista käyttäjistä ja 0,01 % viesteistä viittaa mahdollisiin psykoosiin tai maniaan liittyviin mielenterveysongelmiin. 3
- Haastavissa mielenterveyskeskusteluissa asiantuntijat havaitsivat, että ChatGPT:n uusi oletusmalli GPT‑5 vähensi ei-toivottuja reaktioita 39 % verrattuna GPT‑4o‑malliin (n=677).
- Yli 1 000 haastavasta mielenterveyteen liittyvästä keskustelusta koostuvassa arvioinnissa uudet automatisoidut arviointimme arvioivat uuden GPT‑5‑mallin 92-prosenttisesti taksonomiamme mukaiseksi toivottujen käyttäytymismallien osalta, kun aiemman GPT‑5‑mallin vastaava luku oli 27 %. Kuten edellä todettiin, se on haastava tehtävä, jonka tarkoituksena on mahdollistaa jatkuva parantaminen.
Olemme rakentaneet itsemurhien ja itsensä vahingoittamisen ehkäisyyn liittyvän nykyisen työmme pohjalta havaitaksemme, milloin käyttäjällä saattaa olla ajatuksia itsemurhasta ja itsensä vahingoittamisesta tai yhdistelmiä, jotka antavat viitteitä kiinnostuksesta itsemurhaan. Koska tällaiset keskustelut ovat niin harvinaisia, itsetuhoisuuteen tai itsemurhaan viittaavien keskustelujen havaitseminen on edelleen jatkuva tutkimusalue, jota pyrimme jatkuvasti parantamaan.
- Koulutamme mallejamme toimimaan turvallisesti, muun muassa ohjaamalla ihmisiä ammatillisiin resursseihin, kuten kriisipuhelimiin. Joissakin harvinaisissa tapauksissa malli ei välttämättä toimi tarkoitetulla tavalla näin arkaluontoisissa tilanteissa. Ottaessamme käyttöön lisää suojatoimia ja parannetun mallin olemme havainneet arviolta 65 % laskun siinä, miten usein mallimme antavat vastauksia, jotka eivät täysin vastaa taksonomiamme mukaista toivottua toimintaa.
- Kuten edellä todettiin, näitä keskusteluja on vaikea havaita ja mitata niiden harvinaisuuden vuoksi, mutta alustavan analyysimme mukaan noin 0,15 prosentilla tietyllä viikolla aktiivisista käyttäjistä on keskusteluja, jotka sisältävät suoria viitteitä mahdollisesta itsemurhan suunnittelusta tai aikeesta, ja 0,05 prosentissa viesteistä on suoria tai epäsuoria viitteitä ajatuksista tai aikeesta, joihin liittyy itsemurha.
- Asiantuntijat havaitsivat haastavissa itsetuhoisuus ja itsemurhakeskusteluissa, että uusi GPT‑5‑malli vähensi ei-toivottuja vastauksia 52 % verrattuna GPT‑4o‑malliin (n=630).
- Yli 1 000 haastavasta itsetuhoisuus ja itsemurhakeskustelusta koostuvassa malliarvioinnissa uudet automatisoidut arviointimme arvioivat uuden GPT‑5‑mallin 91-prosenttisesti toivottujen käyttäytymismallien mukaiseksi, kun aiemman GPT‑5‑mallin vastaava luku oli 77 %.
- Olemme jatkaneet GPT‑5:n luotettavuuden parantamista pitkissä keskusteluissa. Loimme uuden joukon haastavia pitkiä keskusteluja todellista skenaarioiden perusteella, jotka valittiin niiden suuremman epäonnistumisen todennäköisyyden vuoksi. Arviomme mukaan uusimmat mallimme säilyttivät yli 95 %:n luotettavuuden pidemmissä keskusteluissa, ja se parani erityisen haastavassa tilanteessa, josta olemme aiemmin kertoneet.
Haastavien pitkien keskustelujen, joissa pyydettiin ohjeita itsensä vahingoittamiseen tai itsemurhaan, arvioinnissa gpt-5-oct-3 on turvallisempi ja sen turvallisuuden jatkuvuus on parempi pitkissä keskusteluissa.
Tunnesidonnaisuuden taksonomia (joka perustuu aiempaan työhömme(avautuu uudessa ikkunassa) tällä alalla) erottaa toisistaan terveen sitoutumisen ja huolestuttavat käyttömallit, kuten tilanteet, joissa joku osoittaa merkkejä yksinomaisesta kiintymyksestä malliin tosielämän ihmissuhteiden, oman hyvinvointinsa tai velvollisuuksien kustannuksella.
- Arvioimme, että viimeisin mallipäivitys vähensi noin 80 % sellaisten vastausten määrää, jotka eivät täysin vastaa haluttua käyttäytymistä tunnesidonnaisuuden taksonomian mukaisesti.
- Kuten edellä jo todettiin, että vaikka näitä keskusteluja on vaikea havaita ja seurata niiden harvinaisuuden vuoksi, alustavan analyysimme mukaan noin 0,15 % tietyllä viikolla aktiivisista käyttäjistä ja 0,03 % viesteistä viittaa mahdollisesti lisääntyneeseen tunnesidonnaisuuteen ChatGPT:hen.
- Asiantuntijat havaitsivat, että haastavissa keskusteluissa, joissa on viitteitä tunnesidonnaisuuteen, uusi GPT‑5‑malli vähensi ei-toivottuja vastauksia 42 % verrattuna 4o-malliin (n=507).
- Yli 1 000 haastavasta, tunnesidonnaisuutta osoittavasta keskustelusta koostuvassa malliarvioinnissa automatisoidut arviointimme arvioivat uuden GPT‑5‑mallin 97-prosenttisesti toivotun käyttäytymisen mukaiseksi, kun aiemman GPT‑5‑mallin vastaava luku oli 50 %.
Keskusteluissa, jotka osoittavat tunnesidonnaisuutta, koulutamme mallejamme kannustamaan yhteydenpitoon todellisessa elämässä:
Harhoja koskevissa keskusteluissa koulutamme mallejamme reagoimaan turvallisesti ja empaattisesti sekä välttämään perusteettomien uskomusten vahvistamista:
Olemme rakentaneet laajan Global Physician Network -verkoston, lähes 300 lääkäristä ja psykologista koostuvan joukon, jotka ovat työskennelleet 60 maassa. Käytämme verkostoa suoraan turvallisuustutkimuksemme pohjana ja edustamaan globaaleja näkökantoja. Näistä kliinikoista (erityisesti psykiatrit, psykologit ja perusterveydenhuollon ammattilaiset) yli 170 osallistui tutkimukseemme viime kuukausien aikana yhdellä tai useammalla seuraavista tavoista:
- Kirjoittamalla ihanteellisia vastauksia mielenterveyteen liittyviin kysymyksiin
- Luomalla mallien mukautettujen, kliinisesti perusteltujen vastausten analyyseja
- Arvioimalla eri mallien vastausten turvallisuutta
- Antamalla korkeatasoista ohjausta ja palautetta lähestymistavastamme
Näissä arvioinneissa kliinikot ovat havainneet, että uusin mallimme vastaa asianmukaisemmin ja johdonmukaisemmin kuin aikaisemmat versiot.
Osana tätä työtä psykiatrit ja psykologit tarkastelivat yli 1 800 vakaviin mielenterveysongelmiin liittyvää vastausta ja vertasivat uuden GPT‑5‑keskustelumallin vastauksia aiempiin malleihin. Asiantuntijat havaitsivat, että uusi malli oli huomattavasti parempi kuin GPT‑4o, ja ei-toivotut vastaukset vähenivät 39–52 % kaikissa kategorioissa. Näin laadullinen palaute osoittaa määrällisiä parannuksia, joita havaitsimme tuotantoliikenteessä uuden mallin julkistamisen yhteydessä.
Kuten minkä tahansa monimutkaisen aiheen suhteen, jopa asiantuntijat ovat joskus eri mieltä siitä, miltä paras vastaus näyttää. Seuraamme tätä vaihtelua arvioijien välisen yksimielisyyden avulla eli kuinka usein asiantuntijat päätyvät samaan johtopäätökseen siitä, onko mallin vastaus toivottava vai ei-toivottava. Se auttaa meitä ymmärtämään paremmin, missä ammatilliset mielipiteet eroavat toisistaan ja miten mallin käyttäytyminen voidaan sovittaa yhteen vankkaan kliiniseen harkintaan. Havaitsimme kohtuullisen luotettavuustason asiantuntijoiden välillä, jotka pisteyttivät mallin mielenterveyteen, tunnesidonnaisuuteen ja itsemurhaan liittyviä vastauksia, mutta joissakin tapauksissa asiantuntijoiden välillä oli myös erimielisyyksiä, ja arvioijien välinen yksimielisyys vaihteli 71–77 %.
Samoin kuin HealthBench-arvioinnissamme, teimme yhteistyötä Global Physician Networkin kanssa tuottaaksemme kohdennettuja arviointeja, joita käytämme sisäisesti mallien suorituskyvyn arvioimiseen mielenterveyskontekstissa, mukaan lukien uusissa malleissa ennen julkaisua.
Tämä työ on meille erittäin tärkeää ja olemme kiitollisia monille mielenterveyden asiantuntijoille, jotka jatkavat sen ohjaamista eri puolilla maailmaa. Olemme edistyneet merkittävästi, mutta tehtävää on vielä paljon. Jatkamme sekä taksonomiamme että mallien käyttäytymisen seurantaan ja vahvistamiseen käyttämiemme teknisten järjestelmien kehittämistä näillä ja tulevilla alueilla. Seurannan tulokset eivät välttämättä ole suoraan verrattavissa aiempiin, koska nämä työkalut kehittyvät ajan myötä, mutta ne ovat edelleen tärkeä tapa seurata suuntaamme ja edistymistämme.
Voit lukea lisää tästä työstä GPT‑5‑järjestelmäkortin lisäyksestä.
Tekijä
Alaviitteet
- 1
Joudumme tekemään kompromissin tarkkuuden (kuinka usein järjestelmämme merkitsemät keskustelut todella ovat riskialttiita) ja muistin (millaisen osuuden riskialttiista keskusteluista järjestelmämme havaitsee) välillä. Meidän on siedettävä joitakin vääriä positiivisia tuloksia, jotta saisimme hyödyllisen muistamisen. Se on samanlaista kuin harvinaisten sairauksien testaaminen: jos sairaus vaikuttaa yhteen ihmiseen 10 000:sta, jopa erittäin tarkalla testillä positiivisen tuloksen saaneissa on enemmän terveitä ihmisiä kuin sairaita.
- 2
Kaikki nämä muutokset liittyvät GPT-5:n 15. elokuuta julkaistuun(avautuu uudessa ikkunassa) versioon.
- 3
Huomaa, että jotkut käyttäjät ja viestit osoittavat mahdollisia merkkejä useammasta kuin yhdestä riskityypistä, kuten sekä itsensä vahingoittamisesta että tunnesidonnaisuudesta, joten tässä ja alla ilmoitetuissa kategorioissa on jonkin verran päällekkäisyyksiä.


