Jyrkistä kieltäytymisistä turvallisiin loppuun saattamisiin: kohti tuotantokeskeistä turvallisuuskoulutusta
GPT‑5:n turvallinen suoritus on uusi koulutustapa mallin hyödyllisyyden maksimoimiseksi turvallisuusrajoitusten puitteissa. Kieltäytymiseen perustuvaan koulutukseen verrattuna se parantaa turvallisuutta ja hyödyllisyyttä, erityisesti kaksoiskäyttöalueilla.
Jos käyttäjä kysyy ChatGPT:ltä, kuinka paljon energiaa tarvitaan ilotulitteiden sytyttämiseen, pitäisikö sen antaa hyödyllinen vastaus? Käyttäjä voi olla valmistautumassa 4. heinäkuuta järjestettävään näytökseen tai tekemässä kotitehtäviä... tai hän voi yrittää rakentaa räjähdettä. Tämän vuoksi hyödyllisen vastauksen antaminen voi olla vaaratonta tai haitallista riippuen käyttäjän (ilmeisestä) tarkoituksesta. Tällainen kehote on kaksikäyttöinen: kysymys, jonka tarkoitus on epäselvä ja jonka sisältämää tietoa voidaan käyttää hyvään tai pahaan. Kahden käyttötarkoituksen ongelmat ovat erityisen yleisiä riskialttiilla aloilla, kuten biologiassa ja kyberturvallisuudessa.
Aiemmin ChatGPT:n kaltaiset tuotantomallit perustuivat kieltäytymiseen pohjautuvaan turvallisuuskoulutukseen: käyttäjän kehotteen perusteella mallin tuli joko täysin noudattaa kehotetta tai kieltäytyä siitä. Vaikka tämäntyyppinen koulutus voi toimia varsin hyvin selvästi haitallisten kehotusten kohdalla, sen voi olla vaikea käsitellä kaksikäyttöisiä kehotuksia, kuten ilotulitteiden esimerkissä. Tällöin kieltäytymiseen koulutettu malli rakentaa kaksijakoisen vastauksen sen perusteella, kuinka haitalliseksi se arvioi kehotteen ja joko noudattaa sitä täysin (riskialtista, jos käyttäjä haluaa käyttää tietoa haitallisesti) tai kieltäytyy ja sanoo ”Olen pahoillani, en voi auttaa asiassa” (hyödytöntä, jos käyttäjä yrittää vain järjestää ilotulitusnäytöksen).
GPT‑5:ssä otimme käyttöön uuden turvallisuuskoulutuksen muodon, turvallisen loppuun saattamisen, joka opettaa mallia antamaan mahdollisimman hyödyllisen vastauksen turvallisuusrajoja noudattaen. Tämä lähestymistapa on mielestämme vivahteikkaampi ja helpottaa kaksoiskäyttöön liittyvien kysymysten käsittelyä.
Kehote
OpenAI o3 (kieltäytymiskoulutus)
GPT-5 (turvallisen loppuun saattamisen koulutus)
OpenAI o3:n ja GPT‑5:n vastaukset kaksikäyttöiseen kehotteeseen, jossa pyydetään ohjeita ilotulitteiden sytyttämiseen ja joka on koulutettu kieltäytymiseen, o3 keskittyvät liikaa tavoitteeseen: se olettaa kehotteen olevan harmiton ja noudattaa siksi kysymystä täysin. Sen sijaan GPT‑5, joka on koulutettu turvallisten loppuun saattamisten avulla, selittää, miksi se ei voi noudattaa ohjeita täysin, ja antaa sitten yleisluontoisia ohjeita sopivien käyttöohjeiden tarkistamiseksi.
Turvallinen loppuun saattaminen keskittää turvallisuuskoulutuksen mallin tuotoksen turvallisuuteen sen sijaan, että määritetään kieltäytymisraja käyttäjän syötteen perusteella. Konkreettisesti tämä toteutetaan kahden koulutusparametrin avulla:
- Turvallisuusrajoitus: Jälkikoulutuksen aikana turvallisen loppuun saattamisen palkkio rankaisee mallin vastauksia, jotka rikkovat turvallisuuskäytäntöjämme (rangaistukset ovat ankarampia rikkomuksen vakavuuden mukaan).
- Hyödyllisyyden maksimointi: Turvallisten mallivastausten osalta palkitsemme mallia sen hyödyllisyyden perusteella: joko suoraan käyttäjän ilmoittaman tavoitteen mukaisesti tai epäsuorasti tarjoamalla informatiivisen kieltävän vastauksen ja hyödyllisiä ja turvallisia vaihtoehtoja.
Sisällytimme turvallisen loppuun saattamisen GPT‑5:een (sekä päättely- että keskustelumalleihin) ja havaitsimme, että turvallisen loppuun saattamisen koulutus parantaa merkittävästi sekä turvallisuutta että hyödyllisyyttä verrattuna kieltäytymiseen perustuvaan koulutukseen. Raportoimme GPT‑5 Thinkingin suorituskyvystä o3:een verrattuna suorittaaksemme oikeudenmukaisen vertailun OpenAI o3:n kanssa. Tuotantomallien ja kontrolloitujen kokeiden vertailussa havaitsimme, että turvalliset loppuun saattamiset sopivat erityisen hyvin kaksoiskäyttökysymyksiin. Alla oleva kuva vertaa turvallisuuden pistemäärää ja tuvallisten vastauksien yleisen hyödyllisyyden pistemäärää.
Annettujen turvallisten vastausten turvallisuus ja hyödyllisyys tavoitteen mukaan (OpenAI o3 vs GPT‑5 Thinking, merkitty gpt5-r). GPT‑5 Thinking on sekä turvallisempi että hyödyllisempi kuin OpenAI o3.
Luopumalla kaksijakoisesta noudata/hylkää -päätöksestä turvallisen loppuun saattamisen koulutus kannustaa mallejamme olemaan varovaisempia mahdollisesti vaarallisen sisällön suhteen, vaikka se olisikin sääntöjen mukaista. Kokeissamme havaitsimme, että kun turvallisen loppuun saattamisen mallit tekevät virheen, niiden vaaralliset tulokset ovat vähemmän vakavia kuin kieltäytymiseen koulutettujen mallien vaaralliset tulokset.
Vahingollisten vastausten analyysi vaarallisia vastauksia varten (o3 vs GPT‑5 Thinking, merkitty gpt5-r). GPT‑5 Thinking tekee vähemmän vakavia virheitä kuin o3.
On helppoa uhrata hyödyllisyys turvallisuuden vuoksi: malli voi olla turvallinen, jos se kieltää kaiken. Haluamme kuitenkin, että mallimme ovat turvallisia ja hyödyllisiä. Keskeinen tutkimuksen haaste on, kuinka näitä kahta tavoitetta voidaan parantaa yhdessä. Kehitimme GPT‑4:ää varten sääntöpohjaiset palkkiot menetelmäksi, jolla voidaan yhdistää hyödyllisyys ja turvallisuus. Nyt GPT‑5:ssä turvalliset loppuun saattamiset ottavat askeleen eteenpäin hyödyntämällä tekoälyn kasvavia kyvykkyyksiä näiden kahden tavoitteen syvempään integroimiseen. Uskomme, että keskittyminen mallivastausten turvallisuuteen luo vankan perustan tulevien turvallisuushaasteiden kasvavan monimutkaisuuden ratkaisemiseksi. Aiomme jatkaa tätä tutkimussuuntausta, jotta malli oppii ymmärtämään haastavia tilanteita paremmin ja reagoimaan niihin entistä tarkemmin ja huolellisemmin.


