Siirry pääsisältöön
OpenAI

29. lokakuuta 2025

TuoteTiedote

Esittelyssä gpt-oss-safeguard

Uudet avoimet päättelymallit (120b ja 20b) turvallisuuteen, jotka tukevat mukautettuja turvallisuuskäytäntöjä.

Ladataan...

Julkaisemme tänään esikatseluversion gpt-oss-safeguard-mallista, joka on turvaluokitustehtäviin tarkoitettu avoimen painotuksen päättelymallimme, joka on saatavilla kahdessa koossa: gpt-oss-safeguard-120b ja gpt-oss-safeguard-20b. Nämä mallit ovat hienosäädettyjä versioita gpt-oss open model -malleistamme ja ovat saatavilla samalla Apache 2.0 -lisenssillä, minkä ansiosta niitä voi käyttää, muokata ja ottaa käyttöön vapaasti. Molemmat mallit voi ladata nyt Hugging Face(avautuu uudessa ikkunassa) -sivustolta.

Gpt-oss-safeguard-mallit käyttävät päättelyä tulkitakseen suoraan kehittäjän antaman käytännön päättelyhetkellä luokittelemalla käyttäjäviestit, valmistumiset ja keskustelut kokonaan kehittäjän tarpeiden mukaan. Kehittäjä voi aina päättää, mitä käytäntöä käytetään, joten vastaukset ovat asiaankuuluvia ja mukautettuja kehittäjän käyttötapaukseen. Malli käyttää ajatusketjua, jota kehittäjä voi tarkastella selvittääkseen, miten malli tekee päätöksiään. Lisäksi käytäntö annetaan päättelyn aikana sen sijaan, että se koulutettaisiin mallille, joten kehittäjien on helppo muokata käytäntöjä iteratiivisesti suorituskyvyn parantamiseksi. Tämä lähestymistapa, jonka alunperin kehitimme sisäiseen käyttöön, on huomattavasti joustavampi kuin perinteinen menetelmä, jossa luokittelijaa koulutetaan epäsuorasti päättelemään päätösraja suuresta määrästä merkittyjä esimerkkejä.

Gpt-oss-safeguard antaa kehittäjille mahdollisuuden asettaa käyttötapaukseensa parhaiten sopivat käyttörajat. Esimerkiksi videopelien keskustelufoorumi saattaa haluta kehittää käytännön luokittelemaan pelissä tapahtuvaa huijaamista käsitteleviä viestejä, tai tuotearvostelusivusto saattaa haluta käyttää omaa käytäntöään seulomaan arvosteluja, jotka vaikuttavat todennäköisiltä väärennöksiltä.

Malli ottaa kerralla kaksi syötettä, käytännön ja kyseisellä käytännöllä luokiteltavaa sisältöä, ja tuotos on johtopäätös siitä, mihin sisältö kuuluu sekä perustelut siihen. Kehittäjät päättävät halutessaan, miten he käyttävät näitä johtopäätöksiä omissa turvatoimissaan. Olemme nähneet tällaisen päättelyyn perustuvan lähestymistavan toimivan erityisen hyvin tilanteissa, joissa:

  • Mahdollinen haitta on syntymässä tai kehittymässä ja käytäntöjä on mukautettava nopeasti.
  • Aihepiiri on hyvin vivahteikas ja vaikeampi pienempien luokittelijoiden käsiteltäväksi.
  • Kehittäjillä ei ole tarpeeksi esimerkkejä kouluttamaan korkealaatuista luokittelijaa jokaiselle alustallaan olevalle riskille.
  • Viive on vähemmän tärkeää kuin korkealaatuisten ja selitettävien merkintöjen tuottaminen.

Julkaisemme tämän gpt-oss-safeguard-mallin esikatseluversion saadaksemme palautetta tutkimus- ja turvallisuusyhteisöltä ja kehittääksemme mallin suorituskykyä. Työskentelimme tämän avoimen painotuksen julkaisun parissa ROOST(avautuu uudessa ikkunassa)in kanssa kuukausien ajan tunnistaaksemme kehittäjille tärkeät tarpeet, testataksemme mallia ja tuottaaksemme dokumentaatiota kehittäjille. Osana tätä julkistusta ROOST perustaa myös nyt julkistettavan malliyhteisön(avautuu uudessa ikkunassa) tutkimaan verkkotilojen suojaamiseen tarkoitettuja avoimia tekoälymalleja. Tämän julkaisun ohella julkaisemme lyhyen teknisen raportin, jossa kerrotaan tarkemmin tämän esikatselumallin suorituskyvystä turvallisuuden suhteen.

Järjestelmätason turvallisuus: turvaluokittelijoiden rooli

Turvallisuusasioissa uskomme kerrokselliseen puolustukseen. Koulutamme mallejamme vastaamaan turvallisesti ja toteutamme lisäsuojauskerroksia havaitsemaan ja käsittelemään mahdollisesti vaarallisia syötteitä ja tuotoksia käytäntöjemme mukaisesti. Turvaluokittelijat, jotka erottavat turvallisen ja vaarallisen sisällön tietyllä riskialueella ovat pitkään olleet ensisijainen puolustuskerros sekä meille että muille suurille kielimalleille.

Perinteiset turvaluokittelijat, kuten Moderation API:n(avautuu uudessa ikkunassa) kautta saatavilla olevat kehitetään kuratoimalla manuaalisesti tuhansia esimerkkejä turvallisesta ja vaarallisesta sisällöstä ennalta määriteltyjen turvakäytäntöjen mukaisesti. Tämän koulutusdatan avulla luokittelija oppii erottamaan turvalliset ja vaaralliset tuotokset. Tässä perinteisessä lähestymistavassa luokittelija ei koskaan itse asiassa näe turvakäytäntöä. Sen sijaan se pyrkii päättelemään esimerkkien luokittelussa käytetyn käytännön etsimällä yhtäläisyyksiä sisällössä, joka on merkitty vaaralliseksi ja eroja vaarallisen ja turvallisen sisällön välillä.

Perinteisillä luokittelijoilla voi olla korkea suorituskyky, alhainen viive ja edulliset käyttökustannukset. Riittävän esimerkkimäärän kerääminen koulutukseen voi kuitenkin olla aikaa vievää ja kallista, ja käytännön päivittäminen tai muuttaminen vaatii luokittelijan uudelleenkouluttamista.

Gpt-oss-safeguard on erilainen, koska sen päättelyominaisuudet antavat kehittäjien soveltaa mitä tahansa käytäntöä, mukaan lukien itse kirjoittamiaan tai muista lähteistä poimittuja käytäntöjä, ja päättely auttaa malleja yleistämään juuri kirjoitettujen käytäntöjen sijaan. Turvakäytäntöjen lisäksi gpt-oss-safeguard-mallia voi käyttää sisällön merkitsemiseen muilla tavoilla, jotka ovat tärkeitä tietyille tuotteille ja alustoille.

Vuokaavio otsikolla ”Käytäntöön perustuva päättely gpt-oss-safeguard-mallilla”. Kehittäjien toimittamat käytännöt ja käyttäjien toimittama sisältö syötetään GPT-OSS-Safeguardiin. Malli tuottaa ajatusketjun ja sitten käytäntöpäätöksen, jossa on ”käytännön iteraatio” -niminen silmukka, joka antaa palautetta käytäntöjen tarkentamiseksi. Selite osoittaa kehittäjän syötteen, käyttäjän syötteen ja mallin tuotoksen.

Miten käytämme turvapäättelyä sisäisesti

Pääasialliset päättelymallimme oppivat nyt turvakäytäntömme suoraan ja käyttävät päättelykykyjään siihen, mikä on turvallista. Tämä lähestymistapa, jota kutsumme harkitsevaksi kohdistamiseksi parantaa merkittävästi aiempia turvakoulutusmenetelmiä ja tekee päättelymalleistamme useilla osa-alueilla turvallisempia kuin niiden ei-päättelyyn perustuvat edeltäjänsä, vaikka niidenkin ominaisuudet paranevat. Päättely ei kuitenkaan ole hyödyllistä vain itse mallien kouluttamisessa. Se luo myös uusia mahdollisuuksia kerrokselliseen puolustukseen. Päättelyyn perustuvat lähestymistavat ovat joustavampia ja vähemmän rajoitettuja aiemman koulutuksen vuoksi eli ne tarjoavat etuja, jotka joskus enemmän kuin oikeuttavat niihin liittyvät kasvaneet laskentakustannukset ja viiveen.

Gpt-oss-safeguard on avoimen painotusluokan toteutus lähestymistavasta, jonka kehitimme sisäisesti nimeltä Safety Reasoner, turvapäättelijä. Aloitimme hienosäätämällä vahvistamista käytäntöjen luokittelutehtävissä ja palkitsimme mallia ihmisasiantuntijoiden oikeiden arvioiden jäljittelemisestä. Se koulutti mallia päättelemään, miten käytäntö johtaa sen arvostelmaan. Nykyään Safety Reasoner auttaa meitä päivittämään turvakäytäntöjämme tuotannossa dynaamisesti nopeammin kuin luokittelijan uudelleenkouluttaminen kestäisi. Se tekee Safety Reasonerista keskeisen työkalun iteratiivisessa käyttöönotossa: kun otamme uusia malleja käyttöön tuotantoympäristössä, aloitamme usein tiukemmilla käytännöillä ja käytämme suhteellisen paljon laskentatehoa tarvittaessa, jotta Safety Reasoner voi huolellisesti soveltaa kyseisiä käytäntöjä. Sitten mukautamme käytäntöjämme sitä mukaa, kun ymmärrämme paremmin tuotannossa olevia riskejä. Joissakin viimeaikaisissa julkistuksissamme turvapäättelyyn käytetty osuus kokonaislaskennasta on ollut jopa 16 %.

Safety Reasoner onkin nyt keskeinen osa turvakerrostamme. Se suorittaa dynaamisia, vaiheittaisia ​​​​tuotosten arviointeja kuvien luonnissa ja Sora 2:ssa tunnistamaan ja estämään vaaralliset luonnit reaaliajassa. Biologian ja itsetuhoisuuden kaltaisilla aloilla suoritamme Moderation API:ssa käytettyjen mukaisia malleja pieninä, nopeina ja helposti muistettavina luokittelijoina määrittämään, mikä sisältö kuuluu käsiteltävään aiheeseen, ja käytämme sitten Safety Reasoneria sisällön tarkastamiseen. Safety Reasoner luokittelee mallin tuotokset tarkan taksonomiajärjestelmän avulla määrittämään parhaan vastaustavan, joka on osa monikerroksisia suojatoimiamme järjestelmissä, kuten GPT‑5:ssä ja ChatGPT‑agentissa. Lisäksi gpt-oss-safeguard-mallit tuovat nyt tämän saman lähestymistavan kaikkien saataville.

Miten gpt-oss-safeguard suoriutuu

Arvioimme gpt-oss-safeguard-malleja sekä sisäisillä että ulkoisilla arviointiaineistoilla.

Sisäisessä arvioinnissa annoimme gpt-oss-safeguardille useita käytäntöjä samanaikaisesti päättelyhetkellä. Jokaisen testisyötteen osalta arvioimme luokitteleeko gpt-oss-safeguard tekstin oikein kaikkien käytettyjen käytäntöjen mukaisesti. Se on haastava tehtävä, koska mallia pidetään tarkkana vain, jos se vastaa täsmälleen kaikkien käytettyjen käytäntöjen keskeisiä merkintöjä.

Gpt-oss-safeguard-mallimme ja sisäinen Safety Reasoner päihittävät gpt-5-thinking- ja gpt-oss open model -mallit usean käytännön tarkkuuden osalta. Gpt-oss-safeguardin ylivoimainen suorituskyky verrattuna gpt-5-thinking-malliin on erityisen yllättävää, kun otetaan huomioon edellisten mallien pieni koko.

Arvioimme näitä malleja edelleen vuoden 2022 tutkimusjulkaisumme(avautuu uudessa ikkunassa) mukana julkaisemallamme moderointiaineistolla(avautuu uudessa ikkunassa) ja ToxicChatilla(avautuu uudessa ikkunassa), joka on julkinen vertailuarvo avoimen lähdekoodin keskustelubotille tehtyjen käyttäjäkyselyiden perusteella.

Vuoden 2022 moderointiarvioinnissa käytimme sisäisiä turvakäytäntöjämme (mukauttaen yhtä käytäntöä myöhempien muutosten huomioon ottamiseksi). Gpt-oss-safeguard suoriutui hieman paremmin kuin kaikki muut testatut mallit, mukaan lukien sisäinen Safety Reasoner ja gpt-5-thinking, vaikka ero Safety Reasonerin ja gpt-oss-safeguardin välillä ei olekaan tilastollisesti merkitsevä.

ToxicChatin osalta teimme arvion käyttämällä lyhyttä käsin kirjoitettua kehotetta, jota oli mukautettu joistakin sisäisistä käytännöistämme. Sisäinen Safety Reasonerimme suoriutui jälleen gpt-5-thinking-mallia paremmin, kun taas sekä gpt-5-thinking että Safety Reasoner suoriutuivat vain marginaalisesti paremmin kuin gpt-oss-safeguard-120b ja gpt-oss-safeguard-20b. Odotamme, että siitä huolimatta gpt-oss-safeguardin suhteellisen pieni koko tekee siitä paremman tämän tyyppisissä tehtävissä.

Rajoitukset

Gpt-oss-safeguard-mallissa on kaksi erityistä rajoitusta. Ensinnäkin olemme havainneet, että kymmenillä tuhansilla korkealaatuisesti merkityillä näytteillä koulutetut luokittelijat pystyvät luokittelemaan sisältöä paremmin kuin gpt-oss-safeguard, kun ne päättelevät suoraan käytännöstä. Ajan käyttäminen erillisen luokittelijan kouluttamiseen voi olla parempi vaihtoehto paremman suorituskyvyn saavuttamiseksi monimutkaisissa riskeissä.

Toiseksi, gpt-oss-safeguard voi vaatia aikaa ja laskentatehoa, mikä tekee sen skaalaamisesta haastavaa koko alustan sisällölle. Sisäisesti otamme tämän huomioon useilla tavoilla Safety Reasonerin avulla: (1) käytämme pienempiä ja nopeampia luokittelijoita arvioitavan sisällön määrittämiseen ja (2) joissakin olosuhteissa käytämme Safety Reasoneria asynkronisesti tarjoamaan pienen viiveen käyttökokemuksen ja samalla säilytämme mahdollisuuden puuttua asiaan, jos havaitsemme vaarallista sisältöä.

Tie eteenpäin: jatkamme rakentamista yhteisön kanssa

Gpt-oss-safeguard on OpenAI:n ensimmäinen yhteisön kanssa rakennettu turvallisuuteen keskittyvä avoin mallisarja. Osana varhaista testausta olemme iteroineet gpt-oss-safeguardia luotettavuus- ja turvallisuusasiantuntijoiden, kuten SafetyKitin, ROOSTin, Tomoron ja Discordin avulla. ROOSTin teknologiajohtaja Vinay Rao sanoo: ”gpt-oss-safeguard on ensimmäinen avoimen lähdekoodin päättelymalli, jossa on ’tuo omat käytäntösi ja haittavaikutusten määritelmäsi’ -rakenne. Organisaatioilla on oikeus vapaasti tutkia, muokata ja käyttää kriittisiä suojausteknologioita sekä oikeus innovoida. Testeissämme se oli taitava ymmärtämään erilaisia ​​käytäntöjä, selittämään niiden perustelut ja osoittamaan vivahteita käytäntöjen soveltamisessa, minkä uskomme olevan hyödyllistä rakentajille ja turvatiimeille.”

Jatkamme yhteistyötä yhteisön kanssa avointen turvatyökalujen parantamiseksi, mukaan lukien ROOST Model Community (RMC). RMC kokoaa yhteen turvallisuusalan ammattilaisia ​​ja tutkijoita jakamaan parhaita käytäntöjä avoimen lähdekoodin tekoälymallien toteuttamiseksi turvallisuustyönkuluissa, mukaan lukien arviointien tulokset ja mallipalaute. Lisätietoja tästä kumppanuudesta ja osallistumismahdollisuuksista saa RMC GitHub -varastosta(avautuu uudessa ikkunassa).

Aloittaaksesi rakentamisen näillä malleilla voit ladata ne Hugging Face(avautuu uudessa ikkunassa) -sivustolta.

Tekijä

OpenAI