Siirry pääsisältöön
OpenAI

5. elokuuta 2025

JulkaisuTurvallisuus

gpt‑oss‑120b & gpt‑oss‑20b Mallikortti

Johdanto

Esittelemme gpt-oss-120b:n ja gpt-oss-20b:n – kaksi open-weight-reasoning-mallia, jotka ovat saatavilla Apache 2.0 -lisenssillä ja gpt-oss-käyttöehdoillamme. Avoimen lähdekoodin yhteisön palautteen pohjalta kehitetyt nämä pelkkää tekstiä tuottavat mallit ovat yhteensopivia Responses API:mme kanssa ja suunniteltu käytettäviksi agenttisissa työnkuluissa, joissa vaaditaan vahvaa ohjeiden noudattamista, työkalujen hyödyntämistä kuten verkkohakua ja Python-koodin suorittamista sekä päättelykykyä – mukaan lukien mahdollisuus säätää päättelyn määrää tehtäviin, jotka eivät vaadi monimutkaista päättelyä. Mallit ovat muokattavissa, tukevat täydellistä Chain‑of‑Thought‑prosessia (CoT) ja jäsenneltyjä tulosteita.

Perustavanlaatuinen lähestymistapamme on open model -mallien turvallisuus. Ne muodostavat erilaisen riskiprofiilin kuin suljetut mallit: Kun ne on julkaistu, voivat päättäväiset hyökkääjät hienosäätää niitä ohittaakseen turvallisuuskieltäytymisiä tai optimoida ne suoraan vahingon tuottamiseen, ilman että OpenAI:lla on mahdollisuutta ottaa käyttöön lisätoimenpiteitä tai peruuttaa käyttöoikeus.

Joissakin yhteyksissä kehittäjien ja yritysten on otettava käyttöön lisäsuojatoimia jäljitelläkseen järjestelmätason suojaukset, jotka sisältyvät malleihin, kun niitä tarjoillaan API:mme ja tuotteidemme kautta. Kutsumme tätä asiakirjaa mallikortiksi emmekä järjestelmäkortiksi, koska gpt-oss-mallit tulevat olemaan osa laajaa kirjoa järjestelmiä, joita luovat ja ylläpitävät monenlaiset sidosryhmät. Vaikka mallit on lähtökohtaisesti suunniteltu noudattamaan OpenAI:n turvallisuuskäytäntöjä, muut sidosryhmät tekevät ja toteuttavat omat päätöksensä siitä, miten järjestelmät pidetään turvassa.

Suoritimme gpt-oss-120b-mallille skaalautuvat kyvykkyysarvioinnit ja vahvistimme, että oletusmalli ei saavuta Preparedness Framework -viitekehyksessämme seurattujen kolmen kategorian (Biological and Chemical capability, Cyber capability ja AI Self-Improvement) korkeaa kyvykkyystasoa koskevia ohjeellisia kynnysarvoja. Tutkimme myös kahta lisäkysymystä:

  • Voisivatko haitalliset toimijat hienosäätää gpt-oss-120b-mallia niin, että se saavuttaa High capability Biological and Chemical- tai Cyber-alueilla? Simuloimalla hyökkääjän mahdollisia toimia hienosäädimme gpt‑oss‑120b‑mallia adversaarisesti näihin kahteen kategoriaan. OpenAI:n Safety Advisory Group (”SAG”) tarkasteli näitä testejä ja totesi, että jopa OpenAI:n alan johtavaa training stackia hyödyntävän kattavan hienosäädön jälkeen gpt-oss-120b ei yltänyt High capability -tasolle Biological and Chemical Risk- tai Cyber risk -alueilla.
  • Edistäisikö gpt‑oss‑120b:n julkaisu merkittävästi avoimien foundation‑mallien biologista kehitysrajaa? Huomasimme, että vastaus on ei: Useimmissa arvioinneissa yhden tai useamman olemassa olevan avoimen mallin oletussuorituskyky on lähes yhtä hyvä kuin gpt-oss-120b:n adversariaalisesti fine-tunettu suorituskyky.

Osana tätä julkaisua OpenAI vahvistaa sitoutumisensa hyödyllisen tekoälyn edistämiseen ja turvallisuusstandardien nostamiseen koko ekosysteemissä.