Siirry pääsisältöön
OpenAI

29. lokakuuta 2025

TurvallisuusTiedote

Tekninen raportti

Mallien gpt-oss-safeguard-120b ja gpt-oss-safeguard-20b suorituskyky- ja vertailukohta-arvioinnit

Johdanto

Mallit gpt-oss-safeguard-120b ja gpt-oss-safeguard-20b ovat kaksi avoimen painotuksen päättelymallia, jotka on jälkikoulutettu gpt-oss-malleista ja koulutettu päättelemään annetun käytännön perusteella sisällön merkitsemiseksi kyseisen käytännön mukaisesti. Ne ovat saatavilla Apache 2.0 -lisenssin ja gpt-oss-mallin käyttöä koskevan käytäntömme mukaisesti. Nämä vain tekstiä sisältävät mallit, jotka on kehitetty avoimen lähdekoodin yhteisön palautteen pohjalta ovat yhteensopivia Responses API:mme kanssa. Mallit ovat muokattavissa, tarjoavat täyden ajatusketjun (CoT), niitä voidaan käyttää erilaisilla päättelytasoilla (matala, keskitaso, korkea) ja ne tukevat jäsenneltyjä tuotoksia.

Tässä raportissa kuvaamme gpt-oss-safeguardin ominaisuuksia ja esittelemme gpt-oss-safeguard-mallien vertailukohtaiset turvallisuusarvioinnit käyttäen taustalla olevia gpt-oss-malleja lähtökohtana. Lisätietoja taustalla olevien gpt-oss-mallien kehityksestä ja arkkitehtuurista on alkuperäisessä gpt-oss-mallikortissa.

Suosittelemme näiden mallien käyttöä sisällön luokitteluun annetun käytännön mukaisesti, ei loppukäyttäjien vuorovaikutuksessa olevana ydintoimintona. Niihin sovelluksiin sopivat paremmin alkuperäiset gpt-oss-mallit. Alla olevat turvallisuusarvot kuvaavat, miten gpt-oss-safeguard-mallit toimivat keskusteluissa. Avoimia gpt-oss-safeguard-malleja ei ole tarkoitettu siihen tarkoitukseen, mutta koska ne ovat avoimia, joku voi käyttää malleja sillä tavalla. Sen mahdollisuuden vuoksi halusimme varmistaa, että ne täyttävät turvallisuusstandardimme siinä käytössä. Tässä raportissa esitetään testien tulokset. Jaamme myös alustavan arvion monikielisestä suorituskyvystä keskusteluissa. Huomaa, että se ei suoraan arvioi suorituskykyä sisällön luokittelun aikana annetun käytännön mukaisesti.

Gpt-oss-safeguard-mallit ovat hienosäädettyjä versioita gpt-oss-vastineistaan, ja ne on koulutettu ilman mitään muita biologisia tai kyberturvallisuustietoja. Sen seurauksena totesimme, että aiempi työ, jossa arvioitiin pahimpia skenaarioita gpt-oss-julkaisun ristituloksesta soveltuu myös näihin uusiin malleihin.

Tekijä

OpenAI