29. oktober 2025

Vi introduserer gpt-oss-safeguard

Nye åpne resonneringsmodeller for sikkerhet (120b og 20b) som støtter egendefinerte sikkerhetsretningslinjer.

Laster inn …

I dag lanserer vi en utprøvingsversjon av gpt-oss-safeguard, resonneringsmodellene våre med åpen vekting for oppgaver innen sikkerhetsklassifisering, som er tilgjengelig i to størrelser: gpt-oss-safeguard-120b og gpt-oss-safeguard-20b. Disse modellene er finjusterte versjoner av våre gpt-oss⁠ open model-er og er tilgjengelige i henhold til den samme tillatende Apache 2.0-lisensen, noe som lar hvem som helst bruke, endre og utrulle dem fritt. Begge modellene kan lastes ned i dag fra Hugging Face⁠(åpnes i et nytt vindu).

Modellene gpt-oss-safeguard bruker resonnement til å direkte tolke utviklerleverte retningslinjer ved inferenstidspunktet – noe som klassifiserer brukermeldinger, fullførelser og fullstendige chatter i henhold til utviklerens behov. Utvikleren bestemmer alltid hvilke retningslinjer som skal brukes, slik at svar er mer relevante og tilpasset etter utviklerens bruksområder. Modellen bruker tankerekke, som utvikleren kan se gjennom for å forstå hvordan modellen når avgjørelsene sine. I tillegg blir retningslinjene gitt under inferens i stedet for å bli lært opp i modellen, slik at det er enkelt for utviklere å iterativt revidere retningslinjer for å øke ytelse. Denne tilnærmingen, som vi først utviklet for intern bruk, er betydelig mer fleksibel enn den tradisjonelle metoden med å lære opp en klassifikator til å indirekte dedusere en avgjørelsesgrense fra et stort antall merkede eksempler.

Med gpt-oss-safeguard kan utviklere angi grensene for retningslinjer som er best egnet for bruksområdene deres. Et diskusjonsforum for videospill vil kanskje utvikle retningslinjer for å klassifisere innlegg som diskuterer juks i spillet, eller et nettsted for produktanmeldelser vil kanskje bruke sine egne retningslinjer for å sile ut anmeldelser som sannsynligvis er falske.

Modellen tar to inndata samtidig – retningslinjer og innholdet som skal klassifiseres i henhold til de retningslinjene – og gir en konklusjon om hvor innholdet ligger, samt resonnement. Utviklere bestemmer hvordan, om i det hele tatt, disse konklusjonene skal brukes i sine egne sikkerhetsprosesser. Vi har sett at denne resonnementbaserte tilnærmingen presterer spesielt godt i situasjoner der

den potensielle skaden er fremvoksende eller under utvikling, og retningslinjene må tilpasses raskt
domenet er veldig nyansert og vanskelig å håndtere for mindre klassifikatorer
utviklere ikke har nok eksempler til å lære opp klassifikatorer av høy kvalitet for hver risiko på plattformen sin
forsinkelse er mindre viktig enn å produsere etiketter av høy kvalitet som kan forklares

Vi gir ut denne forhåndsvisningen av gpt-oss-safeguard for å få tilbakemeldinger fra forsknings- og sikkerhetsfellesskapet og iterere videre på modellytelse. Vi brukte flere måneder på denne utgivelsen med åpen vekting med ROOST⁠(åpnes i et nytt vindu) for å identifisere utvikleres kritiske behov, teste modellen og produsere utviklerdokumentasjon. Som en del av denne lanseringen kommer ROOST til å etablere et modellfellesskap⁠(åpnes i et nytt vindu), som også lanseres i dag, for å utforske åpne AI-modeller for å beskytte områder på nettet. Sammen med denne utgivelsen publiserer vi en kort teknisk rapport⁠ som forklarer sikkerhetsytelsen til denne utprøvingsmodellen.

Sikkerhet på systemnivå: rollen til sikkerhetsklassifikatorer

Når det gjelder sikkerhet, tror vi på forsvar i dybde⁠. Vi lærer opp modellene våre til å svare trygt, og vi implementerer ytterligere beskyttelseslag for å oppdage og håndtere potensielt usikre inndata og utdata i henhold til retningslinjene våre. Sikkerhetsklassifikatorer, som skiller sikkert fra usikkert innhold i et bestemt risikoområde, har lenge vært et primært sikkerhetslag for våre egne og andre store språkmodeller.

Tradisjonelle sikkerhetsklassifikatorer, for eksempel de som er tilgjengelige via Moderation API⁠(åpnes i et nytt vindu), er utviklet ved å manuelt velge ut tusenvis av eksempler på sikkert og usikkert innhold, under forhåndsdefinerte sikkerhetsretningslinjer. Fra disse opplæringsdataene lærer klassifikatoren å skille sikre fra usikre utdata. I denne tradisjonelle tilnærmingen ser klassifikatoren aldri sikkerhetsretningslinjene. I stedet forsøker den å dedusere de underliggende retningslinjene som ble brukt til å merke eksemplene ved å finne likheter i innholdet som er merket som usikkert, og forskjeller mellom det usikre og sikre innholdet.

Tradisjonelle klassifikatorer kan ha høy ytelse, med lav forsinkelse og lave brukskostnader. Men innhenting av en tilstrekkelig mengde opplæringseksempler kan være tidskrevende og dyrt, og oppdatering eller endring av retningslinjene krever ny opplæring av klassifikatoren.

gpt-oss-safeguard er forskjellig, fordi resonneringsfunksjonene lar utviklere benytte hvilke som helst retningslinjer, inkludert retningslinjer de skriver selv eller henter fra andre kilder, og resonnement hjelper modellene med å generalisere basert på nylig skrevne retningslinjer. I tillegg til sikkerhetsretningslinjer kan gpt-oss-safeguard brukes til å merke innhold på andre måter som er viktige for spesifikke produkter og plattformer.

Flytdiagram med tittelen «Resonnement basert på retningslinjer med gpt-oss-safeguard». Utviklerleverte retningslinjer og brukerlevert innhold mates inn i GPT-OSS-Safeguard. Modellen produserer en tankerekke og så en avgjørelse om retningslinjer, med en sløyfe merket «iterering av retningslinjer» som mates tilbake for å finjustere retningslinjer. En forklaring indikerer utviklerinndata, brukerinndata og modellutdata.

Slik bruker vi sikkerhetsresonnement internt

Nå lærer de primære resonneringsmodellene våre sikkerhetsretningslinjene direkte og bruker resonneringsfunksjonene sine til å resonnere om hva som er trygt. Denne tilnærmingen, som vi kaller bevisst tilpasning⁠, har betydelige forbedringer sammenlignet med tidligere opplæringsmetoder for sikkerhet og gjør resonneringsmodellene våre tryggere innen flere akser enn forgjengerne uten resonnement, selv når funksjonaliteten økes. Men resonnement er ikke bare nyttig for opplæring av selve modellene. Det skaper også nye muligheter for forsvar i dybde. Resonnementbaserte tilnærminger er mer fleksible og mindre begrenset av detaljene i den tidligere opplæringen sin – fordeler som noen ganger mer enn rettferdiggjør den ytterligere datakraftkostnaden og forsinkelsen de medfører.

gpt-oss-safeguard er en implementering med åpen vekting av en tilnærming vi utviklet internt, i et verktøy vi kaller Safety Reasoner. Vi begynte med forsterkende finjustering av merkeoppgaver for retningslinjer, med belønning av modellen for å speile riktig dømmekraft fra menneskelige eksperter. Dette lærte modellen å resonnere om hvordan retningslinjen fører til bedømmelsen. I dag lar Safety Reasoner oss oppdatere sikkerhetsretningslinjene dynamisk i produksjon på mindre tid enn det hadde tatt å lære opp en klassifikator på nytt. Dette gjør Safety Reasoner til et viktig verktøy for iterativ utrulling⁠: når vi ruller ut nye modeller til produksjon, starter vi ofte med strengere retningslinjer og bruker relativt store mengder datakraft der det er nødvendig for å la Safety Reasoner ta disse retningslinjene i bruk på en grundig måte. Så justerer vi retningslinjene når forståelsen vår av risikoene i produksjonen forbedres. I noen av de nylige lanseringene våre har andelen av total datakraft viet til sikkerhetsresonnement beveget seg så høyt som 16 %.

Safety Reasoner har blitt en kjernekomponent av sikkerhetsstrukturen vår. For bildegenerering og Sora 2 utfører den dynamiske, trinnvise evalueringer av utdata for å identifisere og blokkere usikre genereringer i sanntid. I domener som biologi og selvskading kjører vi modeller som de som brukes i Moderation API, som små, raske klassifikatorer med høy gjenkjenning som fastslår hvilket innhold som er innen et interessedomene, og så bruke Safety Reasoner til å gjennomgå det innholdet. Safety Reasoner klassifiserer modellutdata mot en detaljert taksonomi for å fastslå den beste måten å respondere på, noe som danner en del av beskyttelsen vår i flere lag i systemer som GPT‑5 og ChatGPT Agent. Og nå gjør gpt-oss-safeguard-modellene denne samme tilnærmingen tilgjengelig for alle.

Slik presterer gpt-oss-safeguard

Vi evaluerte gpt-oss-safeguard-modellene på både interne og eksterne evalueringssett.

I den interne evalueringen ga vi flere retningslinjer samtidig til gpt-oss-safeguard på inferenstidspunktet. For alle testinndata evaluerer vi hvorvidt gpt-oss-safeguard klassifiserer teksten riktig i henhold til alle de inkluderte retningslinjene. Dette er en utfordrende oppgave – modellen anses bare som nøyaktig hvis den matcher det gylne settet med etiketter eksakt for alle de inkluderte retningslinjene.

Våre gpt-oss-safeguard-modeller og interne Safety Reasoner overgår gpt-5-thinking og open model-ene gpt-oss for nøyaktighet ved flere retningslinjer. Det at gpt-oss-safeguard-modellene overgår gpt-5-thinking, er spesielt overraskende med tanke på den beskjedne størrelsen til de førnevnte modellene.

Vi evaluerte disse modellene videre på datasettet for moderering⁠(åpnes i et nytt vindu) vi lanserte med forskningsartikkelen vår fra 2022⁠(åpnes i et nytt vindu) og på ToxicChat⁠(åpnes i et nytt vindu), en offentlig referansemåling basert på brukerspørringer til en chatbot med åpen kildekode.

På evalueringssettet for moderering fra 2022 evaluerte vi med de interne sikkerhetsretningslinjene våre (tilpasset ett sett med retningslinjer for å ta hensyn til etterfølgende endringer). gpt-oss-safeguard presterte litt bedre enn alle andre testede modeller, inkludert den interne Safety Reasoner og gpt-5-thinking, selv om denne forskjellen mellom Safety Reasoner og gpt-oss-safeguard ikke er statistisk signifikant.

For ToxicChat evaluerte vi med en kort håndskrevet melding tilpasset fra noen av de interne retningslinjene våre. Den interne Safety Reasoner overgikk igjen gpt-5-thinking, mens både gpt-5-thinking og Safety Reasoner marginalt overgår gpt-oss-safeguard-120b og gpt-oss-safeguard-20b. Vi forventer at den relativt beskjedne størrelsen til gpt-oss-safeguard fremdeles gjør at den foretrekkes for denne typen oppgave.

Begrensninger

Det er to spesifikke begrensninger for gpt-oss-safeguard. Først har vi observert at klassifikatorer som er opplært på titusener merkede eksempler av høy kvalitet fremdeles kan prestere bedre for klassifisering av innhold enn gpt-oss-safeguard ved resonnement direkte fra retningslinjene. Det kan foretrekkes å bruke tid til å lære opp en dedikert klassifikator for høyere ytelse på mer komplekse risikoer.

For det andre kan gpt-oss-safeguard bruke mye tid og datakraft, noe som gjør det utfordrende å skalere for alt plattforminnhold. Internt håndterer vi dette på flere måter med Safety Reasoner: (1) vi bruker mindre og raskere klassifikatorer for å fastslå hvilket innhold som skal vurderes, og (2) i noen omstendigheter bruker vi Safety Reasoner asynkront for å gi en brukeropplevelse med lav forsinkelse mens vi opprettholder evnen til å innvende hvis vi registrerer utrygt innhold.

Veien videre: fortsette å bygge med fellesskapet

gpt-oss-safeguard er OpenAIs første sett med åpne sikkerhetsmodeller bygget med fellesskapet. Vi har iterert på gpt-oss-safeguard med spesialister innen tillit og sikkerhet hos SafetyKit, ROOST, Tomoro og Discord som en del av tidlig testing. ROOST CTO Vinay Rao sier «gpt-oss-safeguard er den første resonneringsmodellen med åpen kildekode som innbefatter “bruk dine egne retningslinjer og definisjoner på skade”. Organisasjoner fortjener å fritt studere, modifisere og bruke teknologi for kritisk sikkerhet og være i stand til å innovere. I testingen vår var den dyktig til å forstå forskjellige retningslinjer, forklare resonnementet sitt og vise nyanser ved bruk av retningslinjer, noe vi mener blir nyttig for byggere og sikkerhetsteam.»

Vi kommer til å fortsette å iterere med fellesskapet for å forbedre åpne sikkerhetsverktøy, inkludert via ROOST Model Community (RMC). RMC samler sikkerhetspraktikere og forskere for å dele god praksis for implementering av AI-modeller med åpen kildekode inn i sikkerhetsarbeidsflyter, inkludert evalueringsresultater og modelltilbakemeldinger. Gå til RMC GitHub-repositoriet⁠(åpnes i et nytt vindu) for å finne ut mer om dette partnerskapet og hvordan du kan bli involvert.

For å starte å bygge med disse modellene kan du laste dem ned fra Hugging Face⁠(åpnes i et nytt vindu).

2025

Forfatter

OpenAI

Les videre

Se alle

Teknisk rapport: Evalueringer av ytelse og referanseverdier for gpt-oss-safeguard-120b og gpt-oss-safeguard-20b

Sikkerhet29. okt. 2025

Vi introduserer gpt-oss

Utgivelse5. aug. 2025

gpt‑oss‑120b & gpt‑oss‑20b Modellkort

Publikasjon5. aug. 2025