Gå direkt till huvudinnehåll
OpenAI

29 oktober 2025

ProduktLansering

Vi presenterar gpt-oss-safeguard

Nya öppna modeller för säkerhetsresonemang (120b och 20b) som stöder skräddarsydda säkerhetsbestämmelser.

Laddar …

Idag släpper vi en förhandsgranskning i forskningssyfte av gpt-oss-safeguard, vår resonemangsmodell med öppen vikt för säkerhetsklassificering. Den kommer i två storlekar: gpt-oss-safeguard-120b och gpt-oss-safeguard-20b. Dessa modeller är finjusterade versioner av våra öppna gpt-oss-modeller och görs tillgängliga under samma tillåtande Apache 2.0-licens, vilket innebär att vem som helst kan använda, modifiera och driftsätta dem utan begränsningar. Båda modellerna kan laddas ner idag från Hugging Face(öppnas i ett nytt fönster).

Gpt-oss-safeguard-modellerna använder resonemang för att direkt tolka policyer som tillhandahålls av en utvecklare vid inferenstiden. De klassificerar användarmeddelanden, slutföranden och hela chattar, allt efter utvecklarens behov. Det är alltid utvecklaren som bestämmer vilken policy som ska användas, så svaren är relevantare och mer skräddarsydda för utvecklarens användningsfall. Modellen använder tankekedjor, som utvecklaren kan granska för att förstå hur modellen fattar sina beslut. Dessutom tillhandahålls policyn under inferens, istället för att vara intränad i modellen, så det är enkelt för utvecklare att iterativt revidera policyer för bättre resultat. Den här metoden, som vi ursprungligen tog fram för intern användning, är betydligt mer flexibel än det traditionella tillvägagångssättet, där en klassificerare tränades för att indirekt härleda en beslutsgräns utifrån ett stort antal märkta exempel.

Med gpt-oss-safeguard kan utvecklare dra de policygränser som bäst passar deras användningsfall. Ett diskussionsforum för tv-spel kanske till exempel vill ta fram en policy för att klassificera inlägg som handlar om fusk i spelet, eller så kanske en webbplats för produktrecensioner vill använda en egen policy för att granska recensioner som ser ut att vara falska.

Modellen tar emot två inmatningar på samma gång – en policy och innehållet som ska klassificeras enligt den policyn – och matar ut en slutsats om var innehållet passar samt resonemanget bakom detta beslut. Utvecklare bestämmer hur, och om, dessa slutsatser ska användas i deras egna säkerhetsförfaranden. Vi har sett att denna resonemangsbaserade metod fungerar särskilt bra i följande situationer:

  • Den potentiella skadan är ny och stadd i förändring, så att policyerna kan behöva anpassas snabbt.
  • Domänen är mycket nyanserad och svår att hantera för mindre klassificerare.
  • Utvecklare har inte tillräckligt många exempel för att träna upp en högkvalitativ klassificerare för varje risk på sin plattform.
  • Latens är mindre viktigt än att producera högkvalitativa etiketter som kan förklaras.

Vi släpper denna förhandsgranskning av gpt-oss-safeguard i syfte att samla in feedback från användare inom forskning och säkerhet, för att med denna fortsätta att iterera modellprestandan. Under flera månaders tid samarbetade vi med ROOST(öppnas i ett nytt fönster) på denna version med öppen vikt, för att identifiera utvecklares viktigaste behov, testa modellerna och producera dokumentation för utvecklare. Som en del av denna lansering kommer ROOST att etablera en modellcommunity(öppnas i ett nytt fönster), som även den lanseras idag, i syfte att utforska öppna AI-modeller och skydda utrymmen online. I samband med den här lanseringen publicerar vi en kortfattad teknisk rapport med detaljer om förhandsgranskningsmodellens säkerhetsrelaterade resultat.

Säkerhet på systemnivå: säkerhetsklassificerarnas roll

När det gäller säkerhet tror vi på djuplodande skydd. Vi tränar våra modeller att svara på ett tryggt sätt, och implementerar ytterligare skyddslager för att upptäcka och ta itu med farliga indata och utdata, i enlighet med våra policyer. Säkerhetsklassificerare, som skiljer tryggt från farligt innehåll inom ett visst riskområde, har länge fungerat som ett primärt skyddslager i vår egen och andra stora språkmodeller.

Traditionella säkerhetsklassificerare, exempelvis de i vårt modererings-API, utvecklas genom manuellt urval av tusentals exempel på tryggt och farligt innehåll, i enlighet med fördefinierade säkerhetspolicyer. Baserat på dessa träningsdata lär sig klassificeraren att skilja trygga från farliga utdata. Med detta traditionella tillvägagångssätt, ser klassificeraren aldrig riktigt säkerhetspolicyn. Istället försöker den härleda vilken underliggande policy som användes för att märka exemplen. Den uppnår detta genom att hitta likheter i innehåll som markerats som farligt, och skillnader mellan farligt och säkert innehåll.

Traditionella klassificerare kan prestera väl, med låg latens och drifftskostnad. Men det kan vara tidsödande och dyrt att samla in tillräckliga mängder träningsexempel, och om policyn behöver uppdateras eller ändras måste klassificeraren tränas om.

Gpt-oss-safeguard är annorlunda eftersom dess resonemangsförmåga gör att utvecklare kan använda valfri policy, inbegripet sådana de själva skriver eller hämtar från andra källor. Resonemanget hjälper modellerna att dra allmänna slutsatser om nya skriftliga policyer. Utöver säkerhetspolicyer kan gpt-oss-safeguard användas för att märka innehåll på andra sätt, som är viktiga för specifika produkter eller plattformar.

Flödesdiagram med titeln ”Policybaserat resonemang med gpt-oss-safeguard”. Policyer från utvecklare och innehåll från användare matas in i GPT-OSS-Safeguard. Modellen skapar en tankekedja och fattar sedan ett policybeslut. En loop med titeln ”policyiterering” löper tillbaka för att förfina policyerna. En symbolförklaring visar indata från utvecklare, indata från användare och utdata från modell.

Så använder vi säkerhetsrelaterade resonemang internt

Våra primära resonemangsmodeller lär sig nu våra säkerhetspolicyer direkt, och använder sin resonemangsförmåga för att bedöma vad som är tryggt. Denna metod, som vi kallar deliberativ justering är avsevärt bättre än tidigare metoder för säkerhetsträning och gör våra resonemangsmodeller säkrare inom flera områden än deras föregångare som saknade resonemangsförmåga, trots att dessa blir alltmer kapabla. Men resonemang är inte bara användbart för att träna själva modellerna. Det skapar också nya möjligheter till djupgående skydd. Resonemangsbaserade tillvägagångssätt är mer flexibla och i mindre utsträckning begränsade av detaljer från tidigare genomgången träning. Dessa fördelar väger ibland upp mer än väl för extra beräkningskostnader och latens.

Gpt-oss-safeguard utgör en implementering med öppen vikt av en metod som vi utvecklat internt, i ett verktyg vi kallar för Säkerhetstänkaren. Vi började med förstärkande finjustering i uppgifter med policymärkning, där vi belönade modellen när den återspeglade korrekta beslut tagna av mänskliga experter. På det sättet lärde sig modellen att resonera kring hur policyn leder till ett beslut. Med Säkerhetstänkaren kan vi nu uppdatera våra säkerhetspolicyer dynamiskt i produktion, snabbare än det skulle vara att träna en klassificerare på nytt. Därför är Säkerhetstänkaren ett viktigt verktyg för iterativ driftsättning: När vi driftsätter nya modeller i produktionsmiljö börjar vi ofta med striktare policyer och använder relativt stora beräkningsmängder, vid behov, för att Säkerhetstänkaren ska kunna tillämpa policyerna med omsorg. Sedan justerar vi våra policyer i takt med att vår förståelse för riskerna i produktionsmiljö ökar. I några av våra senaste lanseringar har andelen total beräkningskraft för säkerhetsresonemang nått så högt som 16 %.

Säkerhetsresonemang har blivit en central del av vår säkerhetsstack. När det kommer till bildgenerering och Sora 2, utför den dynamiska, stegvisa bedömningar av utdata i syfte att identifiera och blockera farliga genereringar i realtid. Inom domäner som biologi och självskadebeteende kör vi modeller liknande de som används i modererings-API:er som små, snabba klassificerare med hög återkallningsgrad, i syfte att fastställa vilket innehåll som faller inom en intressedomän. Därefter använder vi Säkerhetstänkaren för att granska det innehållet. Säkerhetstänkaren klassificerar modellens utdata i relation till en detaljerad taxonomi för att fastställa det bästa sättet att svara. Detta utgör en del av skyddsåtgärder i flera lager inom system som GPT‑5 och ChatGPT‑agenten. Nu blir detta tillvägagångssätt tillgängligt för alla, tack vare gpt-oss-safeguard-modellerna.

Så presterar gpt-oss-safeguard

Vi använde både interna och externa utvärderingsuppsättningar för att utvärdera gpt-oss-safeguard-modellerna.

I den interna utvärderingen tillhandahöll vi gpt-oss-safeguard med flera policyer samtidigt vid inferenstiden. För varje testinmatning utvärderade vi huruvida gpt-oss-safeguard lyckades klassificera texten under alla policyer som inkluderats. Det är en svår uppgift – modellen får bara rätt om den matchar de gyllene märkningarna exakt för alla inkluderade policyer.

Våra gpt-oss-safeguard-modeller och den interna Säkerhetstänkaren presterar bättre än gpt-5-thinking och de öppna gpt-oss-modellerna när det gäller korrekt märkning med flera policyer. Det är särskilt överraskande att gpt-oss-safeguard-modellerna presterar bättre än gpt-5-thinking, eftersom de förstnämnda är så små.

Vi utvärderade dessa modeller ytterligare med modereringsdatamängden(öppnas i ett nytt fönster) som vi lanserade i samband med vår forskningsartikel 2022(öppnas i ett nytt fönster) och på ToxicChat(öppnas i ett nytt fönster), ett offentligt riktmärke baserat på användarfrågor som skickats till en dialogrobot med öppen källkod.

Vi använde interna säkerhetspolicyer för att utvärdera med hjälp av det modereringsrelaterade utvärderingsmaterialet från 2022 (efter att ha ändrat en policy i enlighet med senare ändringar). Gpt-oss-safeguard presterade något bättre än alla andra modeller som deltog i testet, däribland vår interna Säkerhetstänkare och gpt-5-thinking, även om skillnaden mellan Säkerhetstänkaren och gpt-oss-safeguard inte är statistiskt signifikant.

För att utvärdera ToxicChat använde vi en kort, handskriven prompt baserad på några av våra interna policyer. Återigen presterade vår interna Säkerhetstänkare bättre än gpt-5-thinking, medan gpt-5-thinking och Säkerhetstänkaren med liten marginal presterade bättre än gpt-oss-safeguard-120b och gpt-oss-safeguard-20b. Vi förväntar oss att gpt-oss-safeguards relativt ringa storlek gör den bäst anpassad för den här typen av uppgift.

Begränsningar

Det finns två specifika begränsningar med gpt-oss-safeguard. För det första har vi sett att klassificerare som tränats på tiotusentals högkvalitativt märkta exempel fortfarande presterar bättre när det gäller att klassificera innehåll än gpt-oss-safeguard, när den senare resonerar direkt utifrån policyn. För att uppnå bättre resultat i mer komplexa riskfall kan det vara värt det att träna en särskild klassificerare.

För det andra kan gpt-oss-safeguard vara tids- och beräkningsintensiv, vilket kan göra det svårt att skala den över allt plattformsinnehåll. Internt har vi löst detta på olika sätt med Säkerhetstänkaren: (1) vi använder mindre och snabbare klassificerare för att fastställa vilket innehåll som ska bedömas och (2) använder, i vissa fall, Säkerhetstänkaren asynkront för att kunna tillhandahålla en användarupplevelse med låg latens, samtidigt som vi kan ingripa om vi upptäcker farligt innehåll.

Vägen framåt: fortsätta att bygga med vår community

Gpt-oss-safeguard är OpenAI:s första uppsättning öppna säkerhetsmodeller som byggts tillsammans med vår community. Under tidig testning itererade vi gpt-oss-safeguard i samarbete med tillförlitlighets- och säkerhetsexperter från SafetyKit, ROOST, Tomoro, och Discord. Vinay Rao, CTO på ROOST, säger: ”gpt-oss-safeguard är den första resonemangsmodellen med öppen källkod som har utformats för att användas med egna policyer och skadedefinitioner. Organisationer förtjänar möjligheten att utan begränsningar studera, modifiera och använda viktig säkerhetsteknik samt innovera. I vår testning var den bra på att förstå olika policyer, förklara sitt resonemang och uppvisa nyanserad tillämpning av policyerna, något vi tror kommer att vara till fördel för konstruktörer och säkerhetsteam.”

Vi fortsätter att iterera i samarbete med vår community för att förbättra tillgången på öppna säkerhetsverktyg, bland annat genom ROOST Model Community (RMC). RMC sammanför säkerhetsexperter och forskare i syfte att dela bästa praxis för implementeringen av AI-modeller med öppen källkod i säkerhetsrelaterade arbetsflöden, inbegripet utvärderingsresultat och modellfeedback. Gå till RMC GitHub-kodförrådet(öppnas i ett nytt fönster) för att läsa mer om detta partnerskap och hur du kan delta.

Du kan ladda ner dessa modeller från Hugging Face(öppnas i ett nytt fönster) för att börja bygga med dem.

Författare

OpenAI