I dag har vi lanceret en research-forhåndsvisning af gpt-oss-safeguard, vores open-weight ræsonneringsmodeller til sikkerhedsklassifikation, som er tilgængelig i to størrelser: gpt-oss-safeguard-120b og gpt-oss-safeguard-20b. Modellerne er finjusterede versioner af vores åbne gpt-oss-modeller og er tilgængelige i henhold til samme Permissive Apache 2.0-licens, hvor alle frit kan bruge, ændre og implementere dem. Begge modeller kan downloades i dag fra Hugging Face(åbner i et nyt vindue).
Vores gpt-oss-safeguard-modeller bruger argumentation til direkte fortolkning af en udviklerbaseret politik på inferenstidspunktet, der klassificerer brugerbeskeder, fuldførelser og komplette chats i henhold til udviklerens behov. Udvikleren bestemmer altid, hvilken politik, der skal anvendes, så svarene er mere relevante og skræddersyede til udviklerens use case. Modellen bruger tankekæde (CoT), som udvikleren kan gennemgå for at forstå, hvordan modellen når frem til sine konklusioner. Desuden er politikken tilgængelig i forbindelse med inferens, i stedet for at blive trænet ind i modellen, så det er nemt for udviklerne løbende at revidere politikker for at øge præstationen. Den tilgang, som vi indledningsvist udviklede til intern brug, er markant mere fleksibel end den traditionelle metode med træning af en klassifikator til indirekte at udlede en beslutningsgrænse fra et stort antal mærkede eksempler.
gpt-oss-safeguard gør det muligt for udviklere at angive de politikgrænser, der passer bedst til deres use case. F.eks. ønsker et diskussionsforum for videospil muligvis at udvikle en politik til klassificering af opslag, der diskuterer snyd i spillene, eller et websted med produktanmeldelser ønsker at bruge sin egen politik til at frasortere anmeldelser, der med stor sandsynlighed er falske.
Modellen gør brug af to samtidige input – en politik og indholdet, der skal klassificeres i henhold til den politik – og dens output er en konklusion om, hvor indholdet fejler, samt modellen argumentering. Udviklere beslutter hvordan, hvis overhovedet, konklusionerne skal bruges i deres egen sikkerheds-pipelines. Vi har set denne argumentationsbaserede tilgang præstere særligt godt i situationer, hvor:
- den potentielle skade er ved at vise sig eller udvikle sig, og der skal hurtigt tilpasses politikker.
- domænet er meget nuanceret og vanskeligt for mindre klassifikatorer at håndtere.
- udviklere ikke har et tilstrækkeligt antal eksempler til at træne en klassifikator af høj kvalitet på enhver risiko på deres platform.
- forsinkelse er mindre vigtig end produktionen af etiketter af høj kvalitet, der kan forklares.
Vi lancerer denne forhåndsvisning af gpt-oss-safeguard for at få feedback fra research- og sikkerhedskredse og løbende justere modellens præstation. Gennem flere måneder har vi arbejdet på denne open-weight-lancering med ROOST(åbner i et nyt vindue) for at identificere udviklerens kritiske behov, teste modellen og producere udviklerdokumentation. Som en del af lanceringen vil ROOST etablere et modelfællesskab(åbner i et nyt vindue), som også lanceres i dag, for at udforske åbne AI-modeller til beskyttelse af online-rum. Sammen med lanceringen offentliggør vi en kort teknisk rapport, der i detaljer beskriver den forhåndsviste models sikkerhedspræstation.
Når det drejer sig om sikkerhed, er vi fortalere for forsvar i dybden. Vi træner vores modeller til at svare sikkert, og vi implementerer ekstra lag af beskyttelse for at registrere og adressere potentielt usikre inputs og outputs i henhold til vores politikker. Sikkerhedsklassifikatorer, som skelner sikkert indhold fra usikkert indhold på et bestemt risikoområde, har længe været et primært lag af beskyttelse for vores egne og andre store sprogmodeller.
Traditionelle sikkerhedsklassifikatorer, som f.eks. dem, der er tilgængelige via vores Moderation API(åbner i et nyt vindue), er udviklet ved manuelt at kuratere tusindvis af eksempler på sikkert og usikkert indhold i henhold til prædefinerede sikkerhedspolitikker. Ud fra disse træningsdata lærer klassifikatoren at skelne sikkert output fra usikkert. Med denne traditionelle tilgang ser klassifikatoren faktisk aldrig sikkerhedspolitikken. I stedet forsøger den at udlede den underliggende politik, der blev anvendt til at markere eksemplerne, ved at finde ligheder i indhold markeret som usikkert og forskelle mellem usikkert og sikkert indhold.
Traditionelle klassifikatorer kan levere en høj præstation med lav forsinkelse og lave driftsomkostninger. Men indsamling af et tilstrækkeligt antal træningseksempler kan være tidskrævende og omkostningstungt, og opdatering eller ændring af politikken kræver, at klassifikatoren trænes igen.
gpt-oss-safeguard er anderledes, da dens argumentationskapacitet gør det muligt for udviklerne at anvende enhver politik, herunder politikker de selv skriver eller får fra andre kilder, og argumentationen hjælper modellerne med at generalisere nyligt skrevne politikker. Udover sikkerhedspolitikker kan gpt-oss-safeguard anvendes til at markere indhold på andre måder, der er vigtige for specifikke produkter eller platforme.
Vores primære ræsonneringsmodeller lærer nu vores sikkerhedspolitikker direkte og bruger deres argumentationsmuligheder til at argumenter for, hvad der er sikkert. Den tilgang, som vi kalder deliberativ afstemning, er en markant forbedring af tidligere metoder til sikkerhedstræning, der gør vores ræsonneringsmodeller mere sikre i flere dimensioner end deres ikke-argumenterende forgængere, selv når deres kapacitet øges. Men argumentering er ikke kun nyttigt til træning af selve modellerne. Det skaber også nye muligheder for forsvar i dybden. Argumentationsbaserede tilgange er mere fleksible og mindre begrænsede af detaljer fra deres tidligere træning – fordele, der indimellem mere end retfærdiggør de ekstra beregningsomkostninger og den ekstra forsinkelse, de involverer.
gpt-oss-safeguard er en open-weight-implementering af en tilgang, som vi har udviklet internt i et værktøj, vi kalder for Safety Reasoner. Vi begyndte med finjusterede forstærkninger af opgaver med politikmærkning, der belønnede modellen for at afspejle korrekte vurderinger fra menneskelige eksperter. Det lærte modellen at argumentere for, hvordan politikken førte til dens vurdering. I dag gør Safety Reasoner det muligt for os dynamisk at opdatere vores sikkerhedspolitikker i produktion på mindre tid, end det ville tage at træne en klassifikator igen. Det gør Safety Reasoner til et vigtigt værktøj til løbende udrulning: Når vi udruller nye modeller i produktion, begynder vi ofte med strengere politikker og bruger relativt meget regnekraft efter behov for at gøre det muligt for Safety Reasoner omhyggeligt at anvende disse politikker. Derefter justerer vi vores politikker, efterhånden som vores forståelse af risiciene i produktion øges. I nogle af vores nyeste lanceringer er andelen af samlet regnekraft dedikeret til sikkerhedsargumentering nået op på 16 %.
Safety Reasoner er blevet en kernekomponent i vores sikkerhedsportefølje. For billedgenerering og Sora 2 udfører den dynamiske, trinvise evalueringer af output for at identificere og blokere ikke-sikre genereringer i realtid. Inden for områder som biologi og selvskade kører vi modeller som dem, der anvendes i Moderation API'et, som små, hurtige og high-recall-klassifikatorer for indledningsvist at fastlægge, hvilket indhold der ligger inden for et interesseområde, og bruger derefter Safety Reasoner til at gennemgå indholdet. Safety Reasoner klassificerer modeloutput mod en detaljeret taksonomi for at fastlægge, hvordan den bedst svarer, og er en del af vores sikkerhedsforanstaltninger i flere lag på tværs af systemer som GPT‑5 og ChatGPT Agent. Og nu gør gpt-oss-safeguard-modellerne samme tilgang tilgængelig for alle.
Vi evaluerede gpt-oss-safeguard-modellerne mod både interne og eksterne evalueringssæt.
I den interne evaluering gjorde vi flere politikker tilgængelige samtidigt på gpt-oss-safeguard på inferenstidspunktet. For hver testinput evaluerer vi, om gpt-oss-safeguard klassificerer teksten korrekt i henhold til alle de inkluderede politikker. Det er en udfordrende opgave – modellen anses kun for at være præcis, hvis den matcher det gyldne sæt markeringer i alle de inkluderede politikker perfekt.
Vores gpt-oss-safeguard-modeller og interne Safety Reasoner overgår gpt-5-thinking- og åbne gpt-oss-modeller i forhold til præcisionen for flere politikker. At gpt-oss-safeguard-modeller overgår gpt-5-thinking er særligt overraskende givet de tidligere modellers mindre størrelse.
Vi evaluerede desuden modellerne på det modereringsdatasæt(åbner i et nyt vindue), vi lancerede med vores forskningsartikel i 2022(åbner i et nyt vindue), og på ToxicChat(åbner i et nyt vindue), et offentligt benchmark baseret på brugerforespørgsler til en open-source-chatbot.
På evalueringssættet fra 2022, som vi evaluerede via vores interne sikkerhedspolitikker (tilpassede en enkelt politik for at tage højde for efterfølgende ændringer), overgik gpt-oss-safeguard i mindre grad alle øvrige testede modeller, herunder vores interne Safety Reasoner og gpt-5-thinking, selv om forskellen mellem Safety Reasoner og gpt-oss-safeguard ikke er statistisk signifikant.
For ToxicChat evaluerede vi ved hjælp af en kort håndskrevet forespørgsel tilpasset fra nogle af vores interne politikker. Vores interne Safety Reasoner overgik igen gpt-5-thinking, mens gpt-5-thinking og Safety Reasoner begge marginalt overgik gpt-oss-safeguard-120b og gpt-oss-safeguard-20b. Vi forventer, at en relativt lille størrelse af gpt-oss-safeguard fortsat gør den bedst egnet til denne type opgave.
Der er to specifikke begrænsninger for gpt-oss-safeguard. For det første observerede vi, at klassifikatorer trænet på titusindvis af markerede eksempler af høj kvalitet fortsat kan præstere bedre ved klassificering af indhold, end gpt-oss-safeguard kan ved argumentering direkte fra politikken. Det kan være at foretrække at bruge den nødvendige tid til at træne en dedikeret klassifikator for at opnå en bedre præstation ved mere komplekse risici.
For det andet kan gpt-oss-safeguard være tids- og beregningskrævende, hvilket gør det udfordrende at skalere på tværs af alt platformsindhold. Internt håndterer vi dette på flere måde med Safety Reasoner: (1) vi bruger mindre og hurtigere klassifikatorer til at fastlægge, hvilket indhold, der skal vurderes, og (2) under visse omstændigheder bruger vi Safety Reasoner asynkront til at levere en hurtigere brugeroplevelse, mens vi bibeholder muligheden for at gribe ind, hvis vi registrerer ikke-sikkert indhold.
gpt-oss-safeguard er OpenAI's første sæt åbne sikkerhedsmodeller bygget sammen med fællesskabet. Vi har løbende justeret gpt-oss-safeguard via tillids- og sikkerhedsspecialister som f.eks. SafetyKit, ROOST, Tomoro, og Discord som en del af den tidlige testfase. ROOST CTO Vinay Rao siger, “gpt-oss-safeguard er den første open-source ræsonneringsmodel med et ‘bring dine egne politikker og definitioner af skade’-design. Organisationer fortjener frit at kunne studere, ændre og bruge kritiske sikkerhedsteknologier og kunne nyskabe. I vores test var den i høj grad i stand til at forstå forskellige politikker, forklare sin argumentation og vise nuancer i anvendelse af politikker, hvilket vi tror, vil være en for udviklere og sikkerhedsteams.”
Vi vil fortsætte med løbende at justere sammen med fællesskabet for at forbedre åbne sikkerhedsværktøjer, herunder via ROOST Model Community (RMC). RMC samler sikkerhedseksperter og forskere for at dele de bedste fremgangsmåder til implementering af open-source AI-modeller i sikkerhedsarbejdsgange, herunder evaluering at resultater og modelfeedback. Gå til RMC GitHub-repo'et(åbner i et nyt vindue) for at se mere om partnerskabet, og hvordan du bliver en del af det.
Du kan begynde at bygge med disse modeller ved at downloade dem fra Hugging Face(åbner i et nyt vindue).

