Gå til hovedindhold
OpenAI

29. oktober 2025

SikkerhedUdgivelse

Teknisk rapport

Ydeevne- og baselineevalueringer af gpt-oss-safeguard-120b og gpt-oss-safeguard-20b

Introduktion

Gpt-oss-safeguard-120b og gpt-oss-safeguard-20b er to ræsonneringsmodeller med åben vægt, der er eftertrænet fra gpt-oss-modellerne og trænet til at ræsonnere ud fra en angiven politik for at markere indhold i henhold til den pågældende politik. De er tilgængelige under Apache 2.0-licensen og vores gpt-oss-brugspolitik. Disse tekstbaserede modeller er udviklet med feedback fra open-source-fællesskabet og er kompatible med vores Responses-API. Modellerne kan tilpasses og tilbyder en fuld tankekæde (CoT), kan anvendes med forskellige ræsonnementsniveauer (lavt, medium, højt) og understøtter strukturerede outputs.

I denne rapport beskriver vi gpt-oss-safeguards funktioner og giver vores grundlæggende sikkerhedsevalueringer af gpt-oss-safeguard-modellerne ved brug af de underliggende gpt-oss-modeller som baseline. For yderligere oplysninger om udviklingen og arkitekturen af de underliggende gpt-oss-modeller henvises der til det originale gpt-oss-modelkort.

Vi anbefaler brug af disse modeller til at klassificere indhold i henhold til en angivet politik, og ikke som kernefunktionaliteten, med hvilken slutbrugeren interagerer. De originale gpt-oss-modeller er bedre til disse brugsområder. Sikkerhedsmålingerne, der er angivet nedenfor, beskriver, hvordan gpt-oss-safeguard-modeller fungerer i chatindstillinger. Disse gpt-oss-safeguard-modeller er ikke beregnet til denne brug, men eftersom de er åbne modeller, er det muligt, at nogen kan bruge modellerne på denne måde. På grund af denne mulighed ønskede vi at verificere, at de opfylder vores sikkerhedsstandarder for sådan brug, og denne rapport deler resultaterne af disse tests. Vi deler også en foreløbig evaluering af flersproglig ydeevne i en chatsituation. Bemærk, at dette ikke direkte vurderer ydeevnen under indholdsklassificering med en angivet politik.

Gpt-oss-safeguard-modellerne er finjusteringer af deres gpt-oss-modparter og er blevet trænet uden yderligere biologiske data eller cybersikkerhedsdata. Derfor konkluderede vi, at det tidligere arbejde med at estimere de værst tænkelige scenarier fra gpt-oss-udgivelsen også gælder for disse nye modeller.

Skrevet af

OpenAI