Gå direkt till huvudinnehåll
OpenAI

29 oktober 2025

SäkerhetLansering

Teknisk rapport

Prestanda- och baselinjeutvärderingar av gpt-oss-safeguard-120b och gpt-oss-safeguard-20b

Introduktion

Gpt-oss-safeguard-120b och gpt-oss-safeguard-20b är två resonemangsmodeller med öppen vikt som tränas vidare på gpt-oss-modellerna och tränas att resonera utifrån en given policy för att märka innehåll i enlighet med den. De är tillgängliga med licensen Apache 2.0 och i enlighet med vår användningspolicy för gpt-oss. Dessa textbaserade modeller har utvecklats med hjälp av feedback från open-source-communityn och är kompatibla med vår Svar-API. Modellerna kan skräddarsys, redovisar fullständiga tankekedjor (CoT), kan användas med olika resonemangsnivåer (låg, medel, hög) och stöder strukturerade utdata.

I den här rapporten beskriver vi gpt-oss-safeguards funktioner och redovisar våra grundläggande säkerhetsutvärderingar om gpt-oss-safeguard-modellerna, där vi använder de underliggande gpt-oss-modellerna som baslinje. Mer information om utvecklandet av och arkitekturen bakom de underliggande gpt-oss-modellerna finns att läsa i gpt-oss-modellens ursprungliga modellkort.

Vi rekommenderar att dessa modeller används för att klassificera innehåll utifrån en given policy, och inte som den huvudfunktion som slutanvändarna interagerar med, eftersom de ursprungliga gpt-oss-modellerna är bättre för dessa ändamål. Säkerhetsmåtten nedan beskriver hur gpt-oss-safeguard-modellerna fungerar i chattmiljöer. Gpt-oss-safeguard-modellerna är inte avsedda att användas på det här sättet, men eftersom de är open models är det möjligt att använda dem på detta sätt. På grund av den möjligheten vill vi kontrollera att de uppfyller våra säkerhetsstandarder vid sådan användning, och denna rapport innehåller resultaten av dessa tester. Vi presenterar även en inledande utvärdering av hur modellerna presterar på flera språk i en chattmiljö. Observera att utvärderingen inte direkt bedömer prestandan vid innehållsklassificering utifrån en given policy.

Gpt-oss-safeguard-modellerna är finjusteringar av sina gpt-oss-motsvarigheter och har tränats utan ytterligare biologiska data eller cybersäkerhetsdata. Därför har vi kommit fram till att det tidigare arbetet med att utvärdera värsta tänkbara scenarier från gpt-oss-lanseringen även gäller för dessa nya modeller.

Författare

OpenAI