Salta al contingut principal
OpenAI

29 d’octubre del 2025

SeguretatPublicació

informe tècnic de gpt-oss-safeguard

Avaluacions de rendiment i de referència de gpt-oss-safeguard-120b i gpt-oss-safeguard-20b

Introducció

gpt-oss-safeguard-120b i gpt-oss-safeguard-20b són dos models de raonament de pesos oberts posteriors a l'entrenament previ a partir dels models gpt-oss i entrenats per raonar a partir d'una política proporcionada per tal d'etiquetar contingut d'acord amb aquesta política. Estan disponibles sota la llicència Apache 2.0 i la nostra política d'ús de gpt-oss. Desenvolupats amb comentaris de la comunitat de codi obert, aquests models només de text són compatibles amb la nostra API Responses. Els models són personalitzables, ofereixen la cadena de pensament (CoT) completa, es poden fer servir amb diferents nivells d'esforç de raonament (baix, mitjà, alt) i admeten resultats estructurats.

En aquest informe, descrivim les capacitats de gpt-oss-safeguard i presentem les nostres avaluacions de seguretat de referència dels models gpt-oss-safeguard, fent servir com a referència els models gpt-oss subjacents. Per obtenir més informació sobre el desenvolupament i l'arquitectura dels models gpt-oss subjacents, consulteu la fitxa del model de gpt-oss original.

Recomanem fer servir aquests models per classificar contingut segons una política proporcionada, i no com a funcionalitat principal amb què interactuen els usuaris finals; els models gpt-oss originals són millors per a aquestes aplicacions. Les mètriques de seguretat que es proporcionen a continuació descriuen com funcionen els models gpt-oss-safeguard en entorns de xat. Els models gpt-oss-safeguard no estan pensats per a aquest ús, però, com que són models oberts, és possible que algú els faci servir d'aquesta manera. A causa d'aquesta possibilitat, vam voler verificar que complissin els nostres estàndards de seguretat en aquest tipus d'ús; aquest informe comparteix els resultats d'aquestes proves. També compartim una avaluació inicial del rendiment multilingüe en un entorn de xat; tingueu en compte que això no avalua directament el rendiment durant la classificació de contingut amb una política proporcionada.

Els models gpt-oss-safeguard són ajustos fins dels seus equivalents gpt-oss, i es van entrenar sense cap dada addicional de biologia o ciberseguretat. Com a resultat, vam determinar que el treball anterior d'estimació dels pitjors escenaris de la publicació de gpt-oss s'aplica també a aquests nous models.

Autor

OpenAI