Informe técnico
Evaluación del rendimiento y los valores de referencia de gpt-oss-safeguard-120b y gpt-oss-safeguard-20b
gpt-oss-safeguard-120b y gpt-oss-safeguard-20b son dos modelos de razonamiento con pesos abiertos, entrenados posteriormente a partir de los modelos gpt-oss. Se han entrenado para razonar a partir de una política proporcionada con el fin de etiquetar contenido según dicha política. Están disponibles con la licencia Apache 2.0 y nuestra política de uso de gpt-oss. Desarrollados con la opinión de la comunidad de código abierto, estos modelos solo de texto son compatibles con nuestra API Responses. Los modelos se pueden personalizar, ofrecen una cadena de pensamiento completa (CoT), pueden utilizarse con distintos niveles de esfuerzo de razonamiento (bajo, medio, alto) y admiten resultados estructurados.
En este informe describimos las funciones de gpt-oss-safeguard y proporcionamos nuestras evaluaciones de seguridad de referencia de estos modelos, usando los modelos gpt-oss subyacentes como referencia. Para más información sobre el desarrollo y la arquitectura de los modelos gpt-oss subyacentes, consulta la ficha técnica del modelo gpt-oss original.
Recomendamos usar estos modelos para clasificar contenido según una política proporcionada y no como funcionalidad principal con la que interactúan los usuarios finales. Los modelos gpt-oss originales son más adecuados para ese fin. Las métricas de seguridad que se presentan a continuación describen cómo funcionan los modelos gpt-oss-safeguard en entornos conversacionales. Aunque estos modelos no están diseñados para ese uso, al ser modelos abiertos, existe la posibilidad de que alguien los utilice de ese modo. Por ello, hemos querido verificar que cumplen nuestros estándares de seguridad en ese tipo de uso. Este informe recoge los resultados de esas pruebas. También incluimos una evaluación inicial del rendimiento multilingüe en un entorno conversacional; ten en cuenta que esta evaluación no analiza directamente el rendimiento durante la clasificación de contenido con una política proporcionada.
Los modelos gpt-oss-safeguard son versiones optimizadas de los gpt-oss equivalentes y se han entrenado sin datos adicionales de biología ni de ciberseguridad. Como resultado, determinamos que el trabajo anterior que estimaba los peores escenarios en el lanzamiento de gpt-oss también es aplicable a estos nuevos modelos.

