29 de octubre de 2025

Informe técnico

Evaluación del rendimiento y los valores de referencia de gpt-oss-safeguard-120b y gpt-oss-safeguard-20b

Introducción

gpt-oss-safeguard-120b y gpt-oss-safeguard-20b son dos modelos de razonamiento con pesos abiertos, entrenados posteriormente a partir de los modelos gpt-oss. Se han entrenado para razonar a partir de una política proporcionada con el fin de etiquetar contenido según dicha política. Están disponibles con la licencia Apache 2.0 y nuestra política de uso de gpt-oss. Desarrollados con la opinión de la comunidad de código abierto, estos modelos solo de texto son compatibles con nuestra API Responses. Los modelos se pueden personalizar, ofrecen una cadena de pensamiento completa (CoT), pueden utilizarse con distintos niveles de esfuerzo de razonamiento (bajo, medio, alto) y admiten resultados estructurados.

En este informe describimos las funciones de gpt-oss-safeguard y proporcionamos nuestras evaluaciones de seguridad de referencia de estos modelos, usando los modelos gpt-oss subyacentes como referencia. Para más información sobre el desarrollo y la arquitectura de los modelos gpt-oss subyacentes, consulta la ficha técnica del modelo gpt-oss⁠ original.

Recomendamos usar estos modelos para clasificar contenido según una política proporcionada y no como funcionalidad principal con la que interactúan los usuarios finales. Los modelos gpt-oss originales son más adecuados para ese fin. Las métricas de seguridad que se presentan a continuación describen cómo funcionan los modelos gpt-oss-safeguard en entornos conversacionales. Aunque estos modelos no están diseñados para ese uso, al ser modelos abiertos, existe la posibilidad de que alguien los utilice de ese modo. Por ello, hemos querido verificar que cumplen nuestros estándares de seguridad en ese tipo de uso. Este informe recoge los resultados de esas pruebas. También incluimos una evaluación inicial del rendimiento multilingüe en un entorno conversacional; ten en cuenta que esta evaluación no analiza directamente el rendimiento durante la clasificación de contenido con una política proporcionada.

Los modelos gpt-oss-safeguard son versiones optimizadas de los gpt-oss equivalentes y se han entrenado sin datos adicionales de biología ni de ciberseguridad. Como resultado, determinamos que el trabajo anterior que estimaba los peores escenarios⁠ en el lanzamiento de gpt-oss también es aplicable a estos nuevos modelos.

2025

Autor

OpenAI

Sigue leyendo

Ver todo

Presentamos gpt-oss-safeguard

Producto29 oct 2025

Ficha de modelo gpt‑oss‑120b & gpt‑oss‑20b

Publicación5 ago 2025

Presentamos gpt-oss

Lanzamiento5 ago 2025