Pasar al contenido principal
OpenAI

29 de octubre de 2025

SeguridadLanzamiento

Informe técnico

Evaluaciones de rendimiento y línea base de gpt-oss-safeguard-120b y gpt-oss-safeguard-20b

Introducción

gpt-oss-safeguard-120b y gpt-oss-safeguard-20b son dos modelos de razonamiento de peso abierto entrenados a partir de los modelos gpt-oss y para razonar a partir de una política proporcionada con el fin de clasificar su contenido. Están disponibles bajo la licencia Apache 2.0 y se rigen por nuestra Política de uso de gpt-oss. Desarrollados con los comentarios de la comunidad de código abierto, estos modelos de solo texto son compatibles con nuestra API de respuesta. Los modelos son personalizables, proporcionan una cadena de pensamiento (CoT) completa, pueden utilizarse con diferentes niveles de razonamiento (bajo, medio, alto) y admiten salidas estructuradas.

En este informe, describimos las capacidades de gpt-oss-safeguard e incluimos nuestras evaluaciones de seguridad de línea base sobre los modelos gpt-oss-safeguard, tomando como referencia los modelos gpt-oss subyacentes. Para obtener más información sobre el desarrollo y la arquitectura de los modelos gpt-oss subyacentes, consulta la tarjeta del modelo gpt-oss original.

Recomendamos utilizar estos modelos para clasificar el contenido en función de una política proporcionada, y no como la funcionalidad principal con la que interactúan los usuarios finales. Los modelos gpt-oss originales son más adecuados para esas aplicaciones. Las métricas de seguridad que se indican a continuación describen el funcionamiento de los modelos gpt-oss-safeguard en los entornos de chat. Los modelos gpt-oss-safeguard no están diseñados para este uso, aunque al ser open models, es posible que alguien los utilice de esta manera. Ante esa posibilidad, quisimos verificar que cumplieran con nuestras normas de seguridad en ese tipo de uso. En este informe se comparten los resultados de esas pruebas. Además, compartimos una evaluación inicial del rendimiento multilingüe en un entorno de chat. Cabe señalar que esto no evalúa de manera directa el rendimiento durante la clasificación del contenido con una política proporcionada.

Los modelos gpt-oss-safeguard son una versión perfeccionada de sus homólogos gpt-oss, entrenados sin datos biológicos ni de ciberseguridad adicionales. Por consiguiente, determinamos que el trabajo previo de estimación de los peores escenarios posibles a partir de la versión gpt-oss se aplica a estos nuevos modelos.

Autor

OpenAI