Pular para o conteúdo principal
OpenAI

29 de outubro de 2025

SegurançaLançamento

Relatório técnico

Avaliações de desempenho e referência do gpt-oss-safeguard-120b e do gpt-oss-safeguard-20b

Introdução

O gpt-oss-safeguard-120b e o gpt-oss-safeguard-20b são dois modelos de raciocínio de código aberto pós-treinados a partir dos modelos gpt-oss. Eles são instruídos a raciocinar com base em uma política pré-fornecida, a fim de rotular conteúdos segundo essa política. Eles estão disponíveis sob a licença Apache 2.0 e nossa política de uso gpt-oss. Desenvolvidos com feedback da comunidade de código aberto, esses modelos baseados apenas em texto são compatíveis com nossa API Responses. Os modelos são personalizáveis, fornecem uma cadeia de pensamento (CoT) completa, podem ser usados com diferentes níveis de esforço de raciocínio (baixo, médio, alto) e permitem saídas estruturadas.

Neste relatório, descrevemos os recursos do gpt-oss-safeguard e fornecemos nossas avaliações iniciais de segurança dos modelos gpt-oss-safeguard, usando os modelos gpt-oss subjacentes como referência. Para saber mais sobre o desenvolvimento e a arquitetura dos modelos gpt-oss subjacentes, consulte o cartão do modelo do gpt-oss original.

Recomendamos usar esses modelos para classificar conteúdos de acordo com uma política fornecida. Eles não devem ser usados como a funcionalidade principal com a qual os usuários finais interagem. Os modelos gpt-oss originais são mais adequados para essas aplicações. As métricas de segurança fornecidas abaixo descrevem como os modelos gpt-oss-safeguard funcionam nas configurações de chat. Os modelos gpt-oss-safeguard não se destinam a esse uso, mas, por sua natureza de código aberto, é possível que alguém os utilize para esse fim. Devido a essa possibilidade, decidimos verificar se eles atendiam aos nossos padrões de segurança nesse tipo de uso. Este relatório compartilha os resultados desses testes. Também compartilhamos uma avaliação inicial do desempenho multilíngue em um ambiente de chat, ressaltando que ela não avalia diretamente o desempenho na classificação de conteúdo com base em uma política fornecida.

Os modelos gpt-oss-safeguard são ajustes refinados de seus equivalentes gpt-oss e foram treinados sem nenhum dado biológico ou de segurança cibernética adicional. Como resultado, determinamos que o trabalho anterior de estimativa dos piores cenários a partir da versão gpt-oss se aplica a esses novos modelos.

Autoria

OpenAI