Apresentamos o gpt-oss-s
Novos modelos de raciocínio de segurança abertos (120b e 20b) que possibilitam políticas personalizáveis de segurança.
Estamos lançando hoje a versão preliminar de pesquisa do gpt-oss-safeguard: nossos modelos de raciocínio de peso aberto para tarefas de classificação de segurança. Eles estão disponíveis em dois tamanhos: gpt-oss-safeguard-120b e gpt-oss-safeguard-20b. São versões ajustadas dos open models gpt-oss e estão disponíveis sob a mesma licença permissiva Apache 2.0. Desse modo, qualquer pessoa pode utilizá-los, fazer modificações e implementá-los — tudo de maneira gratuita. Os dois modelos já podem ser baixados no Hugging Face(abre em uma nova janela).
Os modelos gpt-oss-safeguard utilizam raciocínio para interpretar diretamente a política informada pelo desenvolvedor no momento da inferência, classificando mensagens de usuários, conclusões e chats completos segundo as necessidades desse profissional. É o desenvolvedor que sempre decide qual política usar, de modo que as respostas sejam mais relevantes e adaptadas ao seu caso de uso. O modelo aplica a cadeia de pensamento, que o profissional pode então analisar para compreender como o modelo chega às decisões apresentadas. Além disso, a política é informada durante a inferência, e não treinada no modelo; isso facilita a revisão iterativa das políticas por parte do desenvolvedor, pois melhora o desempenho. A abordagem, desenvolvida inicialmente para uso interno, é muito mais flexível que o método tradicional de treinar um classificador para inferir indiretamente um delimitador de decisão a partir de um grande número de exemplos rotulados.
O gpt-oss-safeguard permite que os desenvolvedores definam as diretrizes que se adaptam melhor ao seu uso. Por exemplo, um fórum de discussão sobre videogames pode ter interesse em desenvolver uma política para classificar publicações que falem sobre trapaças em jogos. Já um site de avaliações de produtos pode querer criar sua própria política para analisar avaliações que pareçam ser falsas.
O modelo utiliza duas entradas ao mesmo tempo: uma política e o conteúdo a ser classificado segundo essa política. Depois, ele apresenta uma conclusão sobre onde o conteúdo se enquadra, acompanhada de seu raciocínio. O desenvolvedor decide como, ou se deseja, usar essas conclusões em seus próprios pipelines de segurança. Observamos o bom desempenho dessa abordagem baseada no raciocínio nas seguintes situações:
- Surgimento ou evolução da possibilidade de danos. As políticas precisam se adaptar rapidamente.
- Domínio altamente complexo e difícil de ser processado por classificadores menores.
- O desenvolvedor não tem amostras suficientes que possibilitem o treino de um classificador de excelente qualidade para cada risco em sua plataforma.
- A latência é menos relevante que a produção de rótulos explicáveis e de alta qualidade.
Estamos lançando a versão preliminar do gpt-oss-safeguard para receber feedback da comunidade de pesquisa e segurança e, assim, continuar aprimorando o desempenho do modelo. Nos últimos meses, trabalhamos nessa versão de peso aberto com a ROOST(abre em uma nova janela) para identificar as necessidades críticas dos desenvolvedores, testar o modelo e elaborar a documentação para esses profissionais. Como parte do lançamento, a ROOST criou uma comunidade modelo(abre em uma nova janela), que também está sendo lançada hoje, para explorar modelos abertos de IA e proteger os ambientes online. Juntamente com este lançamento, estamos publicando um breve relatório técnico que apresenta detalhes sobre o desempenho de segurança deste modelo preliminar.
Quando o assunto é segurança, acreditamos na proteção completa. Treinamos os modelos para responder com segurança e, além disso, também implementamos camadas adicionais de proteção para detectar e abordar entradas e saídas potencialmente inseguras de acordo com nossas políticas. Os classificadores de segurança, que identificam conteúdos seguros e inseguros em uma área de risco específica, representam há tempos uma das principais camadas de proteção para nossos modelos de linguagem e outros de grande porte.
Classificadores de segurança tradicionais, como os disponíveis em nossa API Moderation(abre em uma nova janela), são desenvolvidos pela seleção manual de milhares de exemplos de conteúdo seguro e inseguro, conforme políticas de segurança predefinidas. A partir dos dados de treinamento, o classificador aprende a fazer a distinção entre resultados seguros e não seguros. Nessa abordagem convencional, o classificador não chega a observar a política de segurança. Na verdade, ele tenta inferir a política subjacente usada para rotular os exemplos, encontrando semelhanças no conteúdo classificado como inseguro e diferenças entre conteúdo seguro e inseguro.
Classificadores tradicionais podem ter um alto desempenho, com baixa latência e custo operacional. Porém, reunir um volume suficiente de exemplos de treinamento pode levar tempo, além de ser um processo custoso — fora o fato de que a atualização ou alteração da política exige novo treinamento do classificador.
O gpt-oss-safeguard é diferente, pois sua capacidade de raciocínio permite que o desenvolvedor aplique qualquer política, inclusive uma política criada por ele próprio ou obtida de outras fontes. Além disso, o raciocínio ajuda os modelos a generalizar políticas recém-criadas. Além das políticas de segurança, o gpt-oss-safeguard também pode ser usado para rotular conteúdo de outras maneiras que sejam relevantes para produtos e plataformas específicos.
Nossos principais modelos de raciocínio já assimilam nossas políticas de segurança diretamente e usam seus recursos de raciocínio para decidir o que é seguro. Essa abordagem, conhecida como alinhamento deliberativo, é uma melhora substancial em relação aos métodos anteriores de treinamento em segurança e torna nossos modelos de raciocínio mais seguros em vários aspectos em comparação com seus antecessores não racionais, mesmo levando em conta o aumento de suas capacidades. O raciocínio, contudo, não é útil somente para treinar os modelos em si. Ele também cria novas possibilidades para uma proteção completa. Abordagens com base no raciocínio são mais flexíveis e menos restritas pelos detalhes de seu treinamento anterior — vantagens que costumam justificar o custo adicional de computação e a latência.
O gpt-oss-safeguard é uma implementação de peso aberto de uma abordagem desenvolvida internamente com a ferramenta Safety Reasoner. Começamos com o ajuste fino por reforço nas tarefas de rotulagem de políticas, recompensando o modelo por reproduzir julgamentos corretos de especialistas humanos. Isso ensinou o modelo a refletir sobre como a política produz o julgamento. Hoje, a Safety Reasoner nos permite atualizar de forma dinâmica nossas políticas de segurança na produção em um tempo inferior àquele que levaria para treinar novamente um classificador. Isso torna a Safety Reasoner uma ferramenta fundamental para a implantação iterativa: quando implantamos novos modelos na produção, geralmente começamos com políticas mais rígidas e usamos quantidades relativamente grandes de computação onde necessário para permitir que a Safety Reasoner aplique criteriosamente essas políticas. Depois, ajustamos nossas políticas à medida que nossa compreensão dos riscos na produção vai melhorando. Em alguns de nossos lançamentos recentes, a parcela de computação total destinada ao raciocínio em segurança chegou a atingir 16%.
A Safety Reasoner tornou-se um componente essencial de nosso stack de segurança. Ela executa avaliações dinâmicas e graduais das saídas para identificar e bloquear gerações não seguras em tempo real na geração de imagens e no Sora 2. Em domínios como biologia e autoagressão, executamos modelos semelhantes aos utilizados na API Moderation (como classificadores pequenos, rápidos e de reconhecimento elevado) para definir os conteúdos que se enquadram num domínio de interesse. Em seguida, utilizamos a Safety Reasoner para analisar esses conteúdos. A Safety Reasoner classifica os resultados do modelo de acordo com uma taxonomia detalhada para decidir a melhor forma de responder, pertencendo às nossas proteções de várias camadas em sistemas como o GPT‑5 e o agente do ChatGPT. E, a partir de agora, os modelos gpt-oss-safeguard oferecem essa mesma abordagem a qualquer pessoa.
Avaliamos os modelos gpt-oss-safeguard em cenários de avaliação internos e externos.
Internamente, apresentamos ao mesmo tempo várias políticas ao gpt-oss-safeguard no momento da inferência. Para cada entrada de teste, avaliamos se o gpt-oss-safeguard classifica corretamente o texto de acordo com todas as políticas envolvidas. É uma tarefa desafiadora, pois o modelo só é considerado preciso se coincidir exatamente com os rótulos do conjunto de referência de todas as políticas selecionadas.
Nossos modelos gpt-oss-safeguard e a Safety Reasoner interna têm desempenho superior ao gpt-5-thinking e aos open models gpt-oss, em termos de precisão com várias políticas. Esse desempenho superior ao gpt-5-thinking surpreende, especialmente devido ao pequeno tamanho dos primeiros modelos.
Avaliamos ainda mais esses modelos no conjunto de dados de moderação(abre em uma nova janela) que divulgamos com nosso artigo de pesquisa de 2022(abre em uma nova janela) e no ToxicChat(abre em uma nova janela), um parâmetro público baseado em consultas de usuários a um chatbot de código aberto.
No conjunto de avaliação de moderação de 2022, fizemos a análise utilizando nossas políticas internas de segurança (adaptando uma política para considerar alterações subsequentes). O gpt-oss-safeguard teve um desempenho ligeiramente superior a todos os demais modelos testados, incluindo a nossa Safety Reasoner interna e o gpt-5-thinking, embora essa diferença entre a Safety Reasoner e o gpt-oss-safeguard não seja significativa do ponto de vista estatístico.
Em relação ao ToxicChat, avaliamos um pequeno prompt escrito à mão, adaptado de algumas de nossas políticas internas. Mais uma vez, a Safety Reasoner superou o gpt-5-thinking, enquanto o gpt-5-thinking e a Safety Reasoner foram ligeiramente superiores ao gpt-oss-safeguard-120b e ao gpt-oss-safeguard-20b. Nossa expectativa é que o tamanho reduzido torne o gpt-oss-safeguard a ferramenta preferida para esse tipo de tarefa.
O gpt-oss-safeguard tem duas limitações específicas. A primeira é que observamos que classificadores treinados em dezenas de milhares de amostras rotuladas como de alta qualidade ainda podem ter um desempenho melhor na classificação de conteúdo do que o gpt-oss-safeguard, quando raciocinam diretamente a partir da política. Dedicar tempo para treinar um classificador exclusivo pode ser a opção ideal para obter um desempenho superior em riscos mais complexos.
A segunda é que o gpt-oss-safeguard pode ser demorado e exigir processamento intenso, o que dificulta a escalabilidade em todo o conteúdo da plataforma. No âmbito interno, usamos a Safety Reasoner para lidar com isso de várias maneiras: (1) usamos classificadores menores e mais rápidos para decidir qual conteúdo avaliar e (2) em algumas situações, utilizamos a Safety Reasoner de forma assíncrona para permitir uma experiência de usuário com baixa latência, mantendo a capacidade de intervir em caso de identificação de conteúdo inseguro.
O gpt-oss-safeguard é o primeiro conjunto de modelos de segurança abertos da OpenAI, desenvolvido em colaboração com a comunidade. Como parte dos testes iniciais, fizemos várias iterações no gpt-oss-safeguard com especialistas em confiança e segurança da SafetyKit, ROOST, Tomoro e Discord. Vinay Rao, CTO da ROOST, explica: "O gpt-oss-safeguard é o primeiro modelo de raciocínio de código aberto com um projeto que tem essa pegada de trazer suas próprias políticas e definições de danos. As organizações merecem estudar, modificar e utilizar livremente tecnologias de segurança essenciais. Elas também deve ser capazes de inovar. Em nossos testes, ele demonstrou capacidade de compreender diferentes políticas, explicar seu raciocínio e mostrar nuances na aplicação das políticas, o que acreditamos ser útil para construtores e equipes de segurança."
Continuaremos a interagir com a comunidade para aperfeiçoar as ferramentas de segurança abertas, inclusive por meio da Comunidade Modelo ROOST (RMC). A RMC reúne profissionais e pesquisadores da área de segurança para compartilhar as melhores práticas de implementação de modelos de IA de código aberto em fluxos de trabalho de segurança, incluindo resultados de avaliação e feedback sobre os modelos. Acesse o repositório GitHub da RMC(abre em uma nova janela) para saber mais sobre essa parceria e como participar.
Baixe no Hugging Face(abre em uma nova janela) e comece a desenvolver com os modelos.

