Pular para o conteúdo principal
OpenAI

5 de agosto de 2025

PublicaçãoSegurança

Ficha de modelo gpt‑oss‑120b & gpt‑oss‑20b

Introdução

Apresentamos gpt-oss-120b e gpt-oss-20b, dois modelos de raciocínio open-weight disponíveis sob a licença Apache 2.0 e nossa política de uso do gpt-oss. Desenvolvidos com feedback da comunidade open source, esses modelos somente de texto são compatíveis com nossa Responses API e foram projetados para uso em fluxos de trabalho agênticos com forte cumprimento de instruções, uso de ferramentas como busca na web e execução de código Python, além de capacidades de raciocínio — incluindo a possibilidade de ajustar o esforço de raciocínio para tarefas que não exigem processos complexos. Os modelos são personalizáveis, oferecem Chain‑of‑Thought (CoT) completo e suportam Saídas Estruturadas.

A segurança é essencial em nosso trabalho com modelos abertos. Eles apresentam um perfil de risco diferente dos modelos proprietários: Uma vez liberados, invasores determinados podem fazer fine-tuning nos modelos para contornar recusas de segurança ou otimizá-los diretamente para causar dano, sem que a OpenAI possa aplicar mitigações adicionais ou revogar o acesso.

Em alguns contextos, desenvolvedores e empresas precisarão implementar salvaguardas extras para replicar as proteções em nível de sistema incorporadas aos modelos oferecidos por meio de nossa API e de nossos produtos. Estamos chamando este documento de model card, e não de system card, porque os modelos gpt-oss serão usados como parte de uma ampla variedade de sistemas criados e mantidos por diversos stakeholders. Embora os modelos sejam projetados para seguir, por padrão, as políticas de segurança da OpenAI, outros stakeholders também tomarão e implementarão suas próprias decisões sobre como manter esses sistemas seguros.

Realizamos avaliações de capacidade escaláveis no gpt-oss-120b e confirmamos que o modelo padrão não atinge nossos limites indicativos de High capability em nenhuma das três Categorias Acompanhadas do nosso Preparedness Framework (Biological and Chemical capability, Cyber capability e AI Self-Improvement). Também investigamos duas questões adicionais:

  • Invasores mal-intencionados poderiam fazer fine-tuning no gpt-oss-120b para que ele atinja High capability nos domínios Biological and Chemical ou Cyber? Simulando as ações potenciais de um invasor, fizemos fine‑tuning adversarial do gpt‑oss‑120b para essas duas categorias. O Safety Advisory Group (“SAG”) da OpenAI revisou esses testes e concluiu que, mesmo após um fine-tuning robusto que aproveitou o training stack líder de mercado da OpenAI, o gpt-oss-120b não atingiu High capability em Biological and Chemical Risk ou Cyber risk.
  • O lançamento do gpt‑oss‑120b avançaria significativamente a fronteira das capacidades biológicas em modelos foundation abertos? Concluímos que a resposta é não: Na maioria das avaliações, o desempenho padrão de um ou mais modelos abertos existentes chega perto de igualar o desempenho de gpt-oss-120b após um adversarial fine-tuning.

Como parte deste lançamento, a OpenAI reafirma seu compromisso de avançar a IA benéfica e elevar os padrões de segurança em todo o ecossistema.

Autoria

OpenAI