Fortalecendo a resiliência cibernética à medida que as capacidades de IA avançam
À medida que nossos modelos se tornam mais capazes em cibersegurança, estamos investindo em fortalecê-los, adicionando camadas de salvaguardas e fazendo parcerias com especialistas globais em segurança.
As capacidades cibernéticas em modelos de IA estão avançando rapidamente, trazendo benefícios relevantes para a ciberdefesa, além de novos riscos de uso duplo que precisam ser gerenciados com cuidado. Por exemplo, capacidades avaliadas por desafios capture-the-flag (CTF) melhoraram de 27% no GPT‑5(abre em uma nova janela) em agosto de 2025 para 76% no GPT‑5.1‑Codex‑Max(abre em uma nova janela) em novembro de 2025.
Esperamos que os próximos modelos de IA continuem nessa trajetória; em preparação, estamos planejando e avaliando como se cada novo modelo pudesse atingir níveis "High" de capacidade em cibersegurança, conforme medido pelo nosso Preparedness Framework(abre em uma nova janela). Com isso, queremos dizer modelos que conseguem desenvolver exploits remotos de dia zero funcionais contra sistemas bem protegidos ou auxiliar de forma significativa operações complexas e furtivas de intrusão empresarial ou industrial voltadas a efeitos no mundo real. Este post explica como pensamos em salvaguardas para modelos que alcancem esses níveis de capacidade e como garantimos que eles realmente ajudem defensores, ao mesmo tempo em que limitamos o uso indevido.
À medida que essas capacidades avançam, a OpenAI está investindo em fortalecer nossos modelos para tarefas defensivas de cibersegurança e em criar ferramentas que permitem que defensores realizem com mais facilidade fluxos de trabalho como auditar código e corrigir vulnerabilidades. Nosso objetivo é que nossos modelos e produtos tragam vantagens significativas para defensores, que muitas vezes estão em menor número e com menos recursos.
Como em outros domínios de uso duplo, fluxos de trabalho cibernéticos defensivos e ofensivos muitas vezes se baseiam no mesmo conhecimento e nas mesmas técnicas. Estamos investindo em salvaguardas para ajudar a garantir que essas capacidades poderosas beneficiem principalmente usos defensivos e limitem ganhos para fins maliciosos. A cibersegurança afeta praticamente todas as áreas, o que significa que não podemos depender de uma única categoria de salvaguardas — como restringir conhecimento ou usar apenas acesso verificado — e, em vez disso, precisamos de uma abordagem de defesa em profundidade que equilibre riscos e capacite usuários. Na prática, isso significa moldar como as capacidades são acessadas, orientadas e aplicadas para que modelos avançados fortaleçam a segurança em vez de reduzir barreiras ao uso indevido.
Vemos esse trabalho não como um esforço pontual, mas como um investimento contínuo e de longo prazo para dar vantagem a defensores e fortalecer continuamente a postura de segurança da infraestrutura crítica em todo o ecossistema.
Nossos modelos são projetados e treinados para operar com segurança, apoiados por sistemas proativos que detectam e respondem a abusos cibernéticos. Aprimoramos continuamente essas proteções à medida que nossas capacidades e o cenário de ameaças mudam. Embora nenhum sistema consiga garantir a prevenção completa do uso indevido em cibersegurança sem impactar severamente usos defensivos, nossa estratégia é mitigar riscos por meio de uma pilha de segurança em camadas.
Na base disso, adotamos uma abordagem de defesa em profundidade, combinando controles de acesso, hardening de infraestrutura, controles de egress e monitoramento. Complementamos essas medidas com sistemas de detecção e resposta e programas dedicados de inteligência de ameaças e risco interno, para que ameaças emergentes sejam identificadas e bloqueadas rapidamente. Essas salvaguardas são projetadas para evoluir com o cenário de ameaças. Pressupomos mudança e construímos para poder ajustar de forma rápida e adequada.
Com base nessa fundação:
- Treinar o modelo para recusar ou responder com segurança a solicitações nocivas, mantendo-se útil para casos de uso educacionais e defensivos: estamos treinando nossos modelos de fronteira para recusar ou responder com segurança a solicitações que possibilitariam abuso cibernético evidente, mantendo-se o mais útil possível para casos de uso defensivos e educacionais legítimos.
- Sistemas de detecção: refinamos e mantemos monitoramento em todo o sistema, em produtos que usam modelos de fronteira, para detectar atividade cibernética potencialmente maliciosa. Quando a atividade parece insegura, podemos bloquear a saída, encaminhar prompts para modelos mais seguros ou menos capazes ou escalar para aplicação de medidas. Nossa aplicação de medidas combina revisões automatizadas e humanas, guiada por fatores como exigências legais, gravidade e reincidência. Também trabalhamos de perto com desenvolvedores e clientes corporativos para alinhar padrões de segurança e viabilizar um uso responsável, com caminhos claros de escalonamento.
- Red teaming de ponta a ponta: estamos trabalhando com organizações especializadas em red teaming para avaliar e aprimorar nossas medidas de mitigação de segurança. O trabalho delas é tentar burlar todas as nossas defesas, de ponta a ponta, como faria um adversário determinado e com muitos recursos. Isso nos ajuda a identificar lacunas cedo e fortalecer todo o sistema.
A OpenAI investiu cedo em aplicar IA a casos de uso defensivos de cibersegurança, e nossa equipe coordena de perto com especialistas globais para amadurecer tanto nossos modelos quanto sua aplicação. Valorizamos a comunidade global de profissionais de cibersegurança que trabalham para tornar nosso mundo digital mais seguro e temos o compromisso de entregar ferramentas poderosas que apoiem a segurança defensiva. À medida que implementamos novas salvaguardas, continuaremos a trabalhar com a comunidade de cibersegurança para entender onde a IA pode fortalecer de forma significativa a resiliência e onde salvaguardas bem pensadas são mais importantes.
Além dessas colaborações, estamos estabelecendo um conjunto de iniciativas projetadas para ajudar defensores a agir mais rápido, fundamentar nossas salvaguardas em necessidades do mundo real e acelerar a remediação responsável em escala.
Em breve, apresentaremos um programa de acesso confiável no qual exploraremos oferecer a usuários e clientes qualificados que trabalham com ciberdefesa acesso por níveis a capacidades aprimoradas nos nossos modelos mais recentes para casos de uso defensivos. Ainda estamos explorando o limite adequado entre quais capacidades podemos disponibilizar com amplo acesso e quais exigem restrições por níveis, o que pode influenciar o design futuro deste programa. Queremos que esse programa de acesso confiável seja um alicerce para um ecossistema resiliente.
O Aardvark, nosso pesquisador de segurança com agentes que ajuda desenvolvedores e equipes de segurança a encontrar e corrigir vulnerabilidades em escala, está agora em beta privado. Ele varre bases de código em busca de vulnerabilidades e propõe patches que mantenedores podem adotar rapidamente. Ele já identificou CVEs inéditos em software de código aberto ao raciocinar sobre bases de código inteiras. Planejamos oferecer cobertura gratuita a repositórios selecionados de código aberto não comerciais para contribuir com a segurança do ecossistema de software de código aberto e da cadeia de suprimentos. Candidate-se para participar aqui.
Vamos criar o Frontier Risk Council, um grupo consultivo que reunirá defensores cibernéticos experientes e profissionais de segurança em colaboração próxima com nossas equipes. Este conselho começará com foco em cibersegurança e, no futuro, se expandirá para outros domínios de capacidades de fronteira. Os membros orientarão sobre o limite entre uma capacidade útil e responsável e o potencial de uso indevido, e esses aprendizados informarão diretamente nossas avaliações e salvaguardas. Em breve, compartilharemos mais sobre o conselho.
Por fim, antecipamos que o uso indevido em cibersegurança pode ser viável a partir de qualquer modelo de fronteira no setor. Para lidar com isso, trabalhamos com outros laboratórios de fronteira por meio do Frontier Model Forum, uma organização sem fins lucrativos apoiada por laboratórios líderes em IA e parceiros do setor, para desenvolver um entendimento compartilhado de modelos de ameaça e melhores práticas. Nesse contexto, a modelagem de ameaças ajuda a mitigar riscos ao identificar como capacidades de IA podem ser transformadas em armas, onde existem gargalos críticos para diferentes atores de ameaça e como modelos de fronteira podem oferecer um ganho significativo. Essa colaboração busca construir um entendimento consistente, em todo o ecossistema, sobre atores de ameaça e caminhos de ataque, permitindo que laboratórios, mantenedores e defensores aprimorem melhor suas mitigações e garantindo que insights críticos de segurança se propaguem rapidamente por todo o ecossistema. Também estamos colaborando com equipes externas para desenvolver avaliações de cibersegurança(abre em uma nova janela). Esperamos que um ecossistema de avaliações independentes ajude ainda mais a construir um entendimento compartilhado das capacidades dos modelos.
Em conjunto, esses esforços refletem nosso compromisso de longo prazo com o fortalecimento do lado defensivo do ecossistema. À medida que os modelos se tornam mais capazes, nosso objetivo é ajudar a garantir que essas capacidades se traduzam em alavancagem real para defensores — fundamentada em necessidades do mundo real, moldada por contribuições de especialistas e implementada com cuidado. Além desse trabalho, planejamos explorar outras iniciativas e subsídios de cibersegurança para ajudar a trazer à tona ideias disruptivas que talvez não surjam em canais tradicionais e para coletar, via crowdsourcing, defesas ousadas e criativas vindas da academia, do setor e da comunidade de código aberto. Em conjunto, este é um trabalho contínuo, e esperamos continuar evoluindo esses programas à medida que aprendemos o que mais efetivamente fortalece a segurança no mundo real.


