Fortalecendo nosso ecossistema de segurança com testes externos.
Nossa abordagem para avaliações de terceiros em IA de ponta.
Na OpenAI, acreditamos que avaliações independentes e confiáveis de terceiros desempenham um papel fundamental no fortalecimento do ecossistema de segurança da IA de ponta. As avaliações de terceiros são avaliações realizadas em modelos de vanguarda para confirmar ou fornecer evidências adicionais às alegações sobre capacidades e medidas de mitigação de segurança críticas. Essas avaliações ajudam a validar as alegações de segurança, a proteger contra pontos cegos e a aumentar a transparência em relação às capacidades e aos riscos. Ao convidar especialistas externos para testar nossos modelos de vanguarda, também buscamos fomentar a confiança na abrangência de nossas avaliações de capacidade e salvaguardas, além de contribuir para o aprimoramento do ecossistema de segurança em geral.
Desde o lançamento do GPT‑4, a OpenAI tem colaborado com diversos parceiros externos para testar e avaliar nossos modelos. De forma geral, nossas colaborações com terceiros assumem três formas:
- Avaliações independentes das principais áreas de capacidade e risco de fronteira, como biossegurança, segurança cibernética, autoaperfeiçoamento de IA e planejamento estratégico
- Revisões metodológicas que avaliam como avaliamos e interpretamos o risco.
- Sondagem de especialistas no assunto (SME), onde especialistas avaliam o modelo diretamente em tarefas reais de SME e fornecem contribuições estruturadas para nossa avaliação de suas capacidades e salvaguardas associadas1
Este blog descreve como utilizamos cada uma dessas formas de avaliação externa, por que elas são importantes, como influenciaram as decisões de implementação e os princípios que usamos para estruturar essas colaborações. Em nome da transparência, também estamos compartilhando mais informações sobre os termos de confidencialidade e publicação que regem nossas colaborações com testadores terceirizados.
A avaliação por terceiros adiciona uma camada independente de avaliação ao nosso trabalho interno, reforçando o rigor e proporcionando proteções adicionais contra a autoconfirmação. As contribuições deles fornecem evidências adicionais que complementam nossas próprias avaliações, ajudando a fundamentar decisões responsáveis de implantação de sistemas de alta capacidade.
Também consideramos as avaliações de terceiros como parte da construção de um ecossistema de segurança resiliente. Nossas equipes realizam extensos testes internos em todas as áreas de capacidade e risco, mas organizações independentes trazem perspectivas e abordagens metodológicas adicionais. Trabalhamos para apoiar um grupo diversificado de organizações de avaliação qualificadas que possam avaliar regularmente modelos de vanguarda em conjunto conosco.
Por fim, pretendemos ser transparentes sobre como essas informações ajudam a moldar nosso processo de segurança. Regularmente tornamos públicas as avaliações de terceiros — por exemplo, incluindo resumos de avaliações pré-implantação em fichas de sistema e apoiando organizações avaliadoras na publicação de trabalhos mais detalhados após revisão de confidencialidade e precisão. Essa transparência constrói confiança ao mostrar como a contribuição externa molda nossas avaliações de capacidades e medidas de segurança.
Relações duradouras, construídas com base em acesso confiável, transparência e compartilhamento de conhecimento, ajudam todo o ecossistema a se antecipar aos riscos emergentes e a promover avaliações adaptáveis e práticas, necessárias para padrões mais robustos e uma governança mais bem fundamentada para sistemas de IA de ponta.
Desde o lançamento do GPT‑4(abre em uma nova janela), temos apoiado avaliações independentes em versões preliminares do modelo antes da sua implementação. Desde então, expandimos nosso trabalho com uma série de organizações terceirizadas que possuem vasta experiência em avaliações de capacidades e áreas de risco essenciais. Consideramos o trabalho de laboratório independente como testes abertos, nos quais equipes externas aplicam seus próprios métodos para chegar a uma conclusão ou avaliação relacionada a uma determinada capacidade de vanguarda.
Como exemplo, para o GPT‑5, a OpenAI coordenou um amplo conjunto de avaliações externas de capacidade em áreas de risco chave, como autonomia de longo prazo, planejamento, engano e subversão de supervisão, viabilidade de planejamento em laboratório e avaliações de segurança cibernética ofensiva.
Essas avaliações independentes complementam as avaliações realizadas de acordo com a Estrutura de Preparação da OpenAI e incluem parâmetros de referência como a avaliação de horizonte temporal(abre em uma nova janela) da METR ou a avaliação de Solução de Problemas de Capacidades Virológicas (VCT)(abre em uma nova janela) da SecureBio.
Para apoiar essas avaliações, fornecemos acesso seguro a pontos de verificação iniciais do modelo, resultados de avaliação selecionados para concretizar as melhorias de capacidade que estamos observando, retenção zero de dados quando necessário e modelos com menos medidas de mitigação. Por exemplo, organizações que realizam testes nas áreas de cibersegurança e biossegurança testaram modelos com e sem medidas de mitigação de segurança para investigar as capacidades subjacentes. Várias outras organizações receberam acesso direto por cadeia de pensamento para permitir que inspecionassem as trilhas de raciocínio do modelo. Esta maior transparência permitiu aos avaliadores identificar casos de sabotagem2 ou comportamento de conspiração que só poderiam ser discerníveis através da leitura da linha de raciocínio. O acesso foi concedido com controles de segurança implementados, e continuamos a atualizar esses controles à medida que as capacidades do modelo e as necessidades de teste evoluem.
Em certos contextos, os avaliadores externos estão bem posicionados para fornecer uma revisão metodológica, oferecendo perspectivas adicionais às estruturas e evidências nas quais os laboratórios de vanguarda se baseiam para avaliar o risco. Por exemplo, durante o lançamento do gpt-oss, usamos ajuste fino adversarial para estimar as capacidades de pior caso para modelos de peso aberto, conforme descrito em Estimando os riscos de fronteira de pior caso de LLMs de peso aberto. A principal questão de segurança era se um agente mal-intencionado poderia ajustar o modelo para alcançar alta capacidade em áreas como biotecnologia ou cibernética sob nossa Estrutura de Preparação. Como isso exigia um ajuste fino adversarial que demandava muitos recursos, convidamos avaliadores externos para revisar e fazer recomendações sobre nossos métodos e resultados internos, em vez de repetir um trabalho semelhante.
Isso envolveu um processo de várias semanas de compartilhamento de implementações de avaliações, detalhes sobre a abordagem para o ajuste fino adversarial e coleta de recomendações estruturadas sobre como aprimorar a metodologia e as avaliações para os riscos de fronteira do pior cenário. O feedback dos avaliadores levou a mudanças no processo final de ajuste fino adversarial e demonstrou o valor da confirmação metodológica. Registramos quais itens adotamos no artigo e na ficha técnica do sistema gpt-oss, e fornecemos justificativas para aqueles que não adotamos.
Neste caso, a revisão metodológica foi a opção mais adequada do que avaliações independentes: as avaliações envolviam a execução de experimentos em larga escala, simulando o pior cenário possível, o que exige infraestrutura e conhecimento técnico que geralmente não estão disponíveis fora dos principais laboratórios de IA. Isso significava que avaliações independentes provavelmente não teriam sido capazes de levar diretamente a insights sobre os piores cenários, e que era mais produtivo concentrar os avaliadores externos na confirmação das alegações. Avaliadores externos analisaram os métodos e as evidências(abre em uma nova janela), destacando lacunas relevantes para a tomada de decisão, as quais foram abordadas como parte do processo de feedback das recomendações. Esperamos estender essa abordagem a outras áreas onde as necessidades de acesso ou infraestrutura tornem impraticável a realização direta de avaliações por terceiros, ou onde avaliações externas ainda não existam.
Outra forma de envolvermos especialistas externos é através da consulta a especialistas no assunto (SME, na sigla em inglês), em que esses especialistas avaliam o modelo diretamente e fornecem informações estruturadas, por meio de questionários, para nossa avaliação de suas capacidades. Isso é diferente de "red teaming", que tem como objetivo testar a resistência de salvaguardas específicas. Isso nos permite complementar as avaliações do Quadro de Preparação com insights específicos do domínio, que refletem o julgamento de especialistas e o contexto do mundo real, algo que as avaliações estáticas por si só podem não capturar. Por exemplo, convidamos um painel de especialistas no assunto para usar um modelo apenas útil3 para testar seus próprios cenários bio de ponta a ponta para o ChatGPT Agent e GPT‑5. Eles avaliaram o quanto o modelo poderia aprimorar um especialista como eles em comparação com um novato menos experiente, com base na utilidade da orientação fornecida em seus cenários. O objetivo era coletar informações adicionais sobre a capacidade do sistema de aproximar significativamente um iniciante motivado da execução competente: especialistas testaram nossas alegações de "aprimoramento do iniciante" em fluxos de trabalho realistas que eles mesmos criaram e forneceram feedback detalhado sobre onde o modelo oferecia ajuda substancial e passo a passo, em comparação com resumos menos úteis. Este exercício de análise especializada foi incluído como parte da avaliação geral para a implementação desses modelos e compartilhado nas fichas técnicas de ambos os lançamentos.
Em nome da transparência, estamos compartilhando mais detalhes sobre o que os avaliadores terceirizados aceitam ao trabalhar conosco e os princípios que norteiam nossas colaborações:
- Transparência com limites de confidencialidade rigorosos: Os avaliadores terceirizados assinam acordos de confidencialidade para permitir o compartilhamento de informações confidenciais e não públicas que auxiliem em suas avaliações. No Apêndice deste post, incluímos trechos relevantes de contratos com avaliadores terceirizados que descrevem os direitos relativos à publicação e as expectativas de revisão. Operamos com o princípio da transparência e nos esforçamos para viabilizar publicações que promovam a compreensão da segurança e das avaliações relacionadas, sem comprometer informações confidenciais ou propriedade intelectual. Como parte desse processo, revisamos e aprovamos publicações de avaliações de terceiros para garantir tanto a confidencialidade quanto a precisão factual. Nos últimos anos, diversos avaliadores terceirizados publicaram seus trabalhos juntamente com nossa própria publicação de resumos de avaliação em fichas do sistema. Alguns exemplos de trabalhos que foram publicados após nossa revisão quanto à confidencialidade e precisão incluem: [Relatório METR GPT‑5 (abre em uma nova janela), Relatório da Apollo Research sobre OpenAI o1(abre em uma nova janela), Avaliação Irregular do GPT‑5(abre em uma nova janela)]
- Divulgação criteriosa de informações e acesso seguro e confidencial: Por padrão, fornecemos informações e acesso a modelos que se destinam a ser públicos ou prontos para produção. Quando as avaliações o exigem, fornecemos acesso mais aprofundado, como a modelos úteis ou informações não públicas. A OpenAI disponibilizou essas formas de acesso sempre que necessário para questões críticas de segurança para avaliadores terceirizados. É importante ressaltar que esses tipos de acesso sensível exigem medidas de segurança rigorosas, e continuamos a atualizar esses controles à medida que as capacidades do modelo e as necessidades de teste evoluem.
- Incentivos financeiros equilibrados: Acreditamos que é importante garantir que o ecossistema de avaliação por terceiros seja bem financiado e sustentável. Por esse motivo, oferecemos remuneração a todos os nossos avaliadores terceirizados, e alguns optam por recusar, dependendo da filosofia de suas organizações em relação a esse assunto. As formas de remuneração incluem pagamento direto pelo trabalho e/ou subsídio dos custos de uso do modelo por meio de créditos da API ou outros meios. Nenhum pagamento está condicionado aos resultados de uma avaliação de terceiros.
Em conjunto, esses fatores ajudam as avaliações de terceiros a proteger informações sensíveis e promover a transparência na segurança da IA, além de criar caminhos para que os avaliadores terceirizados sejam remunerados pelo seu tempo.
Olhando para o futuro, vemos a necessidade de continuar fortalecendo o ecossistema de organizações capazes de realizar avaliações confiáveis e relevantes para a tomada de decisões dos sistemas de IA de ponta. Uma avaliação eficaz por terceiros requer conhecimento especializado, financiamento estável e rigor metodológico. O investimento contínuo em organizações de avaliação qualificadas, o avanço da ciência da medição e a segurança do acesso a informações sensíveis serão essenciais para garantir que as avaliações possam acompanhar os avanços nas capacidades dos modelos.
As avaliações de terceiros são uma das maneiras pelas quais trazemos uma perspectiva externa para o nosso trabalho de segurança, e elas operam em conjunto com outros mecanismos. Também colaboramos com especialistas externos por meio de esforços estruturados de simulação de vulnerabilidades (red teaming), projetos de alinhamento coletivo, trabalho com a CAISI dos EUA e a AISI do Reino Unido, e grupos consultivos, como nossa Rede Global de Médicos e nosso Conselho de Especialistas em Bem-Estar e IA, para orientar nosso trabalho em saúde mental e bem-estar do usuário. Esses esforços contribuem com diferentes formas de conhecimento especializado e sustentam uma base mais ampla e confiável para avaliar e governar sistemas avançados de IA.
Seguem abaixo trechos ilustrativos de nossos contratos com terceiros que colaboram conosco em avaliações pré-implantação.
Autoria
Notas de rodapé
- 1
Isso difere do "red teaming", que tem como objetivo testar minuciosamente as salvaguardas e fornecer dados para o desenvolvimento de avaliações.
- 2
Quando um modelo intencionalmente apresenta desempenho inferior ou oculta suas verdadeiras capacidades ao detectar que está sendo avaliado ou testado.
- 3
Os modelos que respondem apenas a solicitações úteis atendem a qualquer pedido, mesmo que o pedido seja prejudicial. Esses comportamentos são criados por métodos de pós-treinamento.


