19 de novembro de 2025

Fortalecendo nosso ecossistema de segurança com testes externos.

Nossa abordagem para avaliações de terceiros em IA de ponta.

Carregando…

Na OpenAI, acreditamos que avaliações independentes e confiáveis de terceiros desempenham um papel fundamental no fortalecimento do ecossistema de segurança da IA de ponta. As avaliações de terceiros são avaliações realizadas em modelos de vanguarda para confirmar ou fornecer evidências adicionais às alegações sobre capacidades e medidas de mitigação de segurança críticas. Essas avaliações ajudam a validar as alegações de segurança, a proteger contra pontos cegos e a aumentar a transparência em relação às capacidades e aos riscos. Ao convidar especialistas externos para testar nossos modelos de vanguarda, também buscamos fomentar a confiança na abrangência de nossas avaliações de capacidade e salvaguardas, além de contribuir para o aprimoramento do ecossistema de segurança em geral.

Desde o lançamento do GPT‑4, a OpenAI tem colaborado com diversos parceiros externos para testar e avaliar nossos modelos. De forma geral, nossas colaborações com terceiros assumem três formas:

Avaliações independentes das principais áreas de capacidade e risco de fronteira, como biossegurança, segurança cibernética, autoaperfeiçoamento de IA e planejamento estratégico
Revisões metodológicas que avaliam como avaliamos e interpretamos o risco.
Sondagem de especialistas no assunto (SME), onde especialistas avaliam o modelo diretamente em tarefas reais de SME e fornecem contribuições estruturadas para nossa avaliação de suas capacidades e salvaguardas associadas¹

Este blog descreve como utilizamos cada uma dessas formas de avaliação externa, por que elas são importantes, como influenciaram as decisões de implementação e os princípios que usamos para estruturar essas colaborações. Em nome da transparência, também estamos compartilhando mais informações sobre os termos de confidencialidade e publicação que regem nossas colaborações com testadores terceirizados.

Por que isso é importante?

A avaliação por terceiros adiciona uma camada independente de avaliação ao nosso trabalho interno, reforçando o rigor e proporcionando proteções adicionais contra a autoconfirmação. As contribuições deles fornecem evidências adicionais que complementam nossas próprias avaliações, ajudando a fundamentar decisões responsáveis de implantação de sistemas de alta capacidade.

Também consideramos as avaliações de terceiros como parte da construção de um ecossistema de segurança resiliente⁠. Nossas equipes realizam extensos testes internos em todas as áreas de capacidade e risco, mas organizações independentes trazem perspectivas e abordagens metodológicas adicionais. Trabalhamos para apoiar um grupo diversificado de organizações de avaliação qualificadas que possam avaliar regularmente modelos de vanguarda em conjunto conosco.

Por fim, pretendemos ser transparentes sobre como essas informações ajudam a moldar nosso processo de segurança. Regularmente tornamos públicas as avaliações de terceiros — por exemplo, incluindo resumos de avaliações pré-implantação em fichas de sistema e apoiando organizações avaliadoras na publicação de trabalhos mais detalhados após revisão de confidencialidade e precisão. Essa transparência constrói confiança ao mostrar como a contribuição externa molda nossas avaliações de capacidades e medidas de segurança.

Relações duradouras, construídas com base em acesso confiável, transparência e compartilhamento de conhecimento, ajudam todo o ecossistema a se antecipar aos riscos emergentes e a promover avaliações adaptáveis e práticas, necessárias para padrões mais robustos e uma governança mais bem fundamentada para sistemas de IA de ponta.

Avaliações independentes feitas por laboratórios externos

Desde o lançamento do GPT‑4⁠(abre em uma nova janela), temos apoiado avaliações independentes em versões preliminares do modelo antes da sua implementação. Desde então, expandimos nosso trabalho com uma série de organizações terceirizadas que possuem vasta experiência em avaliações de capacidades e áreas de risco essenciais. Consideramos o trabalho de laboratório independente como testes abertos, nos quais equipes externas aplicam seus próprios métodos para chegar a uma conclusão ou avaliação relacionada a uma determinada capacidade de vanguarda.

Como exemplo, para o GPT‑5⁠, a OpenAI coordenou um amplo conjunto de avaliações externas de capacidade em áreas de risco chave, como autonomia de longo prazo, planejamento, engano e subversão de supervisão, viabilidade de planejamento em laboratório e avaliações de segurança cibernética ofensiva.

Essas avaliações independentes complementam as avaliações realizadas de acordo com a Estrutura de Preparação da OpenAI e incluem parâmetros de referência como a avaliação de horizonte temporal⁠(abre em uma nova janela) da METR ou a avaliação de Solução de Problemas de Capacidades Virológicas (VCT)⁠(abre em uma nova janela) da SecureBio.

Para apoiar essas avaliações, fornecemos acesso seguro a pontos de verificação iniciais do modelo, resultados de avaliação selecionados para concretizar as melhorias de capacidade que estamos observando, retenção zero de dados quando necessário e modelos com menos medidas de mitigação. Por exemplo, organizações que realizam testes nas áreas de cibersegurança e biossegurança testaram modelos com e sem medidas de mitigação de segurança para investigar as capacidades subjacentes. Várias outras organizações receberam acesso direto por cadeia de pensamento para permitir que inspecionassem as trilhas de raciocínio do modelo. Esta maior transparência permitiu aos avaliadores identificar casos de sabotagem² ou comportamento de conspiração que só poderiam ser discerníveis através da leitura da linha de raciocínio. O acesso foi concedido com controles de segurança implementados, e continuamos a atualizar esses controles à medida que as capacidades do modelo e as necessidades de teste evoluem.

Revisão de metodologia

Em certos contextos, os avaliadores externos estão bem posicionados para fornecer uma revisão metodológica, oferecendo perspectivas adicionais às estruturas e evidências nas quais os laboratórios de vanguarda se baseiam para avaliar o risco. Por exemplo, durante o lançamento do gpt-oss⁠, usamos ajuste fino adversarial para estimar as capacidades de pior caso para modelos de peso aberto, conforme descrito em Estimando os riscos de fronteira de pior caso de LLMs de peso aberto⁠. A principal questão de segurança era se um agente mal-intencionado poderia ajustar o modelo para alcançar alta capacidade em áreas como biotecnologia ou cibernética sob nossa Estrutura de Preparação. Como isso exigia um ajuste fino adversarial que demandava muitos recursos, convidamos avaliadores externos para revisar e fazer recomendações sobre nossos métodos e resultados internos, em vez de repetir um trabalho semelhante.

Isso envolveu um processo de várias semanas de compartilhamento de implementações de avaliações, detalhes sobre a abordagem para o ajuste fino adversarial e coleta de recomendações estruturadas sobre como aprimorar a metodologia e as avaliações para os riscos de fronteira do pior cenário. O feedback dos avaliadores levou a mudanças no processo final de ajuste fino adversarial e demonstrou o valor da confirmação metodológica. Registramos quais itens adotamos no artigo e na ficha técnica do sistema gpt-oss, e fornecemos justificativas para aqueles que não adotamos.

Neste caso, a revisão metodológica foi a opção mais adequada do que avaliações independentes: as avaliações envolviam a execução de experimentos em larga escala, simulando o pior cenário possível, o que exige infraestrutura e conhecimento técnico que geralmente não estão disponíveis fora dos principais laboratórios de IA. Isso significava que avaliações independentes provavelmente não teriam sido capazes de levar diretamente a insights sobre os piores cenários, e que era mais produtivo concentrar os avaliadores externos na confirmação das alegações. Avaliadores externos analisaram os métodos e as evidências⁠(abre em uma nova janela), destacando lacunas relevantes para a tomada de decisão, as quais foram abordadas como parte do processo de feedback das recomendações. Esperamos estender essa abordagem a outras áreas onde as necessidades de acesso ou infraestrutura tornem impraticável a realização direta de avaliações por terceiros, ou onde avaliações externas ainda não existam.

Investigação por especialista no assunto (SME)

Outra forma de envolvermos especialistas externos é através da consulta a especialistas no assunto (SME, na sigla em inglês), em que esses especialistas avaliam o modelo diretamente e fornecem informações estruturadas, por meio de questionários, para nossa avaliação de suas capacidades. Isso é diferente de "red teaming"⁠, que tem como objetivo testar a resistência de salvaguardas específicas. Isso nos permite complementar as avaliações do Quadro de Preparação com insights específicos do domínio, que refletem o julgamento de especialistas e o contexto do mundo real, algo que as avaliações estáticas por si só podem não capturar. Por exemplo, convidamos um painel de especialistas no assunto para usar um modelo apenas útil³ para testar seus próprios cenários bio de ponta a ponta para o ChatGPT Agent e GPT‑5. Eles avaliaram o quanto o modelo poderia aprimorar um especialista como eles em comparação com um novato menos experiente, com base na utilidade da orientação fornecida em seus cenários. O objetivo era coletar informações adicionais sobre a capacidade do sistema de aproximar significativamente um iniciante motivado da execução competente: especialistas testaram nossas alegações de "aprimoramento do iniciante" em fluxos de trabalho realistas que eles mesmos criaram e forneceram feedback detalhado sobre onde o modelo oferecia ajuda substancial e passo a passo, em comparação com resumos menos úteis. Este exercício de análise especializada foi incluído como parte da avaliação geral para a implementação desses modelos e compartilhado nas fichas técnicas de ambos os lançamentos.

O que torna uma colaboração de avaliação por terceiros bem-sucedida?

Em nome da transparência, estamos compartilhando mais detalhes sobre o que os avaliadores terceirizados aceitam ao trabalhar conosco e os princípios que norteiam nossas colaborações:

Transparência com limites de confidencialidade rigorosos: Os avaliadores terceirizados assinam acordos de confidencialidade para permitir o compartilhamento de informações confidenciais e não públicas que auxiliem em suas avaliações. No Apêndice⁠ deste post, incluímos trechos relevantes de contratos com avaliadores terceirizados que descrevem os direitos relativos à publicação e as expectativas de revisão. Operamos com o princípio da transparência e nos esforçamos para viabilizar publicações que promovam a compreensão da segurança e das avaliações relacionadas, sem comprometer informações confidenciais ou propriedade intelectual. Como parte desse processo, revisamos e aprovamos publicações de avaliações de terceiros para garantir tanto a confidencialidade quanto a precisão factual. Nos últimos anos, diversos avaliadores terceirizados publicaram seus trabalhos juntamente com nossa própria publicação de resumos de avaliação em fichas do sistema. Alguns exemplos de trabalhos que foram publicados após nossa revisão quanto à confidencialidade e precisão incluem: [Relatório METR GPT‑5 ⁠(abre em uma nova janela), Relatório da Apollo Research sobre OpenAI o1⁠(abre em uma nova janela), Avaliação Irregular do GPT‑5⁠(abre em uma nova janela)]
Divulgação criteriosa de informações e acesso seguro e confidencial: Por padrão, fornecemos informações e acesso a modelos que se destinam a ser públicos ou prontos para produção. Quando as avaliações o exigem, fornecemos acesso mais aprofundado, como a modelos úteis ou informações não públicas. A OpenAI disponibilizou essas formas de acesso sempre que necessário para questões críticas de segurança para avaliadores terceirizados. É importante ressaltar que esses tipos de acesso sensível exigem medidas de segurança rigorosas, e continuamos a atualizar esses controles à medida que as capacidades do modelo e as necessidades de teste evoluem.
Incentivos financeiros equilibrados: Acreditamos que é importante garantir que o ecossistema de avaliação por terceiros seja bem financiado e sustentável. Por esse motivo, oferecemos remuneração a todos os nossos avaliadores terceirizados, e alguns optam por recusar, dependendo da filosofia de suas organizações em relação a esse assunto. As formas de remuneração incluem pagamento direto pelo trabalho e/ou subsídio dos custos de uso do modelo por meio de créditos da API ou outros meios. Nenhum pagamento está condicionado aos resultados de uma avaliação de terceiros.

Em conjunto, esses fatores ajudam as avaliações de terceiros a proteger informações sensíveis e promover a transparência na segurança da IA, além de criar caminhos para que os avaliadores terceirizados sejam remunerados pelo seu tempo.

Olhando para o futuro

Olhando para o futuro, vemos a necessidade de continuar fortalecendo o ecossistema de organizações capazes de realizar avaliações confiáveis e relevantes para a tomada de decisões dos sistemas de IA de ponta. Uma avaliação eficaz por terceiros requer conhecimento especializado, financiamento estável e rigor metodológico. O investimento contínuo em organizações de avaliação qualificadas, o avanço da ciência da medição e a segurança do acesso a informações sensíveis serão essenciais para garantir que as avaliações possam acompanhar os avanços nas capacidades dos modelos.

As avaliações de terceiros são uma das maneiras pelas quais trazemos uma perspectiva externa para o nosso trabalho de segurança, e elas operam em conjunto com outros mecanismos. Também colaboramos com especialistas externos por meio de esforços estruturados de simulação de vulnerabilidades (red teaming), projetos de alinhamento coletivo⁠, trabalho com a CAISI dos EUA e a AISI do Reino Unido⁠, e grupos consultivos, como nossa Rede Global de Médicos⁠ e nosso Conselho de Especialistas em Bem-Estar e IA,⁠ para orientar nosso trabalho em saúde mental e bem-estar do usuário. Esses esforços contribuem com diferentes formas de conhecimento especializado e sustentam uma base mais ampla e confiável para avaliar e governar sistemas avançados de IA.

Apêndice

Seguem abaixo trechos ilustrativos de nossos contratos com terceiros que colaboram conosco em avaliações pré-implantação.

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

2025

Autoria

OpenAI

Notas de rodapé

1
Isso difere do "red teaming", que tem como objetivo testar minuciosamente as salvaguardas e fornecer dados para o desenvolvimento de avaliações.
2
Quando um modelo intencionalmente apresenta desempenho inferior ou oculta suas verdadeiras capacidades ao detectar que está sendo avaliado ou testado.
3
Os modelos que respondem apenas a solicitações úteis atendem a qualquer pedido, mesmo que o pedido seja prejudicial. Esses comportamentos são criados por métodos de pós-treinamento.

Continuar lendo

Ver tudo

Safety and alignment in an era of long-horizon models

Segurança20 de jul. de 2026

Why teens deserve access to safe AI

Segurança16 de jul. de 2026

GPT-Red: Desbloqueando autoaperfeiçoamento para robustez

Segurança15 de jul. de 2026