19 de noviembre de 2025

Fortalecemos nuestro ecosistema de seguridad con pruebas externas

Nuestro enfoque para las evaluaciones de terceros en la IA de vanguardia.

Cargando...

En OpenAI, creemos que las evaluaciones independientes y confiables de terceros desempeñan un rol fundamental en el fortalecimiento del ecosistema de seguridad de la IA de vanguardia. Las evaluaciones de terceros son evaluaciones realizadas sobre modelos de vanguardia para confirmar o proporcionar evidencia adicional a afirmaciones sobre capacidades de seguridad críticas y mitigaciones. Estas evaluaciones ayudan a validar las afirmaciones de seguridad, brindar protección contra puntos ciegos y aumentar la transparencia sobre capacidades y riesgos. Al invitar a expertos externos a probar nuestros modelos de vanguardia, también buscamos fomentar la confianza en la profundidad de nuestras evaluaciones de capacidades y protecciones, y contribuir a mejorar el ecosistema de seguridad en general.

Desde el lanzamiento de GPT‑4, OpenAI ha colaborado con varios socios externos para probar y evaluar nuestros modelos. En términos generales, nuestras colaboraciones con terceros se presentan de tres formas:

Evaluaciones independientes de capacidades de vanguardia clave y áreas de riesgo como bioseguridad, ciberseguridad, mejora autónoma de la IA y planificación.
Revisiones de metodología que evalúan cómo analizamos e interpretamos el riesgo.
Sondeo de expertos en la materia (SME), en el que los expertos evalúan el modelo directamente en tareas reales de SME y proporcionan entrada estructurada para nuestra evaluación de sus capacidades y protecciones asociadas.¹

En este blog, se describe cómo usamos cada una de estas formas de evaluación externa, por qué son importantes, cómo han influido en las decisiones de implementación y los principios que usamos para estructurar estas colaboraciones. En aras de la transparencia, también compartimos más información sobre los términos de confidencialidad y publicación que rigen nuestras colaboraciones con evaluadores de terceros.

¿Por qué es importante?

Los terceros agregan una evaluación independiente junto con nuestro trabajo interno, lo que fortalece el rigor y proporciona protecciones adicionales contra la autoconfirmación. Su entrada proporciona evidencia adicional junto con nuestras propias evaluaciones, lo que ayuda a informar decisiones responsables de implementación para sistemas potentes.

También vemos las evaluaciones de terceros como parte de la creación de un ecosistema de seguridad resiliente⁠. Nuestros equipos realizan pruebas internas exhaustivas en áreas de capacidad y riesgo, pero las organizaciones independientes aportan perspectivas y enfoques metodológicos adicionales. Trabajamos para ayudar a un grupo diverso de organizaciones evaluadoras calificadas que pueden evaluar periódicamente modelos de vanguardia junto a nosotros.

Por último, nuestro objetivo es ser transparentes sobre cómo esta entrada ayuda a dar forma a nuestro proceso de seguridad. Regularmente hacemos públicas las evaluaciones de terceros; por ejemplo, al incluir resúmenes de evaluaciones previas a la implementación en tarjetas del sistema, y al apoyar a las organizaciones evaluadoras en la publicación de trabajos más detallados tras la revisión de confidencialidad y precisión. Esta transparencia genera confianza al mostrar cómo la entrada externa da forma a nuestras evaluaciones de capacidades y protecciones.

Las relaciones sostenidas basadas en el acceso confiable, la transparencia y el intercambio de conocimientos ayudan a todo el ecosistema a mantenerse por delante de los riesgos emergentes y fomentan evaluaciones adaptables y accionables necesarias para estándares más sólidos y una gobernanza más informada para los sistemas de IA de vanguardia.

Evaluaciones independientes a cargo de laboratorios externos

Desde el lanzamiento de GPT‑4⁠(se abre en una nueva ventana), respaldamos evaluaciones independientes en los primeros puntos de control del modelo antes de su implementación. Desde entonces, hemos ampliado nuestro trabajo con una variedad de organizaciones de terceros que tienen una profunda experiencia en evaluaciones para capacidades clave en áreas de vanguardia y riesgo. Definimos el trabajo de laboratorio independiente como pruebas abiertas en las que equipos externos aplican sus propios métodos para formular una afirmación o evaluación relacionada con una capacidad de vanguardia específica.

Como ejemplo, para GPT‑5⁠, OpenAI coordinó un gran conjunto de evaluaciones de capacidades externas en áreas clave de riesgo, como la autonomía a largo plazo, la planificación estratégica, el engaño y la subversión de la supervisión, la viabilidad de la planificación de laboratorios húmedos y las evaluaciones de ciberseguridad ofensiva.

Estas evaluaciones independientes complementan las evaluaciones realizadas de acuerdo con el marco de preparación de OpenAI e incluyen puntos de referencia como la evaluación del horizonte temporal⁠(se abre en una nueva ventana) de METR o la evaluación de la solución de problemas de capacidades de virología (VCT)⁠(se abre en una nueva ventana) de SecureBio.

Para apoyar estas evaluaciones, proporcionamos acceso seguro a puntos de control tempranos de modelos, seleccionamos resultados de evaluación para concretar las mejoras de capacidad que estamos observando, retención cero de datos donde sea necesario y modelos con menos mitigaciones. Por ejemplo, las organizaciones que realizan pruebas en los dominios de la ciberseguridad y la bioseguridad probaron modelos con y sin medidas de mitigación de riesgos para sondear las capacidades subyacentes. Muchas otras organizaciones recibieron acceso directo a la cadena de pensamiento para habilitarlas a inspeccionar las huellas de razonamiento del modelo. Este paso de mayor transparencia permitió a los evaluadores identificar casos de sandbagging² o comportamientos tramposos que solo podían detectarse leyendo la cadena de pensamiento. Se proporcionó acceso con controles de seguridad implementados, y continuamos actualizando esos controles a medida que evolucionan las capacidades del modelo y las necesidades de prueba.

Revisión de metodología

En ciertos contextos, los evaluadores externos están bien posicionados para realizar revisiones metodológicas, lo que aporta perspectivas adicionales a los marcos y las evidencias en los que los laboratorios de vanguardia se basan para evaluar riesgos. Por ejemplo, durante el lanzamiento de gpt-oss⁠, utilizamos el ajuste fino adversarial para estimar las capacidades en el peor de los casos para los modelos de peso abierto, como se describe en Estimación de los riesgos de vanguardia en el peor de los casos de los LLM de peso abierto⁠. La pregunta central de seguridad era si un actor malicioso podría ajustar el modelo para alcanzar una alta capacidad en áreas como biología o ciberseguridad bajo nuestro Marco de preparación. Debido a que esto requería un ajuste fino adversarial intensivo en recursos, invitamos a evaluadores de terceros a revisar y hacer recomendaciones sobre nuestros métodos y resultados internos en lugar de repetir trabajos similares.

Esto implicó un proceso de varias semanas para compartir los despliegues de evaluación, los detalles sobre el enfoque para el ajuste fino adversarial y la recopilación de recomendaciones estructuradas para mejorar la metodología y las evaluaciones para los riesgos de vanguardia en el peor de los casos. Los comentarios de los evaluadores llevaron a modificaciones en el proceso final de ajuste fino adversarial y demostraron el valor de la confirmación metodológica. Registramos qué elementos adoptamos en el artículo y la tarjeta del sistema para gpt-oss, y proporcionamos las razones para aquellos que no adoptamos.

Aquí, la revisión de la metodología fue la opción adecuada en lugar de evaluaciones independientes: las evaluaciones implicaban realizar experimentos a gran escala en el peor de los casos, lo que requiere infraestructura y conocimientos técnicos que no suelen estar disponibles fuera de los principales laboratorios de IA. Esto significaba que las evaluaciones independientes probablemente no habrían podido proporcionar directamente información sobre los peores escenarios posibles, y era más productivo enfocar a los evaluadores externos en la confirmación de las afirmaciones. Los evaluadores externos revisaron los métodos y las pruebas⁠(se abre en una nueva ventana), y destacaron las brechas relevantes para la toma de decisiones que se abordaron como parte del ciclo de comentarios de recomendaciones. Este enfoque es uno que esperamos extender a otras áreas donde las necesidades de acceso o infraestructura hagan poco práctico que un tercero haga evaluaciones directamente, o donde las evaluaciones externas aún no existan.

Sondeo de expertos en la materia (SME)

Otra manera de involucrar a expertos externos es a través de la indagación de expertos en la materia (SME), donde los expertos evalúan directamente el modelo y proporcionan una entrada estructurada mediante encuestas para nuestra evaluación de sus capacidades. Esto es diferente de red teaming⁠, que tiene como objetivo poner a prueba las garantías específicas. Esto nos permite complementar las evaluaciones del marco de preparación con conocimientos específicos del dominio reflejan el criterio de los expertos y el contexto del mundo real, algo que las evaluaciones estáticas por sí solas no pueden captar. Por ejemplo, invitamos a un panel de expertos en la materia a utilizar un modelo exclusivamente útil ³ para probar sus propios escenarios de extremo a extremo para el agente ChatGPT y GPT‑5. Evaluaron cuánto podía ayudar el modelo a un experto como ellos en comparación con un novato con menos experiencia, según la utilidad de la orientación que proporcionaba en sus escenarios. El objetivo era recabar información adicional sobre la capacidad del sistema para acercar materialmente a un principiante motivado a una ejecución competente: los SME sometieron a pruebas de estrés nuestras afirmaciones sobre la “mejora de los principiantes” en flujos de trabajo realistas que ellos mismos idearon y proporcionaron comentarios detallados sobre los casos en los que el modelo ofrecía ayuda material y paso a paso frente a resúmenes menos útiles. Este ejercicio de sondeo experto se incluyó como parte de la evaluación general para el despliegue de estos modelos, y se compartió en tarjetas del sistema para ambos lanzamientos.

¿Qué hace que una colaboración de evaluación de terceros sea exitosa?

En el espíritu de transparencia, compartimos más sobre lo que los evaluadores de terceros aceptan cuando trabajan con nosotros y los principios que guían nuestras colaboraciones:

Transparencia con límites de confidencialidad cuidadosos: los evaluadores de terceros firman acuerdos de confidencialidad para habilitar el intercambio de información confidencial y no pública que respalde sus evaluaciones. En el anexo⁠ de esta publicación, incluimos extractos relevantes de contratos con evaluadores terceros que describen los derechos sobre la publicación y las expectativas para la revisión. Trabajamos con el principio de transparencia y nos esforzamos por habilitar publicaciones que promuevan la comprensión de la seguridad y las evaluaciones relacionadas sin comprometer la información confidencial ni la propiedad intelectual. Como parte de esto, revisamos y aprobamos publicaciones de evaluaciones de terceros para asegurar tanto la confidencialidad como la precisión de los hechos. En los últimos años, varios evaluadores de terceros han publicado su trabajo junto con nuestra propia publicación de resúmenes de evaluación en tarjetas del sistema. Algunos ejemplos de trabajos que se han publicado después de que los revisamos para garantizar la confidencialidad y precisión incluyen: [Informe METR GPT‑5⁠(se abre en una nueva ventana), Informe de investigación Apollo sobre OpenAI o1⁠(se abre en una nueva ventana), Evaluación Irregular de GPT‑5⁠(se abre en una nueva ventana)]
Divulgación cuidadosa de información y acceso seguro y confidencial: de forma predeterminada, proporcionamos información y acceso a modelos que están destinados a ser públicos o listos para producción. Cuando las evaluaciones lo requieren, proporcionamos un acceso más profundo, como a modelos que son solo útiles o a información no pública. OpenAI ha proporcionado estas formas de acceso cuando ha sido necesario para cuestiones críticas de seguridad para evaluadores de terceros. Es importante destacar que estos tipos de acceso confidencial requieren medidas de seguridad estrictas, y continuamos actualizando esos controles a medida que evolucionan las capacidades de los modelos y las necesidades de prueba.
Incentivos financieros equilibrados: Creemos que es importante asegurar que el ecosistema de evaluación de terceros esté bien financiado y sea sostenible. Por eso, ofrecemos compensación a todos nuestros evaluadores de terceros, y algunos deciden rechazarla en función de la filosofía de su organización al respecto. Las formas de compensación incluyen el pago directo por el trabajo o la subvención de los costos de uso del modelo a través de créditos API o de otro tipo. Ningún pago depende de los resultados de una evaluación de terceros.

En conjunto, estos factores ayudan a las evaluaciones de terceros a proteger la información sensible y fomentar la transparencia en la seguridad de la IA, además de crear caminos para que los evaluadores de terceros sean compensados por su tiempo.

De cara al futuro

De cara al futuro, vemos la necesidad de continuar fortaleciendo el ecosistema de organizaciones capaces de realizar evaluaciones creíbles y relevantes para la toma de decisiones de los sistemas de IA de vanguardia. La evaluación efectiva de terceros requiere experiencia especializada, financiamiento estable y rigor metodológico. La inversión que continúa en organizaciones evaluadoras calificadas, el avance de la ciencia de la determinación y la seguridad para accesos sensibles serán esenciales para garantizar que las evaluaciones puedan seguir el ritmo de los avances en las capacidades del modelo.

Las evaluaciones de terceros son una manera de aportar una perspectiva externa a nuestro trabajo de seguridad, y operan junto con otros mecanismos. También colaboramos con expertos externos a través de esfuerzos estructurados de red teaming, proyectos de alineación colectiva⁠, trabajo con CAISI de EE. UU. y AISI del Reino Unido⁠, y grupos asesores como nuestra Red Global de Médicos⁠ y nuestro Consejo de Expertos en Bienestar e Inteligencia Artificial⁠ para ayudar a guiar nuestro trabajo sobre salud mental y bienestar de los usuarios. Estos esfuerzos aportan diversas formas de experiencia y respaldan una base más amplia y confiable para evaluar y regular sistemas avanzados de IA.

Anexo

Los siguientes son extractos ilustrativos de nuestros acuerdos con terceros que colaboran con nosotros en las evaluaciones previas a la implementación.

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

2025

Autor

OpenAI

Notas al pie

1
Esto difiere del red teaming, que tiene como objetivo realizar pruebas de estrés detalladas de las medidas de seguridad y proporcionar datos para el desarrollo de la evaluación.
2
Cuando un modelo tiene un rendimiento inferior intencionalmente u oculta sus verdaderas capacidades al detectar que está siendo evaluado o probado.
3
Los modelos que solo son útiles responden a cualquier solicitud, incluso si esta es perjudicial. Estos se crean mediante métodos posteriores al entrenamiento que logran este comportamiento.

Sigue leyendo

Ver todos

Safety and alignment in an era of long-horizon models

Seguridad20 jul 2026

Why teens deserve access to safe AI — card image

Por qué los adolescentes merecen acceso a una IA segura

Seguridad16 jul 2026

GPT-Red: activar la automejora para mayor robustez

Seguridad15 jul 2026