19 de noviembre de 2025

Fortaleciendo nuestro ecosistema de seguridad con pruebas externas

Nuestro enfoque para las evaluaciones de terceros para la IA del futuro.

Cargando…

En OpenAI, creemos que las evaluaciones independientes y confiables de terceros desempeñan una función crucial en el fortalecimiento del ecosistema de seguridad de la IA de vanguardia. Las evaluaciones de terceros son análisis realizados sobre modelos de vanguardia para confirmar o proporcionar evidencia adicional a las afirmaciones sobre capacidades críticas de seguridad y mitigaciones. Estas evaluaciones ayudan a validar las afirmaciones de seguridad, proteger contra puntos ciegos y aumentar la transparencia sobre las capacidades y los riesgos. Al invitar a expertos externos a probar nuestros modelos de vanguardia, también buscamos fomentar la confianza en la profundidad de nuestras evaluaciones de capacidades y salvaguardias, y contribuir a mejorar el ecosistema de seguridad en general.

Desde el lanzamiento de GPT‑4, OpenAI ha colaborado con varios socios externos para probar y evaluar nuestros modelos. En términos generales, nuestras colaboraciones con terceros se presentan en tres formas:

Evaluaciones independientes de áreas clave de capacidad y riesgo fronterizas, como la bioseguridad, la ciberseguridad, la automejora de la IA y la planificación
Revisiones de la metodología que evalúan cómo interpretamos y evaluamos el riesgo
Sondeo de expertos en la materia (SME), donde los expertos evalúan el modelo directamente en tareas reales de SME y proporcionan entrada estructurada para nuestra evaluación de sus capacidades y salvaguardas asociadas¹

Este blog describe cómo usamos cada una de estas formas de evaluación externa, por qué son importantes, cómo han influido en las decisiones de implementación y los principios que usamos para estructurar estas colaboraciones. En aras de la transparencia, también compartimos más información sobre los términos de confidencialidad y publicación que rigen nuestras colaboraciones con terceros evaluadores.

¿Por qué es esto importante?

Los terceros añaden una capa independiente de evaluación junto a nuestro trabajo interno, fortaleciendo el rigor y proporcionando protecciones adicionales contra la autoconfirmación. Su entrada proporciona evidencia adicional junto con nuestras propias evaluaciones, ayudando a informar decisiones responsables de despliegue para sistemas potentes.

También consideramos las evaluaciones de terceros como parte de la creación de un ecosistema de seguridad resiliente⁠. Nuestros equipos realizan pruebas internas exhaustivas en áreas de capacidad y riesgo, pero las organizaciones independientes aportan perspectivas y enfoques metodológicos adicionales. Trabajamos para brindar asistencia a un grupo diverso de organizaciones evaluadoras cualificadas que puedan evaluar regularmente los modelos de frontera junto con nosotros.

Por último, queremos ser transparentes sobre cómo esta entrada ayuda a dar forma a nuestro proceso de seguridad. Regularmente hacemos públicas las evaluaciones de terceros; por ejemplo, incluyendo resúmenes de evaluaciones previas al despliegue en tarjetas de sistema, y apoyando a las organizaciones evaluadoras en la publicación de trabajos más detallados tras la revisión de confidencialidad y precisión. Esta transparencia genera confianza al mostrar cómo la entrada externa da forma a nuestras evaluaciones de capacidades y medidas de protección.

Las relaciones sostenidas basadas en el acceso confiable, la transparencia y el intercambio de conocimientos ayudan a todo el ecosistema a adelantarse a los riesgos emergentes y fomentan evaluaciones adaptables y prácticas necesarias para estándares más sólidos y una gobernanza más informada para los sistemas de IA de vanguardia.

Evaluaciones independientes realizadas por laboratorios externos

Desde el lanzamiento de GPT‑4⁠(se abre en una ventana nueva), hemos apoyado evaluaciones independientes en los primeros puntos de control de los modelos antes de su despliegue. Desde entonces, hemos ampliado nuestro trabajo con una variedad de organizaciones de terceros que poseen una profunda experiencia en evaluaciones de áreas clave de capacidad y riesgo en la frontera. Definimos el trabajo de laboratorio independiente como pruebas abiertas en las que equipos externos aplican sus propios métodos para formular una afirmación o evaluación relacionada con una capacidad de frontera específica.

Por ejemplo, para GPT‑5⁠, OpenAI coordinó una amplia serie de evaluaciones de capacidades externas en áreas de riesgo clave, como la autonomía a largo plazo, la intriga, el engaño y la subversión de la supervisión, la viabilidad de la planificación de laboratorios húmedos y las evaluaciones de ciberseguridad ofensiva.

Estas evaluaciones independientes complementan las evaluaciones realizadas de acuerdo con el Marco de Preparación de OpenAI e incluyen puntos de referencia como la evaluación del horizonte temporal⁠(se abre en una ventana nueva) de METR o la evaluación de resolución de capacidades virológicas (VCT)⁠(se abre en una ventana nueva) de SecureBio.

Para brindar asistencia a estas evaluaciones, proporcionamos acceso seguro a checkpoints tempranos de modelos, seleccionamos resultados de evaluación para concretar las mejoras de capacidad que estamos observando, sin retención de datos cuando es necesario y modelos con menos mitigaciones. Por ejemplo, las organizaciones que realizaban pruebas en los dominios de la ciberseguridad y la bioseguridad evaluaron modelos tanto con como sin mitigaciones de seguridad para explorar las capacidades subyacentes. Varias otras organizaciones recibieron acceso directo a la cadena de pensamiento para habilitar la inspección de las trazas del razonamiento del modelo. Este paso de mayor transparencia permitió a los evaluadores identificar casos de sandbagging² o de comportamiento tramposo que solo podrían discernirse leyendo la cadena de pensamiento. Se proporcionó acceso con controles de seguridad en su lugar, y continuamos actualizando esos controles a medida que evolucionan las capacidades del modelo y las necesidades de prueba.

Revisión de la metodología

En ciertos contextos, los evaluadores externos están bien posicionados para proporcionar revisiones metodológicas, ofreciendo perspectivas adicionales a los marcos y evidencias en los que los laboratorios de vanguardia se basan para evaluar riesgos. Por ejemplo, durante el lanzamiento de gpt-oss⁠, utilizamos el ajuste fino adversarial para estimar las capacidades en el peor de los casos para los modelos de peso abierto, como se describe en Estimación de los riesgos de frontera en el peor de los casos de los LLM de peso abierto⁠. La cuestión central de seguridad era si un actor malintencionado podría afinar el modelo para alcanzar una alta capacidad en áreas como la biología o la ciberseguridad bajo nuestro Marco de Preparación. Dado que esto requería un ajuste fino adversarial intensivo en recursos, invitamos a evaluadores terceros a revisar y hacer recomendaciones sobre nuestros métodos y resultados internos en lugar de repetir trabajos similares.

Esto implicó un proceso de varias semanas para compartir los despliegues de evaluación, detalles sobre el enfoque para el ajuste fino adversarial y la recopilación de recomendaciones estructuradas para mejorar la metodología y las evaluaciones de los riesgos de frontera en el peor de los casos. La opinión de los evaluadores llevó a cambios en el proceso final de ajuste adversarial y demostró el valor de la confirmación metodológica. Registramos qué elementos adoptamos en el documento y en la tarjeta del sistema para gpt-oss, y proporcionamos razones para aquellos que no adoptamos.

Aquí, la revisión de la metodología fue la opción adecuada en lugar de evaluaciones independientes: las evaluaciones implicaban realizar experimentos a gran escala en escenarios de peor caso, lo cual requiere infraestructura y conocimientos técnicos que no están comúnmente disponibles fuera de los principales laboratorios de IA. Esto significaba que las evaluaciones independientes probablemente no habrían podido conducir directamente a conocimientos sobre los peores escenarios, y era más productivo centrar a los evaluadores externos en la confirmación de las afirmaciones. Los evaluadores externos revisaron los métodos y las pruebas⁠(se abre en una ventana nueva), destacando las lagunas relevantes para la toma de decisiones que se abordaron como parte del ciclo de opinión de recomendaciones. Este enfoque es uno que esperamos extender a otras áreas donde las necesidades de acceso o infraestructura hagan que sea poco práctico que un tercero realice evaluaciones directamente, o donde las evaluaciones externas aún no existan.

Sondeo de expertos en la materia (SME)

Otra forma de involucrar a expertos externos es a través de la evaluación de expertos en la materia (SME), donde los expertos evalúan directamente el modelo y proporcionan entrada estructurada mediante encuestas para nuestra evaluación de sus capacidades. Esto es diferente del equipo rojo⁠, que tiene como objetivo poner a prueba medidas de seguridad específicas. Esto nos permite complementar las evaluaciones del Marco de Preparación con perspectivas específicas del dominio que reflejan el juicio de expertos y el contexto del mundo real que las evaluaciones estáticas por sí solas no pueden captar. Por ejemplo, invitamos a un panel de expertos en la materia a utilizar un modelo exclusivamente útil³ para probar sus propios escenarios biológicos de extremo a extremo para el agente de ChatGPT y GPT‑5. Evaluaron cuánto podía el modelo mejorar a un experto como ellos en comparación con un novato menos experimentado, basándose en la utilidad de la orientación que proporcionaba en sus escenarios. El objetivo era recopilar información adicional sobre hasta qué punto el sistema podía acercar materialmente a un novato motivado a una ejecución competente: las pymes sometieron a prueba nuestras afirmaciones de «mejora del novato» bajo flujos de trabajo realistas que idearon y dieron opinión detallada sobre dónde el modelo proporcionaba ayuda material a nivel de pasos frente a resúmenes menos útiles. Este ejercicio de indagación experta se incluyó como parte de la evaluación global para el despliegue de estos modelos y se compartió en las fichas de sistema de ambos lanzamientos.

¿Qué hace que una colaboración de evaluación de terceros sea exitosa?

En aras de la transparencia, compartimos más sobre lo que los evaluadores terceros aceptan al trabajar con nosotros y los principios que guían nuestras colaboraciones:

Transparencia con límites de confidencialidad cuidadosos: los evaluadores de terceros firman acuerdos de confidencialidad para habilitar el intercambio de información confidencial y no pública para la asistencia en sus evaluaciones. En el Anexo⁠ de esta publicación, incluimos extractos relevantes de contratos con evaluadores terceros que describen los derechos sobre la publicación y las expectativas para la revisión. Operamos con el principio de transparencia y nos esforzamos por habilitar publicaciones que mejoren la comprensión de la seguridad y las evaluaciones relacionadas sin comprometer la información confidencial o la propiedad intelectual. Como parte de esto, revisamos y aprobamos publicaciones de evaluaciones de terceros para asegurar tanto la confidencialidad como la precisión de los hechos. En los últimos años, varios evaluadores terceros han publicado sus trabajos junto con nuestra propia publicación de resúmenes de evaluaciones en tarjetas del sistema. Algunos ejemplos de trabajos que se han publicado después de que los revisamos para garantizar la confidencialidad y precisión incluyen: [METR GPT‑5 report ⁠(se abre en una ventana nueva), Informe de investigación Apollo sobre OpenAI o1⁠(se abre en una ventana nueva), Evaluación Irregular de GPT‑5⁠(se abre en una ventana nueva)]
Divulgación cuidadosa de la información y acceso seguro y sensible: De forma predeterminada, proporcionamos información y acceso a modelos que están destinados a ser públicos o listos para producción. Cuando las evaluaciones lo requieren, proporcionamos un acceso más profundo, como a modelos útiles únicamente o a información no pública. OpenAI ha proporcionado estas formas de acceso cuando sea necesario para cuestiones críticas de seguridad para evaluadores terceros. Es importante destacar que estos tipos de acceso sensible requieren estrictas medidas de seguridad, y continuamos actualizando esos controles a medida que evolucionan las capacidades del modelo y las necesidades de las pruebas.
Incentivos financieros equilibrados: creemos que es importante garantizar que el ecosistema de evaluación de terceros esté bien financiado y sea sostenible. Por eso, ofrecemos compensación a todos nuestros terceros evaluadores, aunque algunos optan por rechazarla según la filosofía de su organización al respecto. Las formas de compensación incluyen el pago directo por el trabajo realizado y/o la subvención de los costes de uso del modelo mediante créditos API u otros medios. Ningún pago está nunca condicionado a los resultados de una evaluación de terceros.

En conjunto, estos factores ayudan a que las evaluaciones de terceros protejan la información confidencial y fomenten la transparencia en la seguridad de la IA, además de crear vías para que los evaluadores terceros sean compensados por su tiempo.

De cara al futuro

De cara al futuro, vemos la necesidad de continuar fortaleciendo el ecosistema de organizaciones capaces de llevar a cabo evaluaciones creíbles y relevantes para la toma de decisiones sobre los sistemas de IA de vanguardia. Una evaluación efectiva de terceros requiere experiencia especializada, financiación estable y rigor metodológico. La inversión continuada en organizaciones evaluadoras cualificadas, el avance de la ciencia de la medición y la seguridad para accesos sensibles serán esenciales para garantizar que las evaluaciones puedan seguir el ritmo de los avances en las capacidades del modelo.

Las evaluaciones de terceros son una manera de incorporar una perspectiva externa en nuestro trabajo de seguridad, y operan junto con otros mecanismos. También colaboramos con expertos externos a través de esfuerzos estructurados de red teaming, proyectos de alineación colectiva⁠, trabajamos con la CAISI de EE. UU. y la AISI del Reino Unido⁠, y grupos asesores como nuestra Red Mundial de Médicos⁠ y nuestro Consejo de Expertos en Bienestar e Inteligencia Artificial⁠ para ayudar a guiar nuestro trabajo en salud mental y bienestar de los usuarios. Estos esfuerzos aportan diferentes formas de experiencia y brindan una asistencia más amplia y confiable para evaluar y gobernar los sistemas avanzados de IA.

Anexo

A continuación se presentan extractos ilustrativos de nuestros acuerdos con terceros que colaboran con nosotros en evaluaciones previas al despliegue.

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

2025

Autor

OpenAI

Notas al pie

1
Esto difiere del red teaming, que tiene la intención de poner a prueba de manera granular las salvaguardas y proporcionar datos para el desarrollo de la evaluación.
2
Cuando un modelo intencionalmente baja su rendimiento o esconde sus verdaderas capacidades al detectar que está siendo evaluado o probado.
3
Los modelos que solo son útiles responden a cualquier solicitud, incluso si la solicitud es dañina. Estos se crean mediante métodos de postformación que logran este comportamiento.

Sigue leyendo

Ver todo

Safety and alignment in an era of long-horizon models

Seguridad20 jul 2026

Why teens deserve access to safe AI — card image

Por qué los adolescentes merecen acceso a una IA segura

Seguridad16 jul 2026

GPT-Red: abrir la puerta a la automejora para la robustez

Seguridad15 jul 2026