Reforzar la ciberresiliencia a medida que avanzan las capacidades de la IA
A medida que nuestros modelos adquieren más capacidades en ciberseguridad, seguimos invirtiendo en reforzarlos, incorporando salvaguardas y colaborando con expertos en seguridad de todo el mundo.
Las capacidades cibernéticas en los modelos de IA avanzan rápidamente, lo que aporta beneficios significativos para la ciberdefensa, así como nuevos riesgos de doble uso que deben gestionarse cuidadosamente. Por ejemplo, las capacidades evaluadas mediante desafíos de tipo Capture-the-Flag (CTF) han mejorado del 27 % en GPT‑5(se abre en una ventana nueva) en agosto de 2025 al 76 % en GPT‑5.1‑Codex‑Max(se abre en una ventana nueva) en noviembre de 2025.
Prevemos que los próximos modelos de IA sigan esta trayectoria; para anticiparnos, planificamos y evaluamos cada nuevo modelo como si pudiera alcanzar niveles altos de capacidad en ciberseguridad, según lo establecido por nuestro Marco de preparación(se abre en una ventana nueva). Con esto, nos referimos a modelos capaces de desarrollar exploits remotos de día cero funcionales contra sistemas bien protegidos, o de asistir de forma relevante en operaciones complejas y sigilosas de intrusión empresarial o industrial, con el objetivo de producir efectos en el mundo real. En esta publicación explicamos cómo concebimos las salvaguardas para los modelos que alcanzan estos niveles de capacidad y cómo nos aseguramos de que ayuden significativamente a los defensores mientras limitamos el uso indebido.
A medida que estas capacidades avanzan, OpenAI está invirtiendo en reforzar los modelos para tareas de ciberseguridad defensiva y en crear herramientas que permitan a los equipos defensivos llevar a cabo con mayor facilidad flujos de trabajo como la auditoría de código y la corrección de vulnerabilidades. El objetivo es que nuestros modelos y productos ofrezcan ventajas importantes para los defensores, que a menudo enfrentan una desventaja tanto en número como en recursos.
Al igual que otros dominios de doble uso, los flujos de trabajo cibernéticos defensivos y ofensivos suelen basarse en los mismos conocimientos y técnicas subyacentes. Invertimos en salvaguardas para garantizar que estas capacidades avanzadas se usen principalmente con fines defensivos y que se limiten los usos maliciosos. La ciberseguridad abarca casi todos los ámbitos, lo que significa que no podemos depender de una sola categoría de salvaguardas, como restringir el acceso a la información o usar únicamente acceso verificado, sino que necesitamos un enfoque de defensa en profundidad que equilibre el riesgo y empodere a los usuarios. En la práctica, esto significa definir cómo se accede a las capacidades, cómo se orientan y cómo se aplican, de modo que los modelos avanzados refuercen la seguridad en lugar de facilitar los usos indebidos.
Más que un esfuerzo puntual, vemos este trabajo como una inversión sostenida y de largo plazo para dar ventaja a los defensores y fortalecer continuamente la seguridad de la infraestructura crítica en todo el ecosistema.
Nuestros modelos están diseñados y entrenados para operar de forma segura, respaldados por sistemas proactivos que detectan y responden a los abusos cibernéticos. Perfeccionamos continuamente estas protecciones a medida que evolucionan nuestras capacidades y el panorama de amenazas. Aunque ningún sistema puede garantizar la prevención completa del uso indebido en ciberseguridad sin afectar gravemente a los usos defensivos, nuestra estrategia consiste en mitigar el riesgo mediante un sistema de seguridad por capas.
Partimos de un enfoque de defensa en profundidad, que se sustenta en una combinación de controles de acceso, endurecimiento de la infraestructura, controles de salida y monitorización. Complementamos estas medidas con sistemas de detección y respuesta, así como con programas especializados de inteligencia de amenazas y riesgo interno, lo que permite identificar y bloquear rápidamente las amenazas emergentes. Estas salvaguardas están diseñadas para evolucionar con el entorno de amenazas. Asumimos el cambio y construimos para poder adaptarnos con rapidez y de forma adecuada.
Sobre esta base:
- Entrenamiento del modelo para rechazar o responder de forma segura a solicitudes perjudiciales, sin dejar de ser útil para casos de uso educativo y defensivo: estamos entrenando nuestros modelos de vanguardia para que rechacen o respondan de forma segura a las solicitudes que podrían dar lugar a un claro abuso cibernético, sin dejar de ser lo más útiles posible para los casos de uso legítimos de defensa o educación.
- Sistemas de detección: perfeccionamos y mantenemos la monitorización de todo el sistema en los productos que usan modelos de vanguardia para detectar actividad cibernética potencialmente maliciosa. Cuando una actividad parece insegura, podemos bloquear la salida, redirigir los prompts a modelos más seguros o menos capaces, o escalar el caso para aplicar medidas de control. Estas medidas combinan revisión automatizada y humana, en función de factores como los requisitos legales, la gravedad y el comportamiento reincidente. También trabajamos estrechamente con desarrolladores y clientes empresariales para alinearnos en torno a estándares de seguridad y permitir un uso responsable con vías de escalamiento claras.
- Red teaming de extremo a extremo: colaboramos con organizaciones expertas en red teaming para evaluar y mejorar nuestras medidas de seguridad. Su labor consiste en intentar eludir todas nuestras defensas mediante pruebas de extremo a extremo, tal como lo haría un atacante decidido y con recursos suficientes. Esto nos ayuda a identificar vulnerabilidades de forma temprana y reforzar el sistema completo.
OpenAI ha invertido desde etapas tempranas en el uso de la IA para casos de uso en ciberseguridad defensiva. Nuestro equipo colabora estrechamente con expertos globales para seguir desarrollando tanto nuestros modelos como sus aplicaciones. Valoramos a la comunidad global de profesionales de la ciberseguridad que trabajan arduamente para hacer que nuestro mundo digital sea más seguro, y nos comprometemos a ofrecer herramientas avanzadas que respalden la seguridad defensiva. A medida que implementamos nuevas salvaguardas, seguiremos trabajando con esta comunidad para entender dónde la IA puede reforzar significativamente la resiliencia y dónde son más importantes las salvaguardas bien diseñadas.
Además de estas colaboraciones, estamos impulsando un conjunto de iniciativas diseñadas para ayudar a los defensores a avanzar más rápido, basar nuestras salvaguardas en necesidades reales y acelerar la remediación responsable a gran escala.
Próximamente presentaremos un programa de acceso de confianza en el que exploraremos la posibilidad de ofrecer a usuarios y clientes elegibles que trabajen en ciberdefensa acceso por niveles a capacidades mejoradas en nuestros modelos más recientes para casos de uso defensivos. Aún estamos analizando los límites adecuados entre las capacidades que podemos ofrecer de forma generalizada y aquellas que requieren restricciones por niveles, lo que puede influir en el diseño futuro del programa. Nuestro objetivo es que este programa de acceso de confianza sea una base para la construcción de un ecosistema resiliente.
Aardvark, nuestro investigador de seguridad con agentes que ayuda a desarrolladores y equipos de seguridad a detectar y corregir vulnerabilidades a gran escala, ya está en fase beta privada. Analiza bases de código para encontrar vulnerabilidades y propone parches que los mantenedores pueden implementar rápidamente. Ya ha identificado nuevos CVE en software de código abierto al razonar sobre bases de código completas. Tenemos previsto ofrecer cobertura gratuita a determinados repositorios de código abierto de carácter no comercial para contribuir a la seguridad del ecosistema y de la cadena de suministro del software de código abierto. Regístrate aquí para participar.
Estableceremos el Consejo de riesgos de frontera, un grupo asesor que reunirá a defensores cibernéticos experimentados y profesionales de la seguridad para colaborar estrechamente con nuestros equipos. El consejo se enfocará inicialmente en la ciberseguridad y, en el futuro, ampliará su alcance a otros ámbitos de las capacidades de vanguardia. Los miembros del consejo asesorarán sobre el límite entre una capacidad útil y responsable y el posible uso indebido, y estos aprendizajes informarán directamente nuestras evaluaciones y salvaguardas. Pronto compartiremos más información sobre el consejo.
Por último, prevemos que el uso indebido cibernético podría ser factible en cualquier modelo de vanguardia de la industria. Para abordar esta cuestión, trabajamos con otros laboratorios de vanguardia a través del Frontier Model Forum, una organización sin fines de lucro respaldada por laboratorios líderes de IA y socios de la industria, para desarrollar una comprensión compartida de los modelos de amenaza y las mejores prácticas. En este contexto, el modelado de amenazas ayuda a reducir riesgos al identificar cómo podrían usarse con fines maliciosos las capacidades de la IA, dónde están los cuellos de botella críticos para los distintos actores de amenazas y cómo los modelos de vanguardia podrían ofrecer una mejora significativa. Esta colaboración tiene como objetivo construir una comprensión coherente, en todo el ecosistema, de los actores de amenazas y las vías de ataque, lo que permitirá a laboratorios, mantenedores y defensores mejorar sus medidas de mitigación y garantizar que los conocimientos críticos de seguridad se difundan rápidamente en todo el ecosistema. También estamos colaborando con equipos externos para desarrollar evaluaciones de ciberseguridad(se abre en una ventana nueva). Esperamos que un ecosistema de evaluaciones independientes contribuya aún más a construir una comprensión compartida de las capacidades de los modelos.
En conjunto, estas iniciativas reflejan nuestro compromiso a largo plazo con el fortalecimiento del aspecto defensivo del ecosistema. A medida que los modelos ganan capacidad, nuestro objetivo es contribuir a que esas capacidades se conviertan en una ventaja real para los defensores, basada en necesidades reales, moldeadas por las aportaciones de expertos e implementada con cuidado. Además de este trabajo, planeamos explorar otras iniciativas y subvenciones de ciberseguridad para ayudar a sacar a la luz ideas innovadoras que quizá no surjan de los canales tradicionales, y obtener colaborativamente defensas audaces y creativas desde el mundo académico, la industria y la comunidad de código abierto. En conjunto, se trata de un trabajo en evolución continua y esperamos seguir desarrollando estos programas a medida que aprendamos qué es lo que impulsa de forma más efectiva la seguridad en el mundo real.


