25 de marzo de 2026

Presentamos el Programa de recompensas por la detección de errores de seguridad de OpenAI

Pruebas para detectar problemas de seguridad y abuso en OpenAI

Hoy, OpenAI lanza un programa público de recompensas por la detección de errores de seguridad⁠(se abre en una ventana nueva), enfocado en identificar abusos de la IA y riesgos de seguridad en todos nuestros productos. A medida que la tecnología de IA evoluciona rápidamente, también lo hacen las posibles formas de uso indebido. Nuestro objetivo es garantizar que nuestros sistemas sigan siendo seguros y estén protegidos frente a usos indebidos o abusos que puedan causar daños tangibles.

Este nuevo programa complementa el Programa de recompensas por la detección de errores de protección⁠(se abre en una ventana nueva) de OpenAI al aceptar casos que implican riesgos significativos de uso indebido y de seguridad, aunque no se consideren vulnerabilidades de protección. A través de este programa, buscamos seguir colaborando con investigadores en seguridad y protección para identificar y abordar problemas que no encajan en las vulnerabilidades de protección tradicionales, pero que representan riesgos reales. Las propuestas se evaluarán inicialmente por los equipos de recompensas por la detección de errores de seguridad y protección, y podrán asignarse a uno u otro programa según su alcance y responsabilidad.

Descripción general del programa

El nuevo programa de recompensas por la detección de errores de seguridad⁠(se abre en una ventana nueva) se centra en los escenarios específicos de seguridad de la IA que se enumeran a continuación:

Riesgos relacionados con agentes, incluido MCP

Inyección de prompts de terceros y exfiltración de datos: cuando un atacante puede, mediante contenido malicioso, tomar control de forma consistente del agente de un usuario (incluidos Browser, Agente ChatGPT y otros productos similares) para engañarlo y hacer que realice acciones perjudiciales o exponga información confidencial. El comportamiento debe reproducirse al menos en el 50 % de los casos.
Un producto de OpenAI basado en agentes realiza una acción no permitida en el sitio web de OpenAI a gran escala.
Un producto de OpenAI basado en agentes realiza alguna acción potencialmente perjudicial no mencionada anteriormente. Los informes válidos aquí deben indicar un daño plausible y material.
Cualquier prueba de riesgo de MCP debe cumplir con los términos de servicio de cualquier tercero.

Información confidencial de OpenAI

Respuestas del modelo que revelan información propietaria sobre su proceso de razonamiento.
Vulnerabilidades que revelan información confidencial adicional de OpenAI.

Integridad de las cuentas y de la plataforma

Vulnerabilidades en la integridad de las cuentas y en las señales de integridad de la plataforma, como eludir los controles contra la automatización, manipular las señales de confianza de las cuentas o evadir restricciones, suspensiones o bloqueos, entre otros.
Los problemas que les permiten a los usuarios acceder a las funciones, los datos o las funcionalidades más allá de los permisos autorizados deben reportarse al programa de recompensas por la detección de errores de protección informática⁠(se abre en una ventana nueva).

Aunque los jailbreaks quedan fuera del alcance de este programa, se realizan periódicamente campañas privadas de recompensas por la detección de errores centradas en tipos específicos de riesgos, como problemas de contenido relacionados con riesgos biológicos en ChatGPT Agent⁠ y GPT‑5⁠. Invitamos a los investigadores interesados a inscribirse en estos programas cuando se convoquen.

Fuera de las categorías mencionadas, los fallos identificados por investigadores que faciliten daños directos a los usuarios y cuenten con medidas de corrección claras y aplicables podrán considerarse aptos para recompensa —caso por caso—. Las evasiones de la política de contenido que no tengan un impacto demostrable en la seguridad o en el uso indebido quedan fuera del alcance de este programa. Por ejemplo, los «jailbreaks» que hacen que el modelo use un lenguaje inapropiado o devuelva información disponible en motores de búsqueda no se consideran aptos para recompensa.

Cómo participar

Los investigadores interesados en participar pueden inscribirse en nuestro Programa de recompensas por la detección de errores de seguridad⁠(se abre en una ventana nueva). Esperamos colaborar con investigadores, hackers éticos y la comunidad de seguridad para contribuir a un ecosistema de IA más seguro.

2026

Autor

OpenAI

Sigue leyendo

Ver todo

OpenAI y Hugging Face abordan un incidente de seguridad

Seguridad21 jul 2026

Safety and alignment in an era of long-horizon models

Seguridad20 jul 2026

Why teens deserve access to safe AI — card image

Por qué los adolescentes merecen acceso a una IA segura

Seguridad16 jul 2026