25 de marzo de 2026

Presentamos el Programa de recompensas por la detección de errores de seguridad de OpenAI

Pruebas para detectar problemas de seguridad y abuso en OpenAI

Hoy, OpenAI lanza un programa público de recompensas por la detección de errores de seguridad⁠(se abre en una nueva ventana), enfocado en identificar abusos de la IA y riesgos de seguridad en todos nuestros productos. A medida que la tecnología de IA evoluciona rápidamente, también lo hacen las posibles formas de uso indebido. Nuestro objetivo es garantizar que nuestros sistemas sigan siendo seguros y estén protegidos frente a usos indebidos o abusos que puedan causar daños tangibles.

Este nuevo programa complementa el Programa de recompensas por la detección de errores de protección informática⁠(se abre en una nueva ventana) de OpenAI al aceptar casos que implican riesgos significativos de uso indebido y de seguridad, aunque no se consideren vulnerabilidades de protección. A través de este programa, buscamos seguir colaborando con investigadores en seguridad y protección para identificar y abordar problemas que no encajan en las vulnerabilidades de protección tradicionales, pero que representan riesgos reales. Las propuestas se evaluarán inicialmente por los equipos de recompensas por la detección de errores de seguridad y protección informática, y podrán asignarse a uno u otro programa según su alcance y responsabilidad.

Descripción general del programa

El nuevo programa de recompensas por la detección de errores de seguridad⁠(se abre en una nueva ventana) se centra en los escenarios de seguridad específicos de la IA que se enumeran a continuación:

Riesgos relacionados con agentes, incluido MCP

Inyección de prompts de terceros y exfiltración de datos: cuando un atacante puede, mediante contenido malicioso, tomar control de forma consistente del agente de un usuario (incluidos Browser, Agente ChatGPT y otros productos similares) para engañarlo y hacer que realice acciones perjudiciales o exponga información confidencial. El comportamiento debe reproducirse al menos en el 50 % de los casos.
Un producto de OpenAI basado en agentes realiza una acción no permitida en el sitio web de OpenAI a gran escala.
Un producto de OpenAI basado en agentes realiza alguna acción potencialmente perjudicial no mencionada anteriormente. Los reportes válidos aquí deben indicar un daño plausible y material.
Cualquier prueba de riesgo de MCP debe cumplir con los términos de servicio de cualquier tercero.

Información confidencial de OpenAI

Respuestas del modelo que revelan información propietaria sobre su razonamiento.
Vulnerabilidades que exponen otra información confidencial de OpenAI.

Integridad de la cuenta y de la plataforma

Vulnerabilidades en la integridad de las cuentas y en las señales de la plataforma, como eludir controles contra la automatización, manipular señales de confianza, evadir restricciones, suspensiones o bloqueos de cuentas, entre otros.
Los problemas que les permiten a los usuarios acceder a las funciones, los datos o las funcionalidades más allá de los permisos autorizados deben reportarse al programa de recompensas por la detección de errores de protección informática⁠(se abre en una nueva ventana).

Aunque los jailbreaks quedan fuera del alcance de este programa, se realizan periódicamente campañas privadas de recompensas por la detección de errores centradas en tipos específicos de riesgos, como problemas de contenido relacionados con riesgos biológicos en ChatGPT Agent⁠ y GPT‑5⁠. Invitamos a los investigadores interesados a postularse a estos programas cuando surjan.

Fuera de las categorías mencionadas, las fallas identificadas por los investigadores que faciliten daños directos a los usuarios y cuenten con medidas de remediación claras y accionables pueden considerarse elegibles para recompensa —caso por caso—. Las evasiones de la política de contenido que no tengan un impacto comprobable en la seguridad o en el uso indebido quedan fuera del alcance de este programa. Por ejemplo, los “jailbreaks” que hacen que el modelo use lenguaje grosero o devuelva información disponible en motores de búsqueda no se consideran elegibles para recompensa.

Cómo participar

Los investigadores interesados en participar pueden postularse a través de nuestro Programa de recompensas por la detección de errores de seguridad⁠(se abre en una nueva ventana). Esperamos colaborar con investigadores, hackers éticos y la comunidad de seguridad y protección en la búsqueda de un ecosistema de IA seguro.

2026

Autor

OpenAI

Sigue leyendo

Ver todos

OpenAI y Hugging Face abordan incidente de seguridad

Seguridad21 jul 2026

Safety and alignment in an era of long-horizon models

Seguridad20 jul 2026

Why teens deserve access to safe AI — card image

Por qué los adolescentes merecen acceso a una IA segura

Seguridad16 jul 2026