5 de septiembre de 2025

Recompensas por la detección de errores en materia de biología en GPT‑5

Prueba de jailbreaks universales frente a riesgos biológicos en GPT‑5

Invitación

Como parte de nuestros esfuerzos para reforzar nuestras medidas de seguridad en capacidades de IA avanzadas en biología, presentamos un programa de recompensas por la detección de errores en materia de biología en GPT‑5 y abrimos las solicitudes para participar. Hemos implementado el modelo GPT‑5 y estamos trabajando activamente para reforzar aún más sus medidas de seguridad y las de otros modelos. Invitamos a investigadores con experiencia en pruebas de equipo rojo de IA, seguridad o riesgos químicos y biológicos a intentar encontrar un jailbreak universal que pueda superar nuestro reto bioquímico de 10 niveles.

Vista general del programa

Modelo contemplado en el alcance: únicamente GPT‑5.
Objetivo: Encontrar una única indicación de jailbreak universal para responder correctamente a 10 preguntas sobre seguridad biológica/química desde un chat nuevo sin moderación de indicaciones.
Recompensas:
• 25 000 $ al primer jailbreak universal que funcione para responder las 10 preguntas.
• 10 000 $ al primer equipo que responda a las 10 preguntas con varias indicaciones de jailbreak.
• Se podrán otorgar otros premios menores por logros parciales, a nuestra discreción.
Plazo: las solicitudes se abren el 25 de agosto de 2025, con admisiones continuas, y se cierran el 15 de septiembre de 2025. Las pruebas comienzan el 16 de septiembre de 2025.
Acceso: mediante solicitud e invitación. Extenderemos invitaciones a una lista verificada de expertos de confianza en equipo rojo y biología y revisaremos las nuevas solicitudes. Una vez seleccionados, los candidatos aceptados serán incorporados a la plataforma de recompensas por la detección de errores en materia de biología.
Divulgación: todas las indicaciones, finalizaciones, hallazgos y comunicaciones están protegidos por un acuerdo de confidencialidad.

Cómo participar

Envía aquí⁠(se abre en una ventana nueva) una solicitud breve con tu nombre, afiliación, trayectoria resumida y un plan de 150 palabras antes del 15 de septiembre de 2025. Los solicitantes y colaboradores aceptados deben tener una cuenta previa de ChatGPT para participar y firmarán un acuerdo de confidencialidad.

Envía tu solicitud y contribuye a mejorar la seguridad de la IA del futuro.