Avui, OpenAI llança un programa públic de Safety Bug Bounty(s'obre en una finestra nova) centrat a identificar abusos de la IA i riscos de seguretat als nostres productes. A mesura que la tecnologia d’IA evoluciona ràpidament, també ho fan les possibles maneres com es pot fer servir indegudament. El nostre objectiu és garantir que els nostres sistemes continuïn sent segurs i protegits davant d’usos indeguts o abusos que puguin causar danys reals.
Aquest nou programa complementarà el Security Bug Bounty(s'obre en una finestra nova) d’OpenAI acceptant problemes que comportin riscos rellevants d’abús i seguretat, encara que no compleixin els criteris d’una vulnerabilitat de seguretat. Amb aquest programa, esperem continuar col·laborant amb investigadors de seguretat i safety per ajudar-nos a identificar i abordar problemes que queden fora de les vulnerabilitats de seguretat convencionals però que continuen comportant riscos reals. Les comunicacions seran triades pels equips de Safety and Security Bug Bounty d’OpenAI i es podran redirigir entre els dos programes segons l’abast i la responsabilitat.
El nou programa Safety Bug Bounty(s'obre en una finestra nova) se centra en els escenaris de seguretat específics de la IA que s’indiquen a continuació:
Riscos d’agents, inclòs MCP
- Injecció d'indicacions de tercers i exfiltració de dades: quan el text d’un atacant és capaç de segrestar de manera fiable l’agent d’una víctima (incloent-hi Browser, ChatGPT Agent i productes agents similars) per enganyar-lo perquè faci una acció perjudicial o filtri informació sensible de l’usuari. El comportament ha de ser reproduïble almenys el 50% de les vegades.
- Un producte agent d’OpenAI duu a terme a gran escala una acció no permesa al lloc web d’OpenAI.
- Un producte agent d’OpenAI duu a terme alguna acció potencialment perjudicial no indicada més amunt. Els informes vàlids en aquest cas han d’indicar un dany plausible i material.
- Qualsevol prova de risc de MCP ha de complir les condicions del servei de tercers.
Informació propietària d’OpenAI
- Generacions del model que retornen informació propietària relacionada amb el raonament.
- Vulnerabilitats que exposen altra informació propietària d’OpenAI.
Integritat del compte i de la plataforma
- Vulnerabilitats en els senyals d’integritat del compte i de la plataforma, com ara evitar controls antiautomatització, manipular senyals de confiança del compte, esquivar restriccions/suspensions/prohibicions del compte i problemes similars.
- Els problemes que permetin als usuaris accedir a funcions, dades o funcionalitats més enllà dels permisos autoritzats s’han de comunicar al Security Bug Bounty(s'obre en una finestra nova).
Tot i que els jailbreaks queden fora de l’abast d’aquest programa, periòdicament fem campanyes privades de bug bounty centrades en determinats tipus de dany, com ara problemes de contingut de risc biològic a ChatGPT Agent i GPT‑5. Convidem els investigadors interessats a presentar-se a aquests programes quan s’obrin.
Fora de les categories indicades més amunt, si els investigadors identifiquen defectes que facilitin vies directes de perjudici per a l’usuari i passos de correcció accionables i concrets, es poden considerar dins de l’abast de les recompenses cas per cas. Els bypassos generals de polítiques de contingut sense un impacte demostrable en seguretat o abús queden fora de l’abast d’aquest programa. Per exemple, els «jailbreaks» que fan que el model faci servir llenguatge groller o retorni informació fàcilment localitzable amb motors de cerca queden fora de l’abast.
Els investigadors interessats a participar-hi poden presentar la seva sol·licitud mitjançant el nostre programa Safety Bug Bounty(s'obre en una finestra nova). Esperem treballar colze a colze amb investigadors, hackers ètics i la comunitat de safety i seguretat per avançar cap a un ecosistema d’IA segur.


