I dag lanserer OpenAI et offentlig Safety Bug Bounty(åpnes i et nytt vindu)-program som fokuserer på å identifisere AI-misbruk og sikkerhetsrisikoer på tvers av produktene våre. AI-teknologi utvikler seg raskt. Det gjør også de potensielle måtene den kan misbrukes på. Målet vårt er å sørge for at systemene våre forblir trygge og sikre mot misbruk som kan føre til konkret skade.
Dette nye programmet vil utfylle OpenAIs Security Bug Bounty(åpnes i et nytt vindu) ved å akseptere problemer som utgjør betydelige misbruks- og sikkerhetsrisikoer, selv om de ikke oppfyller kriteriene for en sikkerhetssårbarhet. Gjennom dette programmet ser vi frem til å fortsette samarbeidet med sikkerhetsforskere som kan hjelpe oss med å identifisere og løse problemer som faller utenfor konvensjonelle sikkerhetssårbarheter, men som likevel utgjør reelle risikoer. Innsendinger vil bli vurdert og sortert av OpenAIs Safety og Security Bug Bounty-team, og kan bli sendt mellom de to programmene avhengig av omfang og eierskap.
Det nye Safety Bug Bounty(åpnes i et nytt vindu)-programmet fokuserer på AI-spesifikke sikkerhetsscenarioer som er oppført nedenfor:
Risikoer for agenter, inkludert MCP
- Tredjeparts promptinjeksjon og dataeksfiltrering: når tekst fra en angriper er i stand til å kapre offerets agent (inkludert nettleser, ChatGPT‑agent og lignende agentprodukter) på en pålitelig måte for å lure den til å utføre en skadelig handling eller lekke brukerens sensitive informasjon. Atferden må kunne reproduseres i minst 50 % av tilfellene.
- Et agentisk OpenAI-produkt utfører en ikke tillatt handling på OpenAIs nettsted i stor skala.
- Et agentisk OpenAI-produkt utfører en potensielt skadelig handling som ikke er oppført ovenfor. Gyldige rapporter må beskrive sannsynlig og vesentlig skade.
- All testing for MCP-risiko må overholde tjenestevilkårene til tredjeparter.
OpenAI-proprietær informasjon
- Modellgenerasjoner som returnerer proprietær informasjon knyttet til resonnement.
- Svakheter som eksponerer annen OpenAI-proprietær informasjon.
Konto- og plattformintegritet
- Sårbarheter i indikatorer for konto- og plattformintegritet, som omgåelse av kontroller mot automatisering, manipulering av tillitsindikatorer for kontoer, omgåelse av kontobegrensninger, suspensjoner eller utestengelser og lignende problemer.
- Problemer som lar brukere få tilgang til funksjoner, data eller funksjonalitet utover autoriserte tillatelser, bør rapporteres til Security Bug Bounty(åpnes i et nytt vindu).
Selv om «jailbreaks» ikke omfattes av dette programmet, har vi med jevne mellomrom private bug bounty-kampanjer med fokus på visse typer skader, som problemer med innhold med biologisk risiko i ChatGPT‑agent og GPT‑5. Vi inviterer interesserte forskere til å søke på disse programmene når de blir tilgjengelige.
Hvis forskere identifiserer feil utenfor kategoriene ovenfor, som kan føre til direkte skade på brukerne, og som kan utbedres med separate skritt, kan disse individuelt vurderes for belønning. Generelle omgåelser av innholdsretningslinjer uten tydelig innvirkning på sikkerhet eller misbruk faller utenfor dette programmets omfang. For eksempel er «jailbreaks» som fører til at modellen bruker uhøflig språk eller returnerer informasjon som er lett å finne via søkemotorer, utenfor omfanget.
Forskere som har lyst til å delta, kan søke gjennom vårt Safety Bug Bounty(åpnes i et nytt vindu)-program. Vi gleder oss til å jobbe sammen med forskere, etiske hackere og sikkerhetsmiljøet for å skape et sikkert AI-økosystem.


