25 mars 2026

Introduktion av OpenAI:s sårbarhetsbelöningsprogram

Test av säkerhets- och missbruksproblem inom OpenAI

Idag lanserar OpenAI ett offentligt sårbarhetsbelöningsprogram⁠(öppnas i ett nytt fönster) med fokus på att identifiera AI-missbruk och säkerhetsrisker i våra produkter. När AI-tekniken utvecklas snabbt ökar också antalet potentiella sätt som den kan missbrukas på. Vårt mål är att se till att våra system förblir säkra och skyddade mot missbruk eller skadlig användning som kan leda till konkret skada.

Detta nya program kommer att komplettera OpenAI:s säkerhetsbelöningsprogram⁠(öppnas i ett nytt fönster) genom att ta emot rapporter om problem som utgör betydande risker för missbruk och säkerhet, även om de inte uppfyller kriterierna för en säkerhetsbrist. Med detta program ser vi fram emot att fortsätta samarbeta med forskare inom säkerhet och trygghet för att hjälpa oss att identifiera och hantera problem som inte omfattas av konventionella säkerhetsbrister, men som ändå utgör reella risker. Inrapporteringar kommer att granskas av OpenAI:s team för sårbarhets- och säkerhetsbelöningsprogram och kan vidarebefordras mellan de två programmen beroende på omfattning och ansvar.

Programöversikt

Det nya sårbarhetsbelöningsprogrammet⁠(öppnas i ett nytt fönster) fokuserar på AI-specifika säkerhetsscenarier som listas nedan:

Risker med agentbaserade system, däribland MCP

Promptinjektioner från tredje part och dataexfiltrering: När angriparens text på ett trovärdigt sätt kan ta kontroll över offrets agent (t.ex. webbläsare, ChatGPT‑agent och liknande agentprodukter) för att lura den att utföra en skadlig handling eller läcka användarens känsliga uppgifter. Beteendet måste kunna återskapas minst 50 % av gångerna.
En agentbaserad OpenAI-produkt utför en otillåten åtgärd på OpenAI:s webbplats i stor skala.
En agentbaserad OpenAI-produkt utför någon potentiellt skadlig åtgärd som inte anges ovan. Giltiga rapporter här måste ange rimlig och väsentlig skada.
Varje test av MCP-risk måste följa tredjeparters användarvillkor.

Konfidentiell information från OpenAI

Modellgenereringar som returnerar konfidentiell information om resonemanget.
Sårbarheter som avslöjar annan konfidentiell information från OpenAI.

Konto- och plattformsintegritet

Sårbarheter i signaler som rör konto- och plattformsintegritet, som till exempel kringgående av kontrollåtgärder mot automatisering, manipulation av signaler om kontotillit, kringgående av kontobegränsningar, avstängningar och spärrningar samt liknande problem.
Problem som ger användare tillgång till funktioner, data eller funktionaliteter utöver deras behörigheter ska rapporteras till säkerhetsbelöningsprogrammet⁠(öppnas i ett nytt fönster).

Även om jailbreaks inte omfattas av det här programmet, genomför vi regelbundet privata sårbarhetsbelöningskampanjer med fokus på vissa typer av skador, som problem med biologiskt riskfyllt innehåll i i ChatGPT Agent⁠ och GPT‑5⁠. Vi uppmanar intresserade forskare att ansöka till dessa program när de blir aktuella.

Utöver de ovan nämnda kategorierna kan forskare, om de identifierar fel som leder direkt till skador hos användarna samt praktiska, konkreta åtgärder för att avhjälpa dessa, komma i fråga för belöning från fall till fall. Allmänna kringgåenden av innehållspolicyer som inte har någon påvisbar inverkan på säkerheten eller missbruk faller utanför detta programs omfattning. Till exempel faller ”jailbreaks” som leder till att modellen använder olämpligt språk eller returnerar information som lätt kan hittas via sökmotorer utanför tillämpningsområdet.

Så här deltar du

Forskare som är intresserade av att delta kan ansöka via vårt sårbarhetsbelöningsprogram⁠(öppnas i ett nytt fönster). Vi ser fram emot att samarbeta med forskare, etiska hackare och sårbarhets- och säkerhetsgemenskapen i arbetet mot ett säkert AI-ekosystem.

2026

Författare

OpenAI

Fortsätt läsa

Visa alla

OpenAI och Hugging Face hanterar säkerhetsincident

Säkerhet21 juli 2026

Safety and alignment in an era of long-horizon models

Säkerhet20 juli 2026

Why teens deserve access to safe AI

Säkerhet16 juli 2026