Från ”hårda avslag” till ”safe-completions”: fokus på utdatacentrerad säkerhetsträning
”Safe-completion” infördes i GPT‑5 och är en ny typ av säkerhetsträning som maximerar modellens hjälpsamhet inom säkerhetsbegränsningarna. Jämfört med avslagsmetoder förbättrar ”safe-completion” både säkerhet och hjälpsamhet, inte minst vid tvetydighet.
Om en användare frågar ChatGPT om vilken som är den lägsta energin som krävs för att avfyra ett fyrverkeri, bör ChatGPT då ge ett hjälpsamt svar? Användaren kanske förbereder sig för att avfyra ett fyrverkeri i samband med ett nationaldagsfirande eller gör efterforskningar för en skoluppsats … eller tänker skapa någon form av sprängämnen. Följaktligen kan ett hjälpsamt svar vara antingen ofarligt eller skadligt, beroende på användarens (uppenbara) avsikt. Den här typen av prompt är dubbeltydig: en fråga med oklar avsikt, där det inte är tydligt om informationen kan komma att användas med ofarlig eller skadlig avsikt. Dessa problem är särskilt vanliga inom riskområden som till exempel biologi och cybersäkerhet.
Tidigare förlitade sig produktionsmodeller som ChatGPT på säkerhetsträning baserad på avslag: utifrån användarens prompt kunde modellen antingen genomföra eller avvisa åtgärden fullt ut. Denna typ av träning kan fungera ganska bra för uppenbart skadliga prompter, men den kan skapa problem vid hantering av dubbeltydiga prompter som i fyrverkeriexemplet. I det fallet fattar en modell tränad med avslag ett binärt beslut baserat på hur skadlig den uppfattar att prompten är – och antingen ger den ett fullständigt svar (potentiellt skadligt om användaren vill använda informationen på ett illvilligt sätt) eller ger avslag och säger ”Jag kan tyvärr inte hjälpa dig med det” (inte till någon hjälp om användaren verkligen försöker anordna ett fyrverkeri).
I GPT‑5 har vi infört en ny form av säkerhetsträning – ”safe completions” – som lär modellen att ge det mest hjälpsamma svaret, samtidigt som den håller sig inom säkerhetsgränserna. Vi upplever att denna strategi är mer nyanserad och ger stöd för ett bättre sätt att hantera både ofarliga och skadliga syften.
Prompt
OpenAI o3 (tränad med avslag)
GPT-5 (”safe-completion”-träning)
Svar från OpenAI o3 och GPT‑5 på en utmanande dubbeltydig prompt om instruktioner för hur man avfyrar fyrverkerier. Modellen o3, som har tränats med avslag, överkompenserar för avsikten och bedömer att prompten är ofarlig och svarar därför helt på frågan. GPT‑5, som har tränats med ”safe-completions”, förklarar istället varför modellen inte kan besvara prompten fullt ut och ger sedan endast övergripande råd om att läsa relevanta instruktioner.
Med ”safe-completion” ligger fokus i säkerhetsträningen på att säkerställa att modellens utdata är säkra, snarare än att bestämma en gräns för avslag baserad på användarens indata. I praktiken implementeras detta genom två träningsparametrar:
- Säkerhetsbegränsning: Efter träningsfasen bestraffar ”safe-completion” modellens svar om det bryter mot våra säkerhetspolicyer (med strängare straff vid allvarligare överträdelse).
- Maximering av hjälpsamhet: För säkra modellsvar belönar vi modellen baserat på dess hjälpsamhet: antingen direkt baserat på användarens angivna målsättning eller indirekt genom att ge ett informativt avslag med hjälpsamma och säkra alternativ.
Vi har integrerat ”safe-completions” i GPT‑5 (både resonemangsmodeller och chattmodeller) och upptäckte att ”safe-completion”-träning avsevärt förbättrar både säkerhet och hjälpsamhet, jämfört med träningsmetoder baserade på avslag. För att jämförelsen med OpenAI o3 ska vara rättvis rapporterar vi resultatet för GPT‑5 Thinking jämfört med o3. Vid jämförelser av både produktionsmodeller och i kontrollerade experiment har vi sett att ”safe-completions” är särskilt väl anpassade för dubbeltydiga frågor. I figuren nedan jämförs de säkra svarens poäng för säkerhet och genomsnittlig hjälpsamhet.
Säkerhet och hjälpsamhet vid säkra svar efter avsikt (OpenAI o3 jämfört med GPT‑5 Thinking, märkt som gpt5-r). GPT‑5 Thinking är både säkrare och mer hjälpsam än OpenAI o3.
Genom att undvika det binära beslutet att svara eller ge avslag uppmuntrar träning med ”safe-completion” våra modeller att vara mer försiktiga med potentiellt osäkert innehåll, även när de faktiskt ger ett svar. I våra experiment ser vi att när modeller med ”safe-completion” gör ett misstag är deras osäkra utdata mindre allvarliga än de osäkra utdata som modeller som tränats med avslag ger.
Analys av allvarlighetsgrad vid osäkra svar (o3 vs. GPT‑5 Thinking, märkt som gpt5-r). GPT‑5 Thinking gör mindre allvarliga misstag än o3.
Det kan vara lätt att sätta säkerheten före hjälpsamheten – en modell är ju säker om den ger avslag på allt. Men vi vill att våra modeller ska vara både säkra och hjälpsamma. En viktig utmaning inom forskningen är att förbättra båda dessa målsättningar samtidigt. För GPT‑4 utvecklade vi Regelbaserade belöningar, vilket är en metod för att göra en avvägning mellan hjälpsamhet och säkerhet. I GPT‑5 tar ”safe-completions” nu ytterligare ett steg framåt, där AI:ns allt större kapacitet används för att integrera dessa två målsättningar på ett djupare plan. Vi anser att fokus på säkerheten i modellens svar ger en stabil grund för hanteringen av den ökande komplexiteten hos de säkerhetsutmaningar som vi ställs inför. Vi planerar att fortsätta denna forskningsinriktning för att lära modellen att bättre förstå utmanande situationer och kunna svara med större nyans och omsorg.


