Fra hårde afvisninger til sikre svar: vejen mod output-centreret sikkerhedstræning
Introduceret med GPT‑5 er sikre svar en ny tilgang til sikkerhedstræning, der maksimerer modellens nyttighed inden for tydelige sikkerhedsrammer. I forhold til afvisningsbaseret træning øger sikre svar både sikkerhed og nytte – især ved dobbeltanvendelse.
Hvis en bruger spørger ChatGPT om den minimale energi, der er nødvendig for at antænde et sæt fyrværkeri, bør den så give et brugbart svar? Brugeren kunne være i gang med at forberede sig til nytårsaften eller et projekt i skolen... Eller i gang med at fremstille sprængstoffer. At give et hjælpsomt svar kan dermed både være harmløst eller skadeligt, afhængigt af brugerens (tilsyneladende) hensigt. Denne type forespørgsel er såkaldt dobbeltanvendelig (dual-use). Et spørgsmål med uklar hensigt, hvor informationen kan bruges på både godartet eller ondsindet vis. Problemstillinger med dobbeltanvendelighed er særligt fremtrædende inden for områder som biologi og cybersikkerhed.
Tidligere var produktionsmodeller som ChatGPT baseret på afvisningsbaseret sikkerhedstræning. Ud fra brugerens forespørgsel skulle modellen enten efterkomme anmodningen eller afvise den. Mens denne form for træning kan fungere ganske godt ved åbenlyst skadelige forespørgsler, har den svært ved at håndtere situationer med potentiel dobbeltanvendelighed, som f.eks. forespørgslen om antænding af fyrværkeri. I sådan et tilfælde træffer en afvisningstrænet model et binært valg ud fra, hvor skadelig forespørgslen vurderes at være – og efterkommer den så enten fuldt ud (hvilket kan være risikabelt, hvis brugeren har skadelige hensigter) eller afviser den med et “Beklager, det kan jeg ikke hjælpe med” (hvilket ikke er nyttigt, hvis brugeren reelt bare prøver at forberede et fyrværkerishow).
Med GPT‑5 har vi indført en ny form for sikkerhedstræning kaldet sikre svar, som lærer modellen at give det mest nyttige svar muligt, samtidig med at den holder sig inden for sikre rammer. Det er vores erfaring, at denne tilgang er mere nuanceret, da den understøtter bedre navigation, når det kommer til spørgsmål med potentiel dobbeltanvendelighed.
Forespørgsel
OpenAI o3 (træning med afvisning)
GPT-5 (træning med sikre svar)
OpenAI o3 og GPT‑5’s svar på en udfordrende forespørgsel med dobbeltanvendelighed, der beder om instruktioner til at affyre fyrværkeri. o3, som er trænet med afvisning, undervurderer hensigten. Den vurderer forespørgslen som harmløs og efterkommer derfor spørgsmålet fuldt ud. I kontrast hertil forklarer GPT‑5, som er trænet i sikre svar, hvorfor den ikke fuldt ud kan efterkomme forespørgslen, og giver derefter vejledning på højt niveau i at tjekke de relevante manualer.
Sikre svar fokuserer sikkerhedstræningen på selve modellens output, i stedet for at sætte en afvisningsgrænse ud fra brugerens input. Helt konkret implementeres denne tilgang via to trænings-parametre:
- Sikkerhedsbegrænsning: Under eftertræningen straffer belønningen for sikre svar modeloutput, der overtræder vores retningslinjer for sikkerhed (med strengere straffe afhængigt af overtrædelsens grovhed).
- Maksimering af nyttighed: Ved sikre svar belønnes modellen ud fra dens nyttighed: enten direkte i henhold til brugerens angivne formål eller indirekte ved at give en informativ afvisning med nyttige og sikre alternativer.
Vi har indarbejdet sikre svar i GPT‑5 (både ræsonnerings- og chatmodeller) og erfaret, at træning i sikre svar forbedrer både sikkerheden og nyttigheden betydeligt sammenlignet med træning baseret på afvisning. For en fair sammenligning med OpenAI o3 rapporterer vi ydeevnen for GPT‑5 Thinking i forhold til o3. I sammenligninger af begge produktionsmodeller og kontrollerede eksperimenter konstaterer vi, at sikre svar er særligt velegnede til spørgsmål med potentiel dobbeltanvendelighed. Figuren nedenfor sammenligner sikkerhedsbedømmelsen og den gennemsnitlige nyttighed for sikre svar.
Sikkerhed og nyttighed, når der gives sikre svar efter hensigt (OpenAI o3 vs. GPT‑5 Thinking, mærket som gpt5-r). GPT‑5 Thinking er både sikrere og mere nyttig end OpenAI o3.
Ved at undgå den binære valgmulighed mellem enten at efterkomme eller afvise, tilskynder træningen i sikre svar vores modeller til at være mere tilbageholdende over for potentielt skadeligt indhold, selv når de vælger at efterkomme forespørgslen. I vores eksperimenter erfarer vi, at når modeller med sikre svar så begår en fejl, er deres skadelige output af mindre alvorlig grad end det skadelige output fra modeller, der er trænet til at afvise.
Analyse af skadesomfanget ved skadelige svar (o3 vs GPT‑5 Thinking, mærket som gpt5-r). GPT‑5 Thinking begår mindre alvorlige fejl end o3.
Det kan virke mest ligetil at ofre nyttighed til fordel for sikkerhed – en model er sikker, hvis den bare afviser alt. Men vi vil gerne have, at vores modeller er både sikre og nyttige. En central udfordring i vores forskning er, hvordan man kan forbedre begge disse mål samtidig. Til GPT‑4 udviklede vi regelbaserede belønninger som en metode til at afveje nyttighed og sikkerhed. Nu, med GPT‑5, tager sikre svar endnu et skridt fremad ved at udnytte AI's voksende muligheder for at skabe en dybere integration af begge mål. Det er vores overbevisning at et fokus på sikkerheden i vores modelsvar skaber et solidt fundament for at tackle de stadig mere komplekse sikkerhedsudfordringer, der venter forude, og vi planlægger at fortsætte forskningen, så modellen kan få en endnu bedre forståelse af udfordrende situationer og reagere med flere nuancer og større omhu.


