Fra bestemte avslag til trygge svar: mot resultatorientert sikkerhetsopplæring
Trygge svar i GPT‑5 er en ny tilnærmelse til sikkerhetsopplæring for å maksimere modellnytten innen sikkehetsbegrensninger. Sammenlignet med avvisningsbasert opplæring forbedrer trygge svar både sikkerhet og hjelpsomhet, spesielt innen tosidig bruk.
Dersom en bruker spør ChatGPT om minimumsenergien som trengs for å tenne fyrverkeri, bør den gi et hjelpsomt svar? Brukeren forbereder kanskje en oppskytning til nyttårsaften eller et forskningsprosjekt for skolen … eller lager sprengstoff. Som et resultat kan et hjelpsomt svar både være harmløst eller skadelig, avhengig av brukerens (tilsynelatende) intensjon. Denne typen melding har tosidig bruk: et spørsmål med uklar intensjon, der informasjonen kan brukes på godartede eller ondsinnede måter. Tosidig bruk-problemer er spesielt vanlig innen risikoområder som biologi og cybersikkerhet.
Tidligere har produksjonsmodeller som ChatGPT brukt avvisningsbasert sikkerhetsopplæring: basert på brukerens melding skulle modellen enten etterkomme eller avvise helt. Selv om denne typen opplæring kan fungere bra for åpenbart skadelige meldinger, kan den slite med tosidig bruk-meldinger som fyrverkeri-eksempelet. I det tilfellet tar en avvisningsopplært modell en binær avgjørelse basert på hvor skadelig den anser meldingen for å være – og etterkommer den enten helt (potensielt farlig om brukeren vil bruke informasjonen på en ondsinnet måte), eller avviser og sier: «Beklager, jeg kan ikke hjelpe med det» (ikke hjelpsomt dersom brukeren prøver å planlegge et fyrverkerishow).
For GPT‑5 har vi introdusert en ny form for sikkerhetsopplæring – trygge svar – som lærer modellen å gi det nyttigste svaret der det er mulig, samtidig som den holder seg innenfor sikkerhetsgrensene. Vi synes denne tilnærmingen er mer nyansert, og støtter bedre navigering av tosidige spørsmål.
Melding
OpenAI o3 (avvisningsopplæring)
GPT-5 (trygge svar-opplæring)
Svar fra OpenAI o3 og GPT‑5 på en utfordrende melding med tosidig bruk som ber om veiledning til å tenne fyrverkeri. o3, som er blitt avvisningsopplært, overfokuserer på hensikt: den vurderer meldingen som godartet og etterkommer derfor spørsmålet fullstendig. GPT‑5, som er blitt opplært med trygge svar, forklarer derimot hvorfor den ikke kan etterkomme fullstendig, og gir deretter bare veiledning på ekspertnivå om å konsultere passende håndbøker.
Trygge svar fokuserer sikkerhetsopplæringen på sikkerheten til utdataene til en modell, i stedet for å bestemme en avvisningsgrense i henhold til brukerens inndata. Konkret implementeres dette gjennom to opplæringsparametere:
- Sikkerhetsbegrensning: Under etteropplæringen gis det straff i belønningen for trygge svar til modellsvar som bryter retningslinjene for sikkerhet (med strengere straffer avhengig av overtredelsens alvorlighetsgrad).
- Maksimering av hjelpsomhet: For sikre modellsvar belønner vi modellen basert på dens hjelpsomhet: enten direkte i henhold til brukerens oppgitte mål eller indirekte ved å gi en informativ avvisning med hjelpsomme og trygge alternativer.
Vi innlemmet trygge svar i GPT‑5 (både resonnerings- og chatmodeller), og vi oppdaget at opplæring med trygge svar forbedret både sikkerhet og hjelpsomhet sammenlignet med avvisningsbasert opplæring. For rettferdig sammenligning med OpenAI o3 rapporterer vi ytelsen til GPT‑5 Thinking kontra o3. Ved sammenligninger av produksjonsmodeller og kontrollerte eksperimenter ser vi at trygge svar fungerer spesielt bra på spørsmål med tosidig bruk. Figuren nedenfor sammenligner sikkerhetspoengsummen og gjennomsnittlig nyttepoengsum for trygge svar.
Sikkerhet og hjelpsomhet gitt trygge svar etter hensikt (OpenAI o3 vs. GPT‑5 Thinking, merket som gpt5-r). GPT‑5 Thinking er både tryggere og mer hjelpsom enn OpenAI o3.
Ved å gå bort fra den binære avgjørelsen med etterkom/avvis oppmuntrer opplæring med trygge svar modellene til å være mer konservative når det gjelder potensielt utrygge emner når de etterkommer. I eksperimentene våre har vi funnet at når modeller med trygge svar faktisk gjør en feil, har de utrygge utdataene lavere alvorlighetsgrad enn de utrygge utdataene fra modeller som er avvisningsopplært.
Analyse av alvorlighetsgrad for skade for utrygge svar (o3 vs. GPT‑5 Thinking, merket som gpt5-r). GPT‑5 Thinking gjør færre alvorlige feil enn o3.
Det kan være lett å velge sikkerhet fremfor hjelpsomhet – en modell er trygg om den avviser alt. Men vi vil at modellene skal være trygge og hjelpsomme. En viktig forskningsutfordring er hvordan man kan forbedre begge disse målene samtidig. For GPT‑4 utviklet vi regelbasert belønning som en metode for å balansere hjelpsomhet og sikkerhet. For GPT‑5 tar trygge svar enda et nytt skritt og utnytter de nye mulighetene ved AI til å få en dypere integrering av disse to målene. Vi mener at fokuset på sikkerhet i modellsvar legger et solid grunnlag for å håndtere den økende kompleksiteten i sikkerhetsutfordringer som ligger foran oss, og vi planlegger å fortsette forskningen for å lære modellen bedre å forstå utfordrende situasjoner og reagere med mer nyanser og forsiktighet.


