Styrke sikkerhetsøkosystemet vårt med ekstern testing
Vår tilnærming til tredjepartsvurderinger for grenseoverskridende KI.
Hos OpenAI mener vi at uavhengige, pålitelige tredjepartsvurderinger spiller en avgjørende rolle i å styrke sikkerhetsøkosystemet til banebrytende KI. Tredjepartsvurderinger er evalueringer utført på avanserte modeller for å bekrefte eller gi ytterligere bevis til påstander om kritiske sikkerhetsegenskaper og tiltak. Disse evalueringene bidrar til å validere sikkerhetspåstander, beskytte mot blindsoner og øke åpenheten rundt kapasitet og risikoer. Ved å invitere eksterne eksperter til å teste våre banebrytende modeller, ønsker vi også å bygge tillit til dybden i våre kapabilitetsevalueringer og sikkerhetstiltak, og bidra til å styrke det bredere sikkerhetsøkosystemet.
Siden lanseringen av GPT‑4 har OpenAI samarbeidet med en rekke eksterne partnere for å teste og evaluere modellene våre. Generelt sett tar våre tredjepartssamarbeid tre former:
- Uavhengige evalueringer av viktige grensekapasiteter og risikoområder som biosikkerhet, cybersikkerhet, KI-selvforbedring og planlegging
- Metodegjennomganger som vurderer hvordan vi evaluerer og tolker risiko
- Fagekspertsondering (SME), hvor eksperter evaluerer modellen direkte på reelle oppgaver og gir strukturerte inndata til vår vurdering av dens evner og tilhørende sikkerhetstiltak1
Denne bloggen beskriver hvordan vi bruker hver av disse formene for ekstern vurdering, hvorfor de er viktige, hvordan de har formet beslutninger om implementering, og prinsippene vi bruker for å strukturere disse samarbeidene. I åpenhetens ånd deler vi også mer om konfidensialitets- og publiseringsvilkårene som regulerer samarbeidet vårt med tredjepartstestere.
Tredjepartsvurderingspersoner tilfører et uavhengig lag med evaluering ved siden av vårt interne arbeid, styrker grundigheten og gir ekstra beskyttelse mot selvbekreftelse. Deres tilbakemelding gir ytterligere bevis sammen med våre egne vurderinger, og hjelper til med å informere ansvarlige beslutninger om utrulling av kraftige systemer.
Vi ser også tredjepartsvurderinger som en del av å bygge et motstandsdyktig sikkerhetsøkosystem. Våre team utfører omfattende intern testing på tvers av kapasitets- og risikoområder, men uavhengige organisasjoner gir ytterligere perspektiver og metodiske tilnærminger. Vi jobber for å støtte en mangfoldig gruppe kvalifiserte vurderingsorganisasjoner som regelmessig kan evaluere banebrytende modeller sammen med oss.
Til slutt ønsker vi å være åpne om hvordan denne tilbakemeldingen bidrar til å forme sikkerhetsprosessen vår. Vi offentliggjør jevnlig tredjepartsvurderinger—for eksempel ved å inkludere sammendrag av evalueringer før utrulling i systemkort, og ved å støtte vurderingsorganisasjoner i å publisere mer detaljert arbeid etter gjennomgang av konfidensialitet og nøyaktighet. Denne åpenheten bygger tillit ved å vise hvordan eksterne inndata former våre kapasitetsevalueringer og sikkerhetstiltak.
Vedvarende relasjoner bygget på pålitelig tilgang, åpenhet og kunnskapsdeling hjelper hele økosystemet med å ligge i forkant av nye risikoer og fremme tilpasningsdyktige, handlingsrettede vurderinger som er nødvendige for sterkere standarder og mer informert styring av banebrytende KI-systemer.
Fra og med lanseringen av GPT‑4(åpnes i et nytt vindu) har vi støttet uavhengige evalueringer av tidlige modellkontrollpunkter før distribusjon. Siden den gang har vi utvidet arbeidet vårt med en rekke tredjepartsorganisasjoner som har inngående ekspertise i evalueringer av viktige områder innen grensekapasitet og risiko. Vi definerer uavhengig laboratoriearbeid som åpen testing der eksterne team bruker sine egne metoder for å utvikle en påstand eller vurdering knyttet til en spesifikk banebrytende kapasitet.
Som et eksempel koordinerte OpenAI for GPT‑5 et bredt sett med eksterne kapasitetsvurderinger på tvers av viktige risikoområder som langsiktig autonomi, manipulering, bedrag og undergraving av tilsyn, gjennomførbarhet av våtlaboratorieplanlegging og offensive nettsikkerhetsevalueringer.
Disse uavhengige evalueringene supplerer evalueringene som er utført i samsvar med OpenAIs beredskapsrammeverk, og inkluderer referansepunkter som METR tidshorisontevaluering(åpnes i et nytt vindu) eller SecureBios evaluering av Virology Capabilities Troubleshooting (VCT)(åpnes i et nytt vindu).
For å støtte disse evalueringene har vi gitt sikker tilgang til tidlige modellsjekkpunkter, utvalgte evalueringsresultater for å konkretisere kapasitetsforbedringene vi ser, ingen oppbevaring av data der det trengs, og modeller med færre tiltak. For eksempel testet organisasjoner innen nettsikkerhets- og biosikkerhetsdomener modeller både med og uten sikkerhetstiltak for å undersøke underliggende kapasiteter. Flere andre organisasjoner fikk direkte tankerekke-tilgang for å aktivere inspeksjon av modellens resonneringsspor. Dette økte trinnet med åpenhet tillot vurderingspersoner å identifisere tilfeller av sandbagging2 eller intrigant atferd som kanskje bare kan skjelnes ved å lese tankerekken. Tilgang ble gitt med sikkerhetskontroller på plass, og vi fortsetter å oppdatere disse kontrollene etter hvert som modellens evner og testbehov utvikler seg.
I visse kontekster er eksterne vurderingspersoner godt posisjonert til å gi en metodisk gjennomgang, og gir ytterligere perspektiver til rammeverkene og bevisene som avanserte laboratorier er avhengige av for å vurdere risiko. Under lanseringen av GPT‑oss, brukte vi for eksempel kontradiktorisk finjustering for å estimere verste fall-egenskaper for åpne vektmodeller, beskrevet i Estimatere verste fall-grenserisikoer med åpen vekt-LLM-er. Det sentrale sikkerhetsspørsmålet var om en ondsinnet aktør kunne finjustere modellen for å oppnå høy kapasitet innen områder som bio eller nett under vårt beredskapsrammeverk. Da dette krevde ressurskrevende finjustering av motstridende elementer, inviterte vi tredjepartsvurderingspersoner til å gjennomgå og gi anbefalinger om våre interne metoder og resultater i stedet for å gjenta lignende arbeid.
Dette innebar en prosess over flere uker med å dele evalueringsutrullinger, detaljer om tilnærmingen for kontradiktorisk finjustering, og samle inn strukturerte anbefalinger om forbedring av metodikken og evalueringene for de verste tilfellene av grenserisiko. Tilbakemeldinger fra vurderingspersonene førte til endringer i den endelige finjusteringsprosessen og viste verdien av metodologisk bekreftelse. Vi registrerte hvilke elementer vi tok i bruk i artikkelen og systemkortet for gpt-oss, og vi ga begrunnelser for de vi ikke tok i bruk.
Her var metodikkgjennomgang det riktige valget i stedet for uavhengige evalueringer: evalueringene innebar å gjennomføre storskala, verst tenkelige eksperimenter, noe som krever infrastruktur og teknisk ekspertise som ikke er vanlig tilgjengelig utenfor store KI-laboratorier. Dette betydde at uavhengige evalueringer sannsynligvis ikke ville ha kunnet gi direkte innsikt i verst tenkelige scenarioer, og det var mer produktivt å fokusere eksterne vurderingspersoner på å bekrefte påstandene. Eksterne vurderingspersoner gikk gjennom metodene og bevisene(åpnes i et nytt vindu), og fremhevet beslutningsrelevante hull som ble adressert som en del av tilbakemeldingssløyfen for anbefalinger. Denne tilnærmingen håper vi å utvide til andre områder der tilgangs- eller infrastrukturbehov gjør det upraktisk for en tredjepart å kjøre evalueringer direkte, eller der eksterne evalueringer kanskje ennå ikke finnes.
En annen måte vi engasjerer eksterne eksperter på, er ved å sondere fagområdespesialister (SME), der ekspertene evaluerer modellen direkte og gir strukturerte inndata via spørreundersøkelser til vår vurdering av modellens evner. Dette er forskjellig fra red teaming, som har som mål å stressteste spesifikke sikkerhetstiltak. Dette gjør at vi kan supplere evalueringene av beredskapsrammeverket med domenespesifikke innsikter som gjenspeiler ekspertvurderinger og den virkelige konteksten, som statiske evalueringer alene kanskje ikke fanger opp. For eksempel inviterte vi et panel av fageksperter til å bruke en modell som kun er til hjelp3 for å teste sine egne ende-til-ende-bioscenarioer for ChatGPT Agent og GPT‑5. De vurderte hvor mye modellen kunne forbedre en ekspert som dem selv sammenlignet med en mindre erfaren nybegynner, basert på nytten av veiledningen den ga i deres scenarier. Målet var å samle inn ytterligere inndata om hvor godt systemet kunne bringe en motivert nybegynner vesentlig nærmere kompetent utførelse: Eksperter stresstestet våre påstander om «nybegynnerløft» under realistiske arbeidsflyter de selv utviklet, og ga detaljert tilbakemelding på hvor modellen ga materiell, trinnvis hjelp kontra mindre nyttige sammendrag. Denne ekspertsonderingen ble inkludert som en del av den samlede vurderingen for utplassering av disse modellene, og ble delt i systemkortene for begge lanseringene.
I åpenhetens ånd deler vi mer om hva tredjepartsvurderingspersoner godtar når de jobber med oss, og prinsippene som styrer samarbeidet vårt:
- Åpenhet med strenge konfidensialitetsgrenser: Tredjepartsvurderingspersoner signerer taushetsavtaler for å aktivere deling av konfidensiell, ikke-offentlig informasjon for å støtte deres vurderinger. I vedlegget til dette innlegget har vi inkludert relevante utdrag fra kontrakter med tredjepartsvurderingspersoner som beskriver rettigheter rundt publisering og forventninger til gjennomgang. Vi opererer med prinsippet om åpenhet og streber etter å aktivere publisering som fremmer forståelsen av sikkerhet og relaterte evalueringer uten å kompromittere konfidensiell informasjon eller immaterielle rettigheter. Som en del av dette gjennomgår og godkjenner vi publikasjoner fra tredjepartsvurderinger for å sikre både konfidensialitet og faktanøyaktighet. I løpet av de siste årene har flere tredjepartsvurderingspersoner publisert arbeidet sitt sammen med vår egen publisering av vurderingssammendrag i systemkort. Noen eksempler på arbeid som er publisert etter at vi har gjennomgått det for konfidensialitet og nøyaktighet inkluderer: [METR GPT‑5‑rapport (åpnes i et nytt vindu), Apollo forskningsrapport om OpenAI o1(åpnes i et nytt vindu), Irregular GPT‑5‑vurdering(åpnes i et nytt vindu)]
- Gjennomtenkt frigivelse av informasjon og sikker, sensitiv tilgang: Som standard gir vi informasjon og tilgang til modeller som er ment å være offentlige eller klare for produksjon. Når evalueringene krever det, gir vi dypere tilgang, for eksempel til modeller som kun er nyttige eller til ikke-offentlig informasjon. OpenAI har gitt disse tilgangsformene der det er nødvendig for kritiske sikkerhetsspørsmål for tredjepartsvurderingspersoner. Det er viktig at denne typen sensitiv tilgang gis med strenge sikkerhetstiltak, og vi fortsetter å oppdatere disse kontrollene etter hvert som modellens kapasiteter og testbehov utvikler seg.
- Balanserte økonomiske insentiver: Vi mener det er viktig å sikre at økosystemet for tredjepartsvurderinger er godt finansiert og bærekraftig. Derfor tilbyr vi kompensasjon til alle våre tredjepartsvurderingspersoner, og noen velger å takke nei avhengig av deres organisasjonsfilosofi rundt dette. Former for kompensasjon inkluderer direkte betaling for arbeid og/eller subsidiering av kostnader for modellbruk gjennom API-kreditter eller på annen måte. Ingen betaling er noensinne betinget av resultatene til en tredjepart.
Sammen hjelper disse faktorene tredjepartsvurderingene med å beskytte sensitiv informasjon, fremme åpenhet i KI-sikkerhet, og opprett muligheter for tredjepartsvurderingspersoner til å bli kompensert for tiden sin.
Når vi ser fremover, ser vi et behov for å fortsette å styrke økosystemet av organisasjoner som er i stand til å gjennomføre troverdige, beslutningsrelevante vurderinger av grensesprengende KI-systemer. Effektiv tredjepartsevaluering krever spesialekspertise, stabil finansiering og metodisk nøyaktighet. Fortsatt investering i kvalifiserte vurderingsorganisasjoner, fremgang innen målevitenskap og sikkerhet for sensitiv tilgang vil være essensielt for å sikre at vurderingene kan holde tritt med fremskritt i modellkapasiteter.
Tredjepartsvurderinger er en måte vi bringer et eksternt perspektiv inn i sikkerhetsarbeidet vårt på, og de fungerer sammen med andre mekanismer. Vi samarbeider også med eksterne eksperter gjennom strukturerte «red teaming»-innsatser, kollektive tilpasningsprosjekter, samarbeid med U.S. CAISI og UK AISI, og rådgivende grupper som vårt globale legenettverk og vårt ekspertråd om velvære og KI for å veilede arbeidet vårt med mental helse og brukervelvære. Denne innsatsen bidrar med ulike former for ekspertise og gir støtte til et bredere og mer pålitelig grunnlag for å vurdere og styre avanserte KI-systemer.
Følgende er illustrative utdrag fra våre avtaler med tredjepart som samarbeider med oss om vurderinger før utrulling.
Forfatter
Fotnoter
- 1
Dette skiller seg fra red teaming, som har til hensikt å stressteste sikkerhetstiltak på detaljnivå og gi data for utvikling av evaluering.
- 2
Der en modell bevisst underpresterer eller skjuler sine sanne evner når den oppdager at den blir evaluert eller testet.
- 3
Hjelpsomme modeller svarer på alle forespørsler, selv om forespørselen er skadelig. Disse opprettes ved hjelp av etteropplæringsmetoder som oppnår denne atferden.


