Styrkelse af vores sikkerhedsøkosystem med ekstern test
Vores tilgang til tredjepartsvurderinger af banebrydende AI.
Hos OpenAI mener vi, at uafhængige og betroede tredjepartsvurderinger spiller en afgørende rolle i at styrke sikkerhedsøkosystemet for avanceret AI. Tredjepartsvurderinger er evalueringer udført på avancerede modeller for at bekræfte eller give yderligere beviser for påstande om kritiske sikkerhedsfunktioner og afbødninger. Disse evalueringer hjælper med at validere sikkerhedspåstande, beskytte mod blinde vinkler og øge gennemsigtigheden omkring kapaciteter og risici. Ved at invitere eksterne eksperter til at teste vores banebrydende modeller sigter vi også mod at opbygge tillid til dybden af vores kapabilitetsevalueringer og sikkerhedsforanstaltninger og bidrage til at styrke det bredere sikkerhedsøkosystem.
Siden lanceringen af GPT‑4 har OpenAI samarbejdet med en række eksterne partnere for at teste og evaluere vores modeller. Vores samarbejder med tredjeparter tager overordnet set tre former:
- Uafhængige evalueringer af centrale kapaciteter og risikoområder som biosikkerhed, cybersikkerhed, AI-selvforbedring og intriger.
- Metodologiske gennemgange, der vurderer, hvordan vi evaluerer og fortolker risiko
- Undersøgelse af fageksperter (SMV), hvor eksperter evaluerer modellen direkte på virkelige SMV-opgaver og leverer struktureret input til vores vurdering af dens kapaciteter og tilknyttede sikkerhedsforanstaltninger1
Denne blog beskriver, hvordan vi bruger hver af disse former for ekstern evaluering, hvorfor de er vigtige, hvordan de har formet implementeringsbeslutninger, og de principper, vi bruger til at strukturere disse samarbejder. I gennemsigtighedens ånd deler vi også mere om de fortroligheds- og publiceringsvilkår, der regulerer vores samarbejde med tredjepartstestere.
Tredjepartsvurderinger tilføjer et uafhængigt lag af evaluering ved siden af vores interne arbejde, hvilket styrker grundigheden og giver ekstra beskyttelse mod selvbekræftelse. Deres input giver yderligere beviser sammen med vores egne vurderinger, hvilket hjælper med at træffe ansvarlige beslutninger om implementering af kraftfulde systemer.
Vi ser også tredjepartsvurderinger som en del af opbygningen af et robust sikkerhedsøkosystem. Vores hold udfører omfattende intern testning på tværs af kapacitets- og risikoområder, men uafhængige organisationer bringer yderligere perspektiver og metodiske tilgange. Vi arbejder på at sikre understøttelse af en mangfoldig gruppe af kvalificerede vurderingspersoner, der regelmæssigt kan evaluere banebrydende modeller sammen med os.
Endelig sigter vi mod at være gennemsigtige om, hvordan dette input hjælper med at forme vores sikkerhedsproces. Vi offentliggør regelmæssigt tredjepartsvurderinger – for eksempel ved at inkludere resuméer af evalueringer før implementering i systemkort og støtte vurderingsorganisationer i at offentliggøre mere detaljeret arbejde efter en gennemgang af fortrolighed og nøjagtighed. Denne gennemsigtighed skaber tillid ved at vise, hvordan ekstern input former vores kapabilitetsvurderinger og sikkerhedsforanstaltninger.
Vedvarende relationer bygget på pålidelig adgang, gennemsigtighed og vidensdeling hjælper hele økosystemet med at være på forkant med nye risici og fremmer fleksible, handlingsrettede vurderinger, der er nødvendige for stærkere standarder og mere informeret styring af førende AI-systemer.
Fra og med lanceringen af GPT‑4(åbner i et nyt vindue) har vi støttet uafhængige evalueringer af tidlige modelkontrolpunkter før implementering. Siden da har vi udvidet vores samarbejde med en række tredjepartsorganisationer, der har stor ekspertise inden for evalueringer af centrale grænsekapaciteter og risikoområder. Vi betragter uafhængigt laboratoriearbejde som åbne test, hvor eksterne teams anvender deres egne metoder til at fremsætte en påstand eller vurdering vedrørende en bestemt banebrydende kapacitet.
Som et eksempel koordinerede OpenAI for GPT‑5 et bredt sæt af eksterne kapacitetsvurderinger på tværs af centrale risikoområder som autonomi med lang tidshorisont, manipulation, bedrag og undergravning af tilsyn, gennemførlighed af planlægning i vådlaboratorier og offensive cybersikkerhedsevalueringer.
Disse uafhængige evalueringer supplerer de evalueringer, der udføres i overensstemmelse med OpenAI's Preparedness Framework, og inkluderer benchmarks såsom METR's tidshorisontevaluering(åbner i et nyt vindue) eller SecureBios Virology Capabilities Troubleshooting (VCT)(åbner i et nyt vindue) evaluering.
For at understøtte disse evalueringer har vi leveret sikker adgang til tidlige modelkontrolpunkter, udvalgte evalueringsresultater for at konkretisere de kapacitetsforbedringer, vi ser, nul datalagring, hvor det var nødvendigt, og modeller med færre afhjælpningsforanstaltninger. For eksempel testede organisationer inden for cybersikkerheds- og biosikkerhedsdomæner modeller både med og uden sikkerhedsforanstaltninger for at undersøge underliggende kapaciteter. Flere andre organisationer fik direkte adgang til tankegangen, så de kunne inspicere modellens argumenteringsspor. Dette øgede gennemsigtighedstrin gjorde det muligt for vurderingspersoner at identificere tilfælde af sandbagging2 eller manipulerende adfærd, som måske kun kunne ses ved at læse tankekæden. Adgangen blev givet med sikkerhedskontrol på plads, og vi fortsætter med at opdatere denne kontrol i takt med, at modelkapaciteterne og testbehovene udvikler sig.
I visse kontekster er eksterne vurderingspersoner godt placeret til at udføre metodologisk gennemgang, hvilket giver yderligere perspektiver til de rammer og beviser, som frontlinjelaboratorier er afhængige af til at vurdere risiko. For eksempel brugte vi under lanceringen af gpt-oss kontradiktorisk finjustering til at estimere worst-case-kapaciteter for åbne vægtmodeller, beskrevet i Estimering af værst tænkelige frontier-risici ved LLM'er med åben vægt. Det centrale sikkerhedsspørgsmål var, om en ondsindet aktør kunne finjustere modellen til at opnå høj kapabilitet inden for områder som bio eller cyber under vores beredskabsramme. Da dette krævede ressourcekrævende modstridende finjustering, inviterede vi tredjepartsvurderingspersoner til at gennemgå og komme med anbefalinger til vores interne metoder og resultater i stedet for at gentage lignende arbejde.
Dette indebar en flere uger lang proces med udveksling af evalueringsresultater, detaljer om tilgangen til kontradiktorisk finjustering og indsamling af strukturerede anbefalinger om forbedring af metodologien og evalueringerne for de værst tænkelige risici. Feedback fra vurderingspersoner førte til ændringer i den endelige modstridende finjusteringsproces og demonstrerede værdien af metodologisk bekræftelse. Vi registrerede, hvilke elementer vi tog med i artiklen og systemkortet for gpt-oss, og vi gav begrundelser for dem, vi ikke tog med.
Her var en metodegennemgang det rette valg frem for uafhængige evalueringer: Evalueringerne involverede udførelse af storstilede, worst-case-eksperimenter, hvilket kræver infrastruktur og teknisk ekspertise, der ikke er almindeligt tilgængelig uden for større AI-laboratorier. Dette betød, at uafhængige evalueringer sandsynligvis ikke ville have kunnet føre direkte til indsigt i værst tænkelige scenarier, og det var mere produktivt at fokusere eksterne vurderingspersoner på at bekræfte påstandene. Eksterne vurderingspersoner gennemgik metoderne og beviserne(åbner i et nyt vindue) og fremhævede beslutningsrelevante huller, som blev adresseret som en del af feedback-loopet for anbefalinger. Denne tilgang håber vi at udvide til andre områder, hvor adgangs- eller infrastrukturbehov gør det upraktisk for en tredjepart at udføre evalueringer direkte, eller hvor eksterne evalueringer endnu ikke findes.
En anden måde, hvorpå vi inddrager eksterne eksperter, er gennem faglige eksperter (SME), hvor eksperter vurderer modellen direkte og giver struktureret input via undersøgelser til vores vurdering af dens muligheder. Dette er forskelligt fra red teaming, som har til formål at stressteste specifikke sikkerhedsforanstaltninger. Dette giver os mulighed for at supplere vurderingerne af beredskabsrammen med domænespecifik indsigt, der afspejler ekspertvurderinger og den virkelige kontekst, som statiske vurderinger alene ikke nødvendigvis kan fange. For eksempel inviterede vi et panel af fageksperter til at bruge en nyttig model3 til at afprøve deres egne end-to-end-bioscenarier for ChatGPT Agent og GPT‑5. De vurderede, hvor meget modellen kunne forbedre en ekspert som dem selv sammenlignet med en mindre erfaren nybegynder, baseret på nytten af den vejledning, den gav i deres scenarier. Målet var at indsamle yderligere input om, hvor godt systemet kunne bringe en motiveret nybegynder væsentligt tættere på kompetent udførelse: SME'er stresstestede vores påstande om "nybegynderløft" under realistiske arbejdsgange, som de selv havde udtænkt, og gav detaljeret feedback om, hvor modellen gav væsentlig hjælp på trin-niveau i modsætning til mindre nyttige resuméer. Denne ekspertundersøgelse blev inkluderet som en del af den samlede vurdering af implementeringen af disse modeller og delt i systemkort for begge lanceringer.
I gennemsigtighedens ånd deler vi mere om, hvad tredjepartsvurderingspersoner accepterer, når de arbejder med os, og de principper, der guider vores samarbejder:
- Gennemsigtighed med omhyggelige fortrolighedsgrænser: Tredjepartsvurderingsmedarbejdere underskriver fortrolighedsaftaler for at muliggøre deling af fortrolige, ikke-offentlige oplysninger til støtte for deres vurderinger. I bilaget til dette indlæg inkluderer vi relevante uddrag fra kontrakter med tredjepartsvurderingspersoner, der beskriver rettigheder omkring offentliggørelse og forventninger til gennemgang. Vi arbejder ud fra princippet om gennemsigtighed og stræber efter at aktivere offentliggørelse, der fremmer forståelsen af sikkerhed og relaterede evalueringer uden at kompromittere fortrolige oplysninger eller intellektuel ejendom. Som en del af dette gennemgår og godkender vi publikationer fra tredjepartsvurderinger for at sikre både fortrolighed og faktuel nøjagtighed. I løbet af de seneste par år har flere tredjepartsvurderingspersoner offentliggjort deres arbejde sammen med vores egen udgivelse af vurderingsresuméer i systemkort. Nogle eksempler på arbejde, der er blevet offentliggjort, efter vi har gennemgået det for fortrolighed og nøjagtighed, inkluderer: [METR GPT‑5‑rapport (åbner i et nyt vindue), Apollo Research-rapport om OpenAI o1(åbner i et nyt vindue), Irregular GPT‑5‑vurdering(åbner i et nyt vindue)]
- Omhyggelig offentliggørelse af oplysninger og sikker, følsom adgang: Som standard leverer vi oplysninger og adgang til modeller, der er beregnet til at være offentlige eller klar til produktion. Når evalueringerne nødvendiggør det, giver vi dybere adgang, såsom til modeller, der kun er nyttige, eller til ikke-offentlig information. OpenAI har givet disse former for adgang, hvor det er nødvendigt for kritiske sikkerhedsspørgsmål til tredjepartsvurderingspersoner. Det er vigtigt, at disse typer af følsom adgang kræver strenge sikkerhedsforanstaltninger, og vi fortsætter med at opdatere disse kontroller, efterhånden som modelkapaciteter og testbehov udvikler sig.
- Afbalancerede økonomiske incitamenter: Vi mener, det er vigtigt at sikre, at økosystemet for tredjepartsvurderinger er velfinansieret og bæredygtigt. Derfor tilbyder vi kompensation til alle vores tredjepartsvurderingsmedarbejdere, og nogle vælger at afslå afhængigt af deres organisatoriske filosofi omkring dette. Kompensationsformer omfatter direkte betaling for arbejde og/eller subsidiering af modelbrugsomkostninger gennem API-kreditter eller på anden måde. Ingen betaling er nogensinde afhængig af resultaterne af en tredjepartsvurdering.
Tilsammen hjælper disse faktorer tredjepartsvurderinger med både at beskytte følsomme oplysninger og fremme gennemsigtighed inden for AI-sikkerhed samt skabe muligheder for, at tredjepartsvurderingspersoner kan blive kompenseret for deres tid.
Fremadrettet ser vi et behov for fortsat at styrke økosystemet af organisationer, der er i stand til at foretage troværdige, beslutningsrelevante vurderinger af banebrydende AI-systemer. Effektiv tredjepartsevaluering kræver specialiseret ekspertise, stabil finansiering og metodologisk stringens. Fortsatte investeringer i kvalificerede vurderingsorganisationer, fremskridt inden for målevidenskab og sikkerhed for følsom adgang vil være afgørende for at sikre, at vurderingerne kan følge med udviklingen inden for modelkapaciteter.
Tredjepartsvurderinger er en måde, hvorpå vi bringer eksterne perspektiver ind i vores sikkerhedsarbejde, og de fungerer sammen med andre mekanismer. Vi samarbejder også med eksterne eksperter gennem strukturerede red teaming-indsatser, kollektive tilpasningsprojekter, vi arbejder med U.S. CAISI og UK AISI samt rådgivningsgrupper som vores Global Physician Network og vores Expert Council on Well-Being and AI for at hjælpe med at vejlede vores arbejde med mental sundhed og brugernes trivsel. Disse indsatser bidrager med forskellige former for ekspertise og udgør en bredere og mere pålidelig understøttelse af et grundlag for vurdering og styring af avancerede AI-systemer.
Følgende er illustrative uddrag fra vores aftaler med tredjeparter, der samarbejder med os om vurderinger før implementering.
Skrevet af
Fodnoter
- 1
Dette adskiller sig fra red teaming, som har til hensigt at udføre detaljerede stresstests af sikkerhedsforanstaltninger og levere data til udvikling af evalueringer.
- 2
Hvor en model bevidst underpræsterer eller skjuler sine sande evner, når den opdager, at den bliver evalueret eller testet.
- 3
Modeller, der kun er hjælpsomme, besvarer enhver anmodning, selv hvis den er skadelig. Disse skabes ved hjælp af eftertræningsmetoder, der opnår denne adfærd.


