Stärka vårt säkerhetsekosystem med externa tester
Vår strategi för tredjepartsbedömningar av banbrytande AI.
På OpenAI anser vi att oberoende, tillförlitliga utvärderingar från tredje part spelar en avgörande roll för att stärka säkerhetsekosystemet för banbrytande AI. Tredjepartsbedömningar är utvärderingar som genomförs på banbrytande modeller för att bekräfta eller tillhandahålla ytterligare bevis för påståenden om kritiska säkerhetsfunktioner och riskreducerande åtgärder. Dessa utvärderingar bidrar till att validera säkerhetspåståenden, skydda mot blinda fläckar och öka transparensen kring kapacitet och risker. Genom att bjuda in externa experter för att testa våra banbrytande modeller vill vi också stärka förtroendet för djupet i våra kapacitetsbedömningar och säkerhetsåtgärder, samt bidra till att förbättra säkerhetssystemet i stort.
Sedan lanseringen av GPT‑4 har OpenAI samarbetat med en rad externa partners för att testa och utvärdera våra modeller. I stora drag kan våra samarbeten med tredje part delas in i tre kategorier:
- Oberoende utvärderingar av viktiga banbrytande kapacitets- och riskområden såsom biosäkerhet, cybersäkerhet, AI-självförbättring och intriger
- Metodgranskningar som utvärderar hur vi bedömer och tolkar risk
- Granskning av en ämnesexpert (SME), där experter utvärderar modellen direkt på verkliga SME-uppgifter och ger strukturerad indata till vår bedömning av dess kapacitet och tillhörande skyddsåtgärder1
Denna blogg beskriver hur vi använder var och en av dessa former av extern utvärdering, varför de är viktiga, hur de har påverkat beslut om implementering och vilka principer vi använder för att strukturera dessa samarbeten. I en anda av transparens delar vi också mer information om sekretess- och publiceringsvillkoren som reglerar vårt samarbete med externa testare.
Tredjepartsbedömare tillför ett oberoende utvärderingslager vid sidan av vårt interna arbete, vilket stärker noggrannheten och ger ytterligare skydd mot självbekräftelse. Deras synpunkter ger ytterligare belägg till våra egna bedömningar och bidrar till att underbygga ansvarsfulla beslut om användningen av kraftfulla system.
Vi ser också tredjepartsbedömningar som en del av uppbyggnaden av ett motståndskraftigt säkerhetsekosystem. Våra team genomför omfattande interna tester inom olika kompetens- och riskområden, men oberoende organisationer bidrar med ytterligare perspektiv och metodologiska tillvägagångssätt. Vi verkar för att stödja en mångfaldig grupp av kvalificerade bedömningsorganisationer som regelbundet kan utvärdera bandbrytande modeller tillsammans med oss.
Slutligen strävar vi efter att vara transparenta om hur denna input bidrar till att forma vår säkerhetsprocess. Vi offentliggör regelbundet tredjepartsbedömningar, till exempel genom att inkludera sammanfattningar av utvärderingar före implementering i systemkort och genom att stödja bedömningsorganisationer i att publicera mer detaljerade arbeten efter granskning av konfidentialitet och noggrannhet. Denna öppenhet skapar förtroende genom att visa hur externa synpunkter påverkar våra kapacitetsbedömningar och säkerhetsåtgärder.
Hållbara relationer som bygger på tillförlitlig tillgång, transparens och kunskapsdelning hjälper hela ekosystemet att ligga steget före nya risker och främjar anpassningsbara, praktiska bedömningar som behövs för starkare standarder och mer välgrundad styrning av banbrytande AI-system.
Sedan lanseringen av GPT‑4(öppnas i ett nytt fönster) har vi stöttat oberoende utvärderingar av tidiga modellkontroller före implementering. Sedan dess har vi utökat vårt arbete med en rad tredje partsorganisationer som har djup expertis inom utvärderingar av viktiga kapacitets- och riskområden. Vi betraktar oberoende laboratoriearbete som öppna tester där externa team tillämpar sina egna metoder för att komma fram till ett påstående eller en bedömning relaterad till en viss banbrytande förmåga.
Som exempel samordnade OpenAI för GPT‑5 en bred uppsättning externa kapacitetsbedömningar inom viktiga riskområden såsom långsiktig autonomi, intriger, bedrägeri och undergrävande av tillsyn, genomförbarhet av våta laboratorieplaner och offensiva cybersäkerhetsutvärderingar.
Dessa oberoende utvärderingar kompletterar de utvärderingar som genomförts i enlighet med OpenAI:s beredskapsramverk och inkluderar riktmärken såsom METR:s time horizon evaluation(öppnas i ett nytt fönster) eller SecureBio:s Virology Capabilities Troubleshooting (VCT)(öppnas i ett nytt fönster)-utvärdering.
För att stödja dessa utvärderingar tillhandahöll vi säker åtkomst till tidiga modellkontrollpunkter, utvalda utvärderingsresultat för att konkretisera de kapacitetsförbättringar vi ser, noll datalagring där det behövs och modeller med färre begränsningar. Till exempel testade organisationer inom cybersäkerhet och biosäkerhet modeller både med och utan säkerhetsåtgärder för att undersöka underliggande kapacitet. Flera andra organisationer fick direkt tillgång till tankekedjan för att kunna granska modellens resonemang. Denna ökade transparens gjorde det möjligt för bedömare att identifiera fall av sandbagging2 eller manipulativt beteende som endast kunde upptäckas genom att läsa tankekedjan. Åtkomst tillhandahölls med säkerhetskontroller på plats, och vi fortsätter att uppdatera dessa kontroller i takt med att modellfunktionerna och testbehovet utvecklas.
I vissa sammanhang är externa bedömare väl lämpade att utföra metodologiska granskningar och bidra med ytterligare perspektiv till de ramverk och bevis som pionjärlaboratorier förlitar sig på för att bedöma risker. Till exempel, under lanseringen av gpt-oss använde vi motståndarinriktad finjustering för att uppskatta värsta tänkbara kapacitet för öppna viktmodeller, vilket beskrivs i Uppskattning av värsta tänkbara gränsrisker för öppna vikt-LLM. Den centrala säkerhetsfrågan var om en illvillig aktör skulle kunna finjustera modellen för att uppnå hög kapacitet inom områden som bio- eller cyberhot enligt vårt beredskapsramverk. Eftersom detta krävde resurskrävande motståndarinriktad finjustering bjöd vi in externa bedömare för att granska och ge rekommendationer om våra interna metoder och resultat, istället för att upprepa liknande arbete.
Detta innebar en flera veckor lång process där man delade med sig av utvärderingsresultat, detaljer om metoden för motståndarinriktad finjustering och samlade in strukturerade rekommendationer om hur man kunde förbättra metodiken och utvärderingarna för de värsta tänkbara gränsfallen. Feedback från bedömare ledde till förändringar i den slutliga motståndarinriktade finjusteringsprocessen och visade värdet av metodologisk bekräftelse. Vi noterade vilka punkter vi antog i dokumentet och systemkortet för gpt-oss, och vi angav skälen till varför vi inte antog vissa punkter.
Här var metodikgranskning det rätta valet snarare än oberoende utvärderingar: utvärderingarna innebar att man genomförde storskaliga experiment med värsta tänkbara scenarier, vilket kräver infrastruktur och teknisk expertis som vanligtvis inte finns tillgänglig utanför stora AI-laboratorier. Detta innebar att oberoende utvärderingar sannolikt inte skulle ha kunnat leda direkt till insikter om värsta tänkbara scenarier, och det var mer produktivt att fokusera externa utvärderare på att bekräfta påståendena. Externa bedömare granskade metoderna och bevisen(öppnas i ett nytt fönster), och lyfte fram beslutsrelevanta luckor som åtgärdades som en del av rekommendationernas återkopplingsflöde. Vi hoppas kunna utvidga denna strategi till andra områden där tillgång eller infrastruktur gör det opraktiskt för en tredje part att direkt genomföra utvärderingar, eller där externa utvärderingar ännu inte finns.
Ett annat sätt att engagera externa experter är genom ämnesexpertundersökningar (SME), där experter utvärderar modellen direkt och ger strukturerade synpunkter via enkäter om vår bedömning av dess kapacitet. Detta skiljer sig från red teaming, som syftar till att stresstesta specifika säkerhetsåtgärder. Detta gör det möjligt för oss att komplettera utvärderingarna av beredskapsramverket med domänspecifika insikter som återspeglar expertbedömningar och verkliga sammanhang som statiska utvärderingar ensamma kanske inte kan fånga upp. Vi bjöd till exempel in en panel av ämnesexperter att använda en hjälpsam modell3 för att testa sina egna bio-scenarier från början till slut för ChatGPT Agent och GPT‑5. De bedömde hur mycket modellen kunde hjälpa en expert som dem själva jämfört med en mindre erfaren nybörjare, baserat på hur användbar vägledningen var i deras scenarier. Målet var att samla in ytterligare information om hur väl systemet kunde hjälpa en motiverad nybörjare att komma närmare en kompetent utförande: SME-företag stresstestade våra påståenden om ”nybörjarförbättring” under realistiska arbetsflöden som de kommit fram till och gav detaljerad feedback om var modellen gav konkret hjälp på stegnivå jämfört med mindre hjälpsamma sammanfattningar. Denna expertundersökning ingick som en del av den övergripande utvärderingen för implementeringen av dessa modeller och delades i systemkort för båda lanseringarna.
I en anda av transparens delar vi med oss av mer information om vad externa utvärderare samtycker till när de arbetar med oss och om de principer som styr vårt samarbete:
- Transparens med noggranna sekretessgränser: Tredje part skriver på sekretessavtal för att aktivera delning av konfidentiell, icke-offentlig information för att ge stöd till sina bedömningar. I bilagan till det här inlägget inkluderar vi relevanta utdrag ur avtal med tredje parts bedömare som beskriver rättigheter kring publicering och förväntningar på granskning. Vi arbetar enligt principen om transparens och strävar efter att möjliggöra publicering som främjar förståelsen för säkerhet och relaterade utvärderingar utan att kompromissa med konfidentiell information eller immateriella rättigheter. Som en del av detta granskar och godkänner vi publikationer från tredjepartsbedömningar för att säkerställa både konfidentialitet och faktamässig korrekthet. Under de senaste åren har flera externa bedömare publicerat sina arbeten tillsammans med våra egna publikationer av bedömningssammanfattningar i systemkort. Några exempel på arbete som har publicerats efter att vi har granskat det för sekretess och noggrannhet inkluderar: [METR GPT‑5 report (öppnas i ett nytt fönster), Apollo Research report on OpenAI o1(öppnas i ett nytt fönster), Irregular GPT‑5 Assessment(öppnas i ett nytt fönster)]
- Genomtänkt informationsutlämnande och säker, känslig åtkomst: Som standard tillhandahåller vi information och åtkomst till modeller som är avsedda att vara offentliga eller produktionsklara. När utvärderingarna kräver det ger vi djupare åtkomst, till exempel till modeller som endast är till hjälp eller icke-offentlig information. OpenAI har tillhandahållit dessa former av åtkomst när det varit nödvändigt för kritiska säkerhetsfrågor för tredjepartsutvärderare. Det är viktigt att notera att denna typ av känslig åtkomst kräver strikta säkerhetsåtgärder, och vi fortsätter att uppdatera dessa kontroller i takt med att modellernas kapacitet och testbehov utvecklas.
- Balanserade finansiella incitament: Vi tror att det är viktigt att säkerställa att ekosystemet för bedömningar från tredje part är välfinansierat och hållbart. Därför erbjuder vi ersättning till alla våra externa bedömare, och vissa väljer att avböja beroende på sin organisations filosofi i frågan. Ersättningen kan bestå av direkt betalning för arbetet och/eller subventionering av modellkostnaderna genom API-krediter eller på annat sätt. Ingen betalning är någonsin beroende av resultatet av en tredjepartsutvärdering.
Tillsammans bidrar dessa faktorer till att tredjepartsutvärderingar både skyddar känslig information och främjar transparens inom AI-säkerhet, samt skapar möjligheter för tredjepartsbedömare att få ersättning för sin tid.
Framöver ser vi ett behov av att fortsätta stärka ekosystemet av organisationer som kan genomföra trovärdiga, beslutsrelevanta utvärderingar av banbrytande AI-system. En effektiv tredjepartsutvärdering kräver specialiserad expertis, stabil finansiering och metodologisk stringens. Fortsatta investeringar i kvalificerade bedömningsorganisationer, utveckling av mätvetenskap och säkerhet för känslig åtkomst kommer att vara avgörande för att säkerställa att bedömningarna kan hålla jämna steg med framstegen inom modellkapacitet.
Tredjepartsutvärderingar är ett sätt för oss att få in ett externt perspektiv i vårt säkerhetsarbete, och de fungerar parallellt med andra mekanismer. Vi samarbetar också med externa experter genom strukturerade red teaming-insatser, kollektiva projekt, arbete med U.S. CAISI och UK AISI, och rådgivande grupper som vårt Global Physician Network och vårt Expert Council on Well-Being and AI för att hjälpa till att vägleda vårt arbete med mental hälsa och användarvälbefinnande. Dessa insatser bidrar med olika former av expertis och stödjer en bredare och mer tillförlitlig grund för bedömning och styrning av avancerade AI-system.
Följande är illustrativa utdrag ur våra avtal med tredje parter som samarbetar med oss om utvärderingar före implementering.
Författare
Fotnoter
- 1
Detta skiljer sig från red teaming, som syftar till att noggrant stresstesta skyddsåtgärder och tillhandahålla data för utveckling av utvärderingar.
- 2
När en modell avsiktligt underpresterar eller döljer sina verkliga förmågor när den upptäcker att den utvärderas eller testas.
- 3
Hjälpsamma modeller svarar på alla förfrågningar, även om förfrågan är skadlig. Dessa skapas av metoder för efterträning som uppnår detta beteende.


