19 november 2025

Stärka vårt säkerhetsekosystem med externa tester

Vår strategi för tredjepartsbedömningar av banbrytande AI.

Laddar …

På OpenAI anser vi att oberoende, tillförlitliga utvärderingar från tredje part spelar en avgörande roll för att stärka säkerhetsekosystemet för banbrytande AI. Tredjepartsbedömningar är utvärderingar som genomförs på banbrytande modeller för att bekräfta eller tillhandahålla ytterligare bevis för påståenden om kritiska säkerhetsfunktioner och riskreducerande åtgärder. Dessa utvärderingar bidrar till att validera säkerhetspåståenden, skydda mot blinda fläckar och öka transparensen kring kapacitet och risker. Genom att bjuda in externa experter för att testa våra banbrytande modeller vill vi också stärka förtroendet för djupet i våra kapacitetsbedömningar och säkerhetsåtgärder, samt bidra till att förbättra säkerhetssystemet i stort.

Sedan lanseringen av GPT‑4 har OpenAI samarbetat med en rad externa partners för att testa och utvärdera våra modeller. I stora drag kan våra samarbeten med tredje part delas in i tre kategorier:

Oberoende utvärderingar av viktiga banbrytande kapacitets- och riskområden såsom biosäkerhet, cybersäkerhet, AI-självförbättring och intriger
Metodgranskningar som utvärderar hur vi bedömer och tolkar risk
Granskning av en ämnesexpert (SME), där experter utvärderar modellen direkt på verkliga SME-uppgifter och ger strukturerad indata till vår bedömning av dess kapacitet och tillhörande skyddsåtgärder¹

Denna blogg beskriver hur vi använder var och en av dessa former av extern utvärdering, varför de är viktiga, hur de har påverkat beslut om implementering och vilka principer vi använder för att strukturera dessa samarbeten. I en anda av transparens delar vi också mer information om sekretess- och publiceringsvillkoren som reglerar vårt samarbete med externa testare.

Varför är det här viktigt?

Tredjepartsbedömare tillför ett oberoende utvärderingslager vid sidan av vårt interna arbete, vilket stärker noggrannheten och ger ytterligare skydd mot självbekräftelse. Deras synpunkter ger ytterligare belägg till våra egna bedömningar och bidrar till att underbygga ansvarsfulla beslut om användningen av kraftfulla system.

Vi ser också tredjepartsbedömningar som en del av uppbyggnaden av ett motståndskraftigt säkerhetsekosystem⁠. Våra team genomför omfattande interna tester inom olika kompetens- och riskområden, men oberoende organisationer bidrar med ytterligare perspektiv och metodologiska tillvägagångssätt. Vi verkar för att stödja en mångfaldig grupp av kvalificerade bedömningsorganisationer som regelbundet kan utvärdera bandbrytande modeller tillsammans med oss.

Slutligen strävar vi efter att vara transparenta om hur denna input bidrar till att forma vår säkerhetsprocess. Vi offentliggör regelbundet tredjepartsbedömningar, till exempel genom att inkludera sammanfattningar av utvärderingar före implementering i systemkort och genom att stödja bedömningsorganisationer i att publicera mer detaljerade arbeten efter granskning av konfidentialitet och noggrannhet. Denna öppenhet skapar förtroende genom att visa hur externa synpunkter påverkar våra kapacitetsbedömningar och säkerhetsåtgärder.

Hållbara relationer som bygger på tillförlitlig tillgång, transparens och kunskapsdelning hjälper hela ekosystemet att ligga steget före nya risker och främjar anpassningsbara, praktiska bedömningar som behövs för starkare standarder och mer välgrundad styrning av banbrytande AI-system.

Oberoende utvärderingar av externa laboratorier

Sedan lanseringen av GPT‑4⁠(öppnas i ett nytt fönster) har vi stöttat oberoende utvärderingar av tidiga modellkontroller före implementering. Sedan dess har vi utökat vårt arbete med en rad tredje partsorganisationer som har djup expertis inom utvärderingar av viktiga kapacitets- och riskområden. Vi betraktar oberoende laboratoriearbete som öppna tester där externa team tillämpar sina egna metoder för att komma fram till ett påstående eller en bedömning relaterad till en viss banbrytande förmåga.

Som exempel samordnade OpenAI för GPT‑5⁠ en bred uppsättning externa kapacitetsbedömningar inom viktiga riskområden såsom långsiktig autonomi, intriger, bedrägeri och undergrävande av tillsyn, genomförbarhet av våta laboratorieplaner och offensiva cybersäkerhetsutvärderingar.

Dessa oberoende utvärderingar kompletterar de utvärderingar som genomförts i enlighet med OpenAI:s beredskapsramverk och inkluderar riktmärken såsom METR:s time horizon evaluation⁠(öppnas i ett nytt fönster) eller SecureBio:s Virology Capabilities Troubleshooting (VCT)⁠(öppnas i ett nytt fönster)-utvärdering.

För att stödja dessa utvärderingar tillhandahöll vi säker åtkomst till tidiga modellkontrollpunkter, utvalda utvärderingsresultat för att konkretisera de kapacitetsförbättringar vi ser, noll datalagring där det behövs och modeller med färre begränsningar. Till exempel testade organisationer inom cybersäkerhet och biosäkerhet modeller både med och utan säkerhetsåtgärder för att undersöka underliggande kapacitet. Flera andra organisationer fick direkt tillgång till tankekedjan för att kunna granska modellens resonemang. Denna ökade transparens gjorde det möjligt för bedömare att identifiera fall av sandbagging² eller manipulativt beteende som endast kunde upptäckas genom att läsa tankekedjan. Åtkomst tillhandahölls med säkerhetskontroller på plats, och vi fortsätter att uppdatera dessa kontroller i takt med att modellfunktionerna och testbehovet utvecklas.

Metodikgranskning

I vissa sammanhang är externa bedömare väl lämpade att utföra metodologiska granskningar och bidra med ytterligare perspektiv till de ramverk och bevis som pionjärlaboratorier förlitar sig på för att bedöma risker. Till exempel, under lanseringen av gpt-oss⁠ använde vi motståndarinriktad finjustering för att uppskatta värsta tänkbara kapacitet för öppna viktmodeller, vilket beskrivs i Uppskattning av värsta tänkbara gränsrisker för öppna vikt-LLM⁠. Den centrala säkerhetsfrågan var om en illvillig aktör skulle kunna finjustera modellen för att uppnå hög kapacitet inom områden som bio- eller cyberhot enligt vårt beredskapsramverk. Eftersom detta krävde resurskrävande motståndarinriktad finjustering bjöd vi in externa bedömare för att granska och ge rekommendationer om våra interna metoder och resultat, istället för att upprepa liknande arbete.

Detta innebar en flera veckor lång process där man delade med sig av utvärderingsresultat, detaljer om metoden för motståndarinriktad finjustering och samlade in strukturerade rekommendationer om hur man kunde förbättra metodiken och utvärderingarna för de värsta tänkbara gränsfallen. Feedback från bedömare ledde till förändringar i den slutliga motståndarinriktade finjusteringsprocessen och visade värdet av metodologisk bekräftelse. Vi noterade vilka punkter vi antog i dokumentet och systemkortet för gpt-oss, och vi angav skälen till varför vi inte antog vissa punkter.

Här var metodikgranskning det rätta valet snarare än oberoende utvärderingar: utvärderingarna innebar att man genomförde storskaliga experiment med värsta tänkbara scenarier, vilket kräver infrastruktur och teknisk expertis som vanligtvis inte finns tillgänglig utanför stora AI-laboratorier. Detta innebar att oberoende utvärderingar sannolikt inte skulle ha kunnat leda direkt till insikter om värsta tänkbara scenarier, och det var mer produktivt att fokusera externa utvärderare på att bekräfta påståendena. Externa bedömare granskade metoderna och bevisen⁠(öppnas i ett nytt fönster), och lyfte fram beslutsrelevanta luckor som åtgärdades som en del av rekommendationernas återkopplingsflöde. Vi hoppas kunna utvidga denna strategi till andra områden där tillgång eller infrastruktur gör det opraktiskt för en tredje part att direkt genomföra utvärderingar, eller där externa utvärderingar ännu inte finns.

Undersökning av ämnesexperter (SME)

Ett annat sätt att engagera externa experter är genom ämnesexpertundersökningar (SME), där experter utvärderar modellen direkt och ger strukturerade synpunkter via enkäter om vår bedömning av dess kapacitet. Detta skiljer sig från red teaming⁠, som syftar till att stresstesta specifika säkerhetsåtgärder. Detta gör det möjligt för oss att komplettera utvärderingarna av beredskapsramverket med domänspecifika insikter som återspeglar expertbedömningar och verkliga sammanhang som statiska utvärderingar ensamma kanske inte kan fånga upp. Vi bjöd till exempel in en panel av ämnesexperter att använda en hjälpsam modell³ för att testa sina egna bio-scenarier från början till slut för ChatGPT Agent och GPT‑5. De bedömde hur mycket modellen kunde hjälpa en expert som dem själva jämfört med en mindre erfaren nybörjare, baserat på hur användbar vägledningen var i deras scenarier. Målet var att samla in ytterligare information om hur väl systemet kunde hjälpa en motiverad nybörjare att komma närmare en kompetent utförande: SME-företag stresstestade våra påståenden om ”nybörjarförbättring” under realistiska arbetsflöden som de kommit fram till och gav detaljerad feedback om var modellen gav konkret hjälp på stegnivå jämfört med mindre hjälpsamma sammanfattningar. Denna expertundersökning ingick som en del av den övergripande utvärderingen för implementeringen av dessa modeller och delades i systemkort för båda lanseringarna.

Vad gör ett samarbete om tredjepartsbedömning framgångsrikt?

I en anda av transparens delar vi med oss av mer information om vad externa utvärderare samtycker till när de arbetar med oss och om de principer som styr vårt samarbete:

Transparens med noggranna sekretessgränser: Tredje part skriver på sekretessavtal för att aktivera delning av konfidentiell, icke-offentlig information för att ge stöd till sina bedömningar. I bilagan⁠ till det här inlägget inkluderar vi relevanta utdrag ur avtal med tredje parts bedömare som beskriver rättigheter kring publicering och förväntningar på granskning. Vi arbetar enligt principen om transparens och strävar efter att möjliggöra publicering som främjar förståelsen för säkerhet och relaterade utvärderingar utan att kompromissa med konfidentiell information eller immateriella rättigheter. Som en del av detta granskar och godkänner vi publikationer från tredjepartsbedömningar för att säkerställa både konfidentialitet och faktamässig korrekthet. Under de senaste åren har flera externa bedömare publicerat sina arbeten tillsammans med våra egna publikationer av bedömningssammanfattningar i systemkort. Några exempel på arbete som har publicerats efter att vi har granskat det för sekretess och noggrannhet inkluderar: [METR GPT‑5 report ⁠(öppnas i ett nytt fönster), Apollo Research report on OpenAI o1⁠(öppnas i ett nytt fönster), Irregular GPT‑5 Assessment⁠(öppnas i ett nytt fönster)]
Genomtänkt informationsutlämnande och säker, känslig åtkomst: Som standard tillhandahåller vi information och åtkomst till modeller som är avsedda att vara offentliga eller produktionsklara. När utvärderingarna kräver det ger vi djupare åtkomst, till exempel till modeller som endast är till hjälp eller icke-offentlig information. OpenAI har tillhandahållit dessa former av åtkomst när det varit nödvändigt för kritiska säkerhetsfrågor för tredjepartsutvärderare. Det är viktigt att notera att denna typ av känslig åtkomst kräver strikta säkerhetsåtgärder, och vi fortsätter att uppdatera dessa kontroller i takt med att modellernas kapacitet och testbehov utvecklas.
Balanserade finansiella incitament: Vi tror att det är viktigt att säkerställa att ekosystemet för bedömningar från tredje part är välfinansierat och hållbart. Därför erbjuder vi ersättning till alla våra externa bedömare, och vissa väljer att avböja beroende på sin organisations filosofi i frågan. Ersättningen kan bestå av direkt betalning för arbetet och/eller subventionering av modellkostnaderna genom API-krediter eller på annat sätt. Ingen betalning är någonsin beroende av resultatet av en tredjepartsutvärdering.

Tillsammans bidrar dessa faktorer till att tredjepartsutvärderingar både skyddar känslig information och främjar transparens inom AI-säkerhet, samt skapar möjligheter för tredjepartsbedömare att få ersättning för sin tid.

En blick in i framtiden

Framöver ser vi ett behov av att fortsätta stärka ekosystemet av organisationer som kan genomföra trovärdiga, beslutsrelevanta utvärderingar av banbrytande AI-system. En effektiv tredjepartsutvärdering kräver specialiserad expertis, stabil finansiering och metodologisk stringens. Fortsatta investeringar i kvalificerade bedömningsorganisationer, utveckling av mätvetenskap och säkerhet för känslig åtkomst kommer att vara avgörande för att säkerställa att bedömningarna kan hålla jämna steg med framstegen inom modellkapacitet.

Tredjepartsutvärderingar är ett sätt för oss att få in ett externt perspektiv i vårt säkerhetsarbete, och de fungerar parallellt med andra mekanismer. Vi samarbetar också med externa experter genom strukturerade red teaming-insatser, kollektiva projekt⁠, arbete med U.S. CAISI och UK AISI⁠, och rådgivande grupper som vårt Global Physician Network⁠ och vårt Expert Council on Well-Being and AI⁠ för att hjälpa till att vägleda vårt arbete med mental hälsa och användarvälbefinnande. Dessa insatser bidrar med olika former av expertis och stödjer en bredare och mer tillförlitlig grund för bedömning och styrning av avancerade AI-system.

Bilaga

Följande är illustrativa utdrag ur våra avtal med tredje parter som samarbetar med oss om utvärderingar före implementering.

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

2025

Författare

OpenAI

Fotnoter

1
Detta skiljer sig från red teaming, som syftar till att noggrant stresstesta skyddsåtgärder och tillhandahålla data för utveckling av utvärderingar.
2
När en modell avsiktligt underpresterar eller döljer sina verkliga förmågor när den upptäcker att den utvärderas eller testas.
3
Hjälpsamma modeller svarar på alla förfrågningar, även om förfrågan är skadlig. Dessa skapas av metoder för efterträning som uppnår detta beteende.

Fortsätt läsa

Visa alla

Safety and alignment in an era of long-horizon models

Säkerhet20 juli 2026

Why teens deserve access to safe AI

Säkerhet16 juli 2026

GPT-Red: Självförbättring för robusthet

Säkerhet15 juli 2026