19. november 2025

Styrke sikkerhetsøkosystemet vårt med ekstern testing

Vår tilnærming til tredjepartsvurderinger for grenseoverskridende KI.

Laster inn …

Hos OpenAI mener vi at uavhengige, pålitelige tredjepartsvurderinger spiller en avgjørende rolle i å styrke sikkerhetsøkosystemet til banebrytende KI. Tredjepartsvurderinger er evalueringer utført på avanserte modeller for å bekrefte eller gi ytterligere bevis til påstander om kritiske sikkerhetsegenskaper og tiltak. Disse evalueringene bidrar til å validere sikkerhetspåstander, beskytte mot blindsoner og øke åpenheten rundt kapasitet og risikoer. Ved å invitere eksterne eksperter til å teste våre banebrytende modeller, ønsker vi også å bygge tillit til dybden i våre kapabilitetsevalueringer og sikkerhetstiltak, og bidra til å styrke det bredere sikkerhetsøkosystemet.

Siden lanseringen av GPT‑4 har OpenAI samarbeidet med en rekke eksterne partnere for å teste og evaluere modellene våre. Generelt sett tar våre tredjepartssamarbeid tre former:

Uavhengige evalueringer av viktige grensekapasiteter og risikoområder som biosikkerhet, cybersikkerhet, KI-selvforbedring og planlegging
Metodegjennomganger som vurderer hvordan vi evaluerer og tolker risiko
Fagekspertsondering (SME), hvor eksperter evaluerer modellen direkte på reelle oppgaver og gir strukturerte inndata til vår vurdering av dens evner og tilhørende sikkerhetstiltak¹

Denne bloggen beskriver hvordan vi bruker hver av disse formene for ekstern vurdering, hvorfor de er viktige, hvordan de har formet beslutninger om implementering, og prinsippene vi bruker for å strukturere disse samarbeidene. I åpenhetens ånd deler vi også mer om konfidensialitets- og publiseringsvilkårene som regulerer samarbeidet vårt med tredjepartstestere.

Hvorfor er dette viktig?

Tredjepartsvurderingspersoner tilfører et uavhengig lag med evaluering ved siden av vårt interne arbeid, styrker grundigheten og gir ekstra beskyttelse mot selvbekreftelse. Deres tilbakemelding gir ytterligere bevis sammen med våre egne vurderinger, og hjelper til med å informere ansvarlige beslutninger om utrulling av kraftige systemer.

Vi ser også tredjepartsvurderinger som en del av å bygge et motstandsdyktig sikkerhetsøkosystem⁠. Våre team utfører omfattende intern testing på tvers av kapasitets- og risikoområder, men uavhengige organisasjoner gir ytterligere perspektiver og metodiske tilnærminger. Vi jobber for å støtte en mangfoldig gruppe kvalifiserte vurderingsorganisasjoner som regelmessig kan evaluere banebrytende modeller sammen med oss.

Til slutt ønsker vi å være åpne om hvordan denne tilbakemeldingen bidrar til å forme sikkerhetsprosessen vår. Vi offentliggjør jevnlig tredjepartsvurderinger—for eksempel ved å inkludere sammendrag av evalueringer før utrulling i systemkort, og ved å støtte vurderingsorganisasjoner i å publisere mer detaljert arbeid etter gjennomgang av konfidensialitet og nøyaktighet. Denne åpenheten bygger tillit ved å vise hvordan eksterne inndata former våre kapasitetsevalueringer og sikkerhetstiltak.

Vedvarende relasjoner bygget på pålitelig tilgang, åpenhet og kunnskapsdeling hjelper hele økosystemet med å ligge i forkant av nye risikoer og fremme tilpasningsdyktige, handlingsrettede vurderinger som er nødvendige for sterkere standarder og mer informert styring av banebrytende KI-systemer.

Uavhengige evalueringer utført av eksterne laboratorier

Fra og med lanseringen av GPT‑4⁠(åpnes i et nytt vindu) har vi støttet uavhengige evalueringer av tidlige modellkontrollpunkter før distribusjon. Siden den gang har vi utvidet arbeidet vårt med en rekke tredjepartsorganisasjoner som har inngående ekspertise i evalueringer av viktige områder innen grensekapasitet og risiko. Vi definerer uavhengig laboratoriearbeid som åpen testing der eksterne team bruker sine egne metoder for å utvikle en påstand eller vurdering knyttet til en spesifikk banebrytende kapasitet.

Som et eksempel koordinerte OpenAI for GPT‑5⁠ et bredt sett med eksterne kapasitetsvurderinger på tvers av viktige risikoområder som langsiktig autonomi, manipulering, bedrag og undergraving av tilsyn, gjennomførbarhet av våtlaboratorieplanlegging og offensive nettsikkerhetsevalueringer.

Disse uavhengige evalueringene supplerer evalueringene som er utført i samsvar med OpenAIs beredskapsrammeverk, og inkluderer referansepunkter som METR tidshorisontevaluering⁠(åpnes i et nytt vindu) eller SecureBios evaluering av Virology Capabilities Troubleshooting (VCT)⁠(åpnes i et nytt vindu).

For å støtte disse evalueringene har vi gitt sikker tilgang til tidlige modellsjekkpunkter, utvalgte evalueringsresultater for å konkretisere kapasitetsforbedringene vi ser, ingen oppbevaring av data der det trengs, og modeller med færre tiltak. For eksempel testet organisasjoner innen nettsikkerhets- og biosikkerhetsdomener modeller både med og uten sikkerhetstiltak for å undersøke underliggende kapasiteter. Flere andre organisasjoner fikk direkte tankerekke-tilgang for å aktivere inspeksjon av modellens resonneringsspor. Dette økte trinnet med åpenhet tillot vurderingspersoner å identifisere tilfeller av sandbagging² eller intrigant atferd som kanskje bare kan skjelnes ved å lese tankerekken. Tilgang ble gitt med sikkerhetskontroller på plass, og vi fortsetter å oppdatere disse kontrollene etter hvert som modellens evner og testbehov utvikler seg.

Metodegjennomgang

I visse kontekster er eksterne vurderingspersoner godt posisjonert til å gi en metodisk gjennomgang, og gir ytterligere perspektiver til rammeverkene og bevisene som avanserte laboratorier er avhengige av for å vurdere risiko. Under lanseringen av GPT‑oss⁠, brukte vi for eksempel kontradiktorisk finjustering for å estimere verste fall-egenskaper for åpne vektmodeller, beskrevet i Estimatere verste fall-grenserisikoer med åpen vekt-LLM-er⁠. Det sentrale sikkerhetsspørsmålet var om en ondsinnet aktør kunne finjustere modellen for å oppnå høy kapasitet innen områder som bio eller nett under vårt beredskapsrammeverk. Da dette krevde ressurskrevende finjustering av motstridende elementer, inviterte vi tredjepartsvurderingspersoner til å gjennomgå og gi anbefalinger om våre interne metoder og resultater i stedet for å gjenta lignende arbeid.

Dette innebar en prosess over flere uker med å dele evalueringsutrullinger, detaljer om tilnærmingen for kontradiktorisk finjustering, og samle inn strukturerte anbefalinger om forbedring av metodikken og evalueringene for de verste tilfellene av grenserisiko. Tilbakemeldinger fra vurderingspersonene førte til endringer i den endelige finjusteringsprosessen og viste verdien av metodologisk bekreftelse. Vi registrerte hvilke elementer vi tok i bruk i artikkelen og systemkortet for gpt-oss, og vi ga begrunnelser for de vi ikke tok i bruk.

Her var metodikkgjennomgang det riktige valget i stedet for uavhengige evalueringer: evalueringene innebar å gjennomføre storskala, verst tenkelige eksperimenter, noe som krever infrastruktur og teknisk ekspertise som ikke er vanlig tilgjengelig utenfor store KI-laboratorier. Dette betydde at uavhengige evalueringer sannsynligvis ikke ville ha kunnet gi direkte innsikt i verst tenkelige scenarioer, og det var mer produktivt å fokusere eksterne vurderingspersoner på å bekrefte påstandene. Eksterne vurderingspersoner gikk gjennom metodene og bevisene⁠(åpnes i et nytt vindu), og fremhevet beslutningsrelevante hull som ble adressert som en del av tilbakemeldingssløyfen for anbefalinger. Denne tilnærmingen håper vi å utvide til andre områder der tilgangs- eller infrastrukturbehov gjør det upraktisk for en tredjepart å kjøre evalueringer direkte, eller der eksterne evalueringer kanskje ennå ikke finnes.

Sondering av fageksperter (SME)

En annen måte vi engasjerer eksterne eksperter på, er ved å sondere fagområdespesialister (SME), der ekspertene evaluerer modellen direkte og gir strukturerte inndata via spørreundersøkelser til vår vurdering av modellens evner. Dette er forskjellig fra red teaming⁠, som har som mål å stressteste spesifikke sikkerhetstiltak. Dette gjør at vi kan supplere evalueringene av beredskapsrammeverket med domenespesifikke innsikter som gjenspeiler ekspertvurderinger og den virkelige konteksten, som statiske evalueringer alene kanskje ikke fanger opp. For eksempel inviterte vi et panel av fageksperter til å bruke en modell som kun er til hjelp³ for å teste sine egne ende-til-ende-bioscenarioer for ChatGPT Agent og GPT‑5. De vurderte hvor mye modellen kunne forbedre en ekspert som dem selv sammenlignet med en mindre erfaren nybegynner, basert på nytten av veiledningen den ga i deres scenarier. Målet var å samle inn ytterligere inndata om hvor godt systemet kunne bringe en motivert nybegynner vesentlig nærmere kompetent utførelse: Eksperter stresstestet våre påstander om «nybegynnerløft» under realistiske arbeidsflyter de selv utviklet, og ga detaljert tilbakemelding på hvor modellen ga materiell, trinnvis hjelp kontra mindre nyttige sammendrag. Denne ekspertsonderingen ble inkludert som en del av den samlede vurderingen for utplassering av disse modellene, og ble delt i systemkortene for begge lanseringene.

Hva gjør et samarbeid om tredjepartsvurdering vellykket?

I åpenhetens ånd deler vi mer om hva tredjepartsvurderingspersoner godtar når de jobber med oss, og prinsippene som styrer samarbeidet vårt:

Åpenhet med strenge konfidensialitetsgrenser: Tredjepartsvurderingspersoner signerer taushetsavtaler for å aktivere deling av konfidensiell, ikke-offentlig informasjon for å støtte deres vurderinger. I vedlegget⁠ til dette innlegget har vi inkludert relevante utdrag fra kontrakter med tredjepartsvurderingspersoner som beskriver rettigheter rundt publisering og forventninger til gjennomgang. Vi opererer med prinsippet om åpenhet og streber etter å aktivere publisering som fremmer forståelsen av sikkerhet og relaterte evalueringer uten å kompromittere konfidensiell informasjon eller immaterielle rettigheter. Som en del av dette gjennomgår og godkjenner vi publikasjoner fra tredjepartsvurderinger for å sikre både konfidensialitet og faktanøyaktighet. I løpet av de siste årene har flere tredjepartsvurderingspersoner publisert arbeidet sitt sammen med vår egen publisering av vurderingssammendrag i systemkort. Noen eksempler på arbeid som er publisert etter at vi har gjennomgått det for konfidensialitet og nøyaktighet inkluderer: [METR GPT‑5‑rapport ⁠(åpnes i et nytt vindu), Apollo forskningsrapport om OpenAI o1⁠(åpnes i et nytt vindu), Irregular GPT‑5‑vurdering⁠(åpnes i et nytt vindu)]
Gjennomtenkt frigivelse av informasjon og sikker, sensitiv tilgang: Som standard gir vi informasjon og tilgang til modeller som er ment å være offentlige eller klare for produksjon. Når evalueringene krever det, gir vi dypere tilgang, for eksempel til modeller som kun er nyttige eller til ikke-offentlig informasjon. OpenAI har gitt disse tilgangsformene der det er nødvendig for kritiske sikkerhetsspørsmål for tredjepartsvurderingspersoner. Det er viktig at denne typen sensitiv tilgang gis med strenge sikkerhetstiltak, og vi fortsetter å oppdatere disse kontrollene etter hvert som modellens kapasiteter og testbehov utvikler seg.
Balanserte økonomiske insentiver: Vi mener det er viktig å sikre at økosystemet for tredjepartsvurderinger er godt finansiert og bærekraftig. Derfor tilbyr vi kompensasjon til alle våre tredjepartsvurderingspersoner, og noen velger å takke nei avhengig av deres organisasjonsfilosofi rundt dette. Former for kompensasjon inkluderer direkte betaling for arbeid og/eller subsidiering av kostnader for modellbruk gjennom API-kreditter eller på annen måte. Ingen betaling er noensinne betinget av resultatene til en tredjepart.

Sammen hjelper disse faktorene tredjepartsvurderingene med å beskytte sensitiv informasjon, fremme åpenhet i KI-sikkerhet, og opprett muligheter for tredjepartsvurderingspersoner til å bli kompensert for tiden sin.

Fremtidsutsikter

Når vi ser fremover, ser vi et behov for å fortsette å styrke økosystemet av organisasjoner som er i stand til å gjennomføre troverdige, beslutningsrelevante vurderinger av grensesprengende KI-systemer. Effektiv tredjepartsevaluering krever spesialekspertise, stabil finansiering og metodisk nøyaktighet. Fortsatt investering i kvalifiserte vurderingsorganisasjoner, fremgang innen målevitenskap og sikkerhet for sensitiv tilgang vil være essensielt for å sikre at vurderingene kan holde tritt med fremskritt i modellkapasiteter.

Tredjepartsvurderinger er en måte vi bringer et eksternt perspektiv inn i sikkerhetsarbeidet vårt på, og de fungerer sammen med andre mekanismer. Vi samarbeider også med eksterne eksperter gjennom strukturerte «red teaming»-innsatser, kollektive tilpasningsprosjekter⁠, samarbeid med U.S. CAISI og UK AISI⁠, og rådgivende grupper som vårt globale legenettverk⁠ og vårt ekspertråd om velvære og KI⁠ for å veilede arbeidet vårt med mental helse og brukervelvære. Denne innsatsen bidrar med ulike former for ekspertise og gir støtte til et bredere og mer pålitelig grunnlag for å vurdere og styre avanserte KI-systemer.

Vedlegg

Følgende er illustrative utdrag fra våre avtaler med tredjepart som samarbeider med oss om vurderinger før utrulling.

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

2025

Forfatter

OpenAI

Fotnoter

1
Dette skiller seg fra red teaming, som har til hensikt å stressteste sikkerhetstiltak på detaljnivå og gi data for utvikling av evaluering.
2
Der en modell bevisst underpresterer eller skjuler sine sanne evner når den oppdager at den blir evaluert eller testet.
3
Hjelpsomme modeller svarer på alle forespørsler, selv om forespørselen er skadelig. Disse opprettes ved hjelp av etteropplæringsmetoder som oppnår denne atferden.

Les videre

Se alle

Safety and alignment in an era of long-horizon models

Sikkerhet20. juli 2026

Why teens deserve access to safe AI — card image

Hvorfor tenåringer fortjener tilgang til trygg KI

Sikkerhet16. juli 2026

GPT-Red: Låser opp selvforbedring for robusthet

Sikkerhet15. juli 2026