Gå til hovedindhold
OpenAI

19. november 2025

Sikkerhed

Styrkelse af vores sikkerhedsøkosystem med ekstern test

Vores tilgang til tredjepartsvurderinger af banebrydende AI.

Indlæser ...

Hos OpenAI mener vi, at uafhængige og betroede tredjepartsvurderinger spiller en afgørende rolle i at styrke sikkerhedsøkosystemet for avanceret AI. Tredjepartsvurderinger er evalueringer udført på avancerede modeller for at bekræfte eller give yderligere beviser for påstande om kritiske sikkerhedsfunktioner og afbødninger. Disse evalueringer hjælper med at validere sikkerhedspåstande, beskytte mod blinde vinkler og øge gennemsigtigheden omkring kapaciteter og risici. Ved at invitere eksterne eksperter til at teste vores banebrydende modeller sigter vi også mod at opbygge tillid til dybden af vores kapabilitetsevalueringer og sikkerhedsforanstaltninger og bidrage til at styrke det bredere sikkerhedsøkosystem.

Siden lanceringen af GPT‑4 har OpenAI samarbejdet med en række eksterne partnere for at teste og evaluere vores modeller. Vores samarbejder med tredjeparter tager overordnet set tre former:

  • Uafhængige evalueringer af centrale kapaciteter og risikoområder som biosikkerhed, cybersikkerhed, AI-selvforbedring og intriger.
  • Metodologiske gennemgange, der vurderer, hvordan vi evaluerer og fortolker risiko
  • Undersøgelse af fageksperter (SMV), hvor eksperter evaluerer modellen direkte på virkelige SMV-opgaver og leverer struktureret input til vores vurdering af dens kapaciteter og tilknyttede sikkerhedsforanstaltninger1

Denne blog beskriver, hvordan vi bruger hver af disse former for ekstern evaluering, hvorfor de er vigtige, hvordan de har formet implementeringsbeslutninger, og de principper, vi bruger til at strukturere disse samarbejder. I gennemsigtighedens ånd deler vi også mere om de fortroligheds- og publiceringsvilkår, der regulerer vores samarbejde med tredjepartstestere. 

Hvorfor er det vigtigt? 

Tredjepartsvurderinger tilføjer et uafhængigt lag af evaluering ved siden af vores interne arbejde, hvilket styrker grundigheden og giver ekstra beskyttelse mod selvbekræftelse. Deres input giver yderligere beviser sammen med vores egne vurderinger, hvilket hjælper med at træffe ansvarlige beslutninger om implementering af kraftfulde systemer.

Vi ser også tredjepartsvurderinger som en del af opbygningen af et robust sikkerhedsøkosystem. Vores hold udfører omfattende intern testning på tværs af kapacitets- og risikoområder, men uafhængige organisationer bringer yderligere perspektiver og metodiske tilgange. Vi arbejder på at sikre understøttelse af en mangfoldig gruppe af kvalificerede vurderingspersoner, der regelmæssigt kan evaluere banebrydende modeller sammen med os.

Endelig sigter vi mod at være gennemsigtige om, hvordan dette input hjælper med at forme vores sikkerhedsproces. Vi offentliggør regelmæssigt tredjepartsvurderinger – for eksempel ved at inkludere resuméer af evalueringer før implementering i systemkort og støtte vurderingsorganisationer i at offentliggøre mere detaljeret arbejde efter en gennemgang af fortrolighed og nøjagtighed. Denne gennemsigtighed skaber tillid ved at vise, hvordan ekstern input former vores kapabilitetsvurderinger og sikkerhedsforanstaltninger. 

Vedvarende relationer bygget på pålidelig adgang, gennemsigtighed og vidensdeling hjælper hele økosystemet med at være på forkant med nye risici og fremmer fleksible, handlingsrettede vurderinger, der er nødvendige for stærkere standarder og mere informeret styring af førende AI-systemer.

Uafhængige evalueringer af eksterne laboratorier

Fra og med lanceringen af GPT‑4(åbner i et nyt vindue) har vi støttet uafhængige evalueringer af tidlige modelkontrolpunkter før implementering. Siden da har vi udvidet vores samarbejde med en række tredjepartsorganisationer, der har stor ekspertise inden for evalueringer af centrale grænsekapaciteter og risikoområder. Vi betragter uafhængigt laboratoriearbejde som åbne test, hvor eksterne teams anvender deres egne metoder til at fremsætte en påstand eller vurdering vedrørende en bestemt banebrydende kapacitet. 

Som et eksempel koordinerede OpenAI for GPT‑5 et bredt sæt af eksterne kapacitetsvurderinger på tværs af centrale risikoområder som autonomi med lang tidshorisont, manipulation, bedrag og undergravning af tilsyn, gennemførlighed af planlægning i vådlaboratorier og offensive cybersikkerhedsevalueringer.  

Disse uafhængige evalueringer supplerer de evalueringer, der udføres i overensstemmelse med OpenAI's Preparedness Framework, og inkluderer benchmarks såsom METR's tidshorisontevaluering(åbner i et nyt vindue) eller SecureBios Virology Capabilities Troubleshooting (VCT)(åbner i et nyt vindue) evaluering. 

For at understøtte disse evalueringer har vi leveret sikker adgang til tidlige modelkontrolpunkter, udvalgte evalueringsresultater for at konkretisere de kapacitetsforbedringer, vi ser, nul datalagring, hvor det var nødvendigt, og modeller med færre afhjælpningsforanstaltninger. For eksempel testede organisationer inden for cybersikkerheds- og biosikkerhedsdomæner modeller både med og uden sikkerhedsforanstaltninger for at undersøge underliggende kapaciteter. Flere andre organisationer fik direkte adgang til tankegangen, så de kunne inspicere modellens argumenteringsspor. Dette øgede gennemsigtighedstrin gjorde det muligt for vurderingspersoner at identificere tilfælde af sandbagging2 eller manipulerende adfærd, som måske kun kunne ses ved at læse tankekæden. Adgangen blev givet med sikkerhedskontrol på plads, og vi fortsætter med at opdatere denne kontrol i takt med, at modelkapaciteterne og testbehovene udvikler sig.

Gennemgang af metode

I visse kontekster er eksterne vurderingspersoner godt placeret til at udføre metodologisk gennemgang, hvilket giver yderligere perspektiver til de rammer og beviser, som frontlinjelaboratorier er afhængige af til at vurdere risiko. For eksempel brugte vi under lanceringen af gpt-oss kontradiktorisk finjustering til at estimere worst-case-kapaciteter for åbne vægtmodeller, beskrevet i Estimering af værst tænkelige frontier-risici ved LLM'er med åben vægt. Det centrale sikkerhedsspørgsmål var, om en ondsindet aktør kunne finjustere modellen til at opnå høj kapabilitet inden for områder som bio eller cyber under vores beredskabsramme. Da dette krævede ressourcekrævende modstridende finjustering, inviterede vi tredjepartsvurderingspersoner til at gennemgå og komme med anbefalinger til vores interne metoder og resultater i stedet for at gentage lignende arbejde.

Dette indebar en flere uger lang proces med udveksling af evalueringsresultater, detaljer om tilgangen til kontradiktorisk finjustering og indsamling af strukturerede anbefalinger om forbedring af metodologien og evalueringerne for de værst tænkelige risici. Feedback fra vurderingspersoner førte til ændringer i den endelige modstridende finjusteringsproces og demonstrerede værdien af metodologisk bekræftelse. Vi registrerede, hvilke elementer vi tog med i artiklen og systemkortet for gpt-oss, og vi gav begrundelser for dem, vi ikke tog med.

Her var en metodegennemgang det rette valg frem for uafhængige evalueringer: Evalueringerne involverede udførelse af storstilede, worst-case-eksperimenter, hvilket kræver infrastruktur og teknisk ekspertise, der ikke er almindeligt tilgængelig uden for større AI-laboratorier. Dette betød, at uafhængige evalueringer sandsynligvis ikke ville have kunnet føre direkte til indsigt i værst tænkelige scenarier, og det var mere produktivt at fokusere eksterne vurderingspersoner på at bekræfte påstandene. Eksterne vurderingspersoner gennemgik metoderne og beviserne(åbner i et nyt vindue) og fremhævede beslutningsrelevante huller, som blev adresseret som en del af feedback-loopet for anbefalinger. Denne tilgang håber vi at udvide til andre områder, hvor adgangs- eller infrastrukturbehov gør det upraktisk for en tredjepart at udføre evalueringer direkte, eller hvor eksterne evalueringer endnu ikke findes. 

Undersøgelse af emnet som ekspert (SME)

En anden måde, hvorpå vi inddrager eksterne eksperter, er gennem faglige eksperter (SME), hvor eksperter vurderer modellen direkte og giver struktureret input via undersøgelser til vores vurdering af dens muligheder. Dette er forskelligt fra red teaming, som har til formål at stressteste specifikke sikkerhedsforanstaltninger. Dette giver os mulighed for at supplere vurderingerne af beredskabsrammen med domænespecifik indsigt, der afspejler ekspertvurderinger og den virkelige kontekst, som statiske vurderinger alene ikke nødvendigvis kan fange. For eksempel inviterede vi et panel af fageksperter til at bruge en nyttig model3 til at afprøve deres egne end-to-end-bioscenarier for ChatGPT Agent og GPT‑5. De vurderede, hvor meget modellen kunne forbedre en ekspert som dem selv sammenlignet med en mindre erfaren nybegynder, baseret på nytten af den vejledning, den gav i deres scenarier.  Målet var at indsamle yderligere input om, hvor godt systemet kunne bringe en motiveret nybegynder væsentligt tættere på kompetent udførelse: SME'er stresstestede vores påstande om "nybegynderløft" under realistiske arbejdsgange, som de selv havde udtænkt, og gav detaljeret feedback om, hvor modellen gav væsentlig hjælp på trin-niveau i modsætning til mindre nyttige resuméer. Denne ekspertundersøgelse blev inkluderet som en del af den samlede vurdering af implementeringen af disse modeller og delt i systemkort for begge lanceringer. 

Hvad gør et samarbejde om tredjepartsvurderinger succesfuldt?

I gennemsigtighedens ånd deler vi mere om, hvad tredjepartsvurderingspersoner accepterer, når de arbejder med os, og de principper, der guider vores samarbejder:

  • Gennemsigtighed med omhyggelige fortrolighedsgrænser: Tredjepartsvurderingsmedarbejdere underskriver fortrolighedsaftaler for at muliggøre deling af fortrolige, ikke-offentlige oplysninger til støtte for deres vurderinger. I bilaget til dette indlæg inkluderer vi relevante uddrag fra kontrakter med tredjepartsvurderingspersoner, der beskriver rettigheder omkring offentliggørelse og forventninger til gennemgang. Vi arbejder ud fra princippet om gennemsigtighed og stræber efter at aktivere offentliggørelse, der fremmer forståelsen af sikkerhed og relaterede evalueringer uden at kompromittere fortrolige oplysninger eller intellektuel ejendom. Som en del af dette gennemgår og godkender vi publikationer fra tredjepartsvurderinger for at sikre både fortrolighed og faktuel nøjagtighed. I løbet af de seneste par år har flere tredjepartsvurderingspersoner offentliggjort deres arbejde sammen med vores egen udgivelse af vurderingsresuméer i systemkort. Nogle eksempler på arbejde, der er blevet offentliggjort, efter vi har gennemgået det for fortrolighed og nøjagtighed, inkluderer: [METR GPT‑5‑rapport (åbner i et nyt vindue), Apollo Research-rapport om OpenAI o1(åbner i et nyt vindue), Irregular GPT‑5‑vurdering(åbner i et nyt vindue)
  • Omhyggelig offentliggørelse af oplysninger og sikker, følsom adgang: Som standard leverer vi oplysninger og adgang til modeller, der er beregnet til at være offentlige eller klar til produktion. Når evalueringerne nødvendiggør det, giver vi dybere adgang, såsom til modeller, der kun er nyttige, eller til ikke-offentlig information. OpenAI har givet disse former for adgang, hvor det er nødvendigt for kritiske sikkerhedsspørgsmål til tredjepartsvurderingspersoner. Det er vigtigt, at disse typer af følsom adgang kræver strenge sikkerhedsforanstaltninger, og vi fortsætter med at opdatere disse kontroller, efterhånden som modelkapaciteter og testbehov udvikler sig.
  • Afbalancerede økonomiske incitamenter: Vi mener, det er vigtigt at sikre, at økosystemet for tredjepartsvurderinger er velfinansieret og bæredygtigt. Derfor tilbyder vi kompensation til alle vores tredjepartsvurderingsmedarbejdere, og nogle vælger at afslå afhængigt af deres organisatoriske filosofi omkring dette. Kompensationsformer omfatter direkte betaling for arbejde og/eller subsidiering af modelbrugsomkostninger gennem API-kreditter eller på anden måde. Ingen betaling er nogensinde afhængig af resultaterne af en tredjepartsvurdering.

Tilsammen hjælper disse faktorer tredjepartsvurderinger med både at beskytte følsomme oplysninger og fremme gennemsigtighed inden for AI-sikkerhed samt skabe muligheder for, at tredjepartsvurderingspersoner kan blive kompenseret for deres tid. 

Fremadrettet

Fremadrettet ser vi et behov for fortsat at styrke økosystemet af organisationer, der er i stand til at foretage troværdige, beslutningsrelevante vurderinger af banebrydende AI-systemer. Effektiv tredjepartsevaluering kræver specialiseret ekspertise, stabil finansiering og metodologisk stringens. Fortsatte investeringer i kvalificerede vurderingsorganisationer, fremskridt inden for målevidenskab og sikkerhed for følsom adgang vil være afgørende for at sikre, at vurderingerne kan følge med udviklingen inden for modelkapaciteter. 

Tredjepartsvurderinger er en måde, hvorpå vi bringer eksterne perspektiver ind i vores sikkerhedsarbejde, og de fungerer sammen med andre mekanismer. Vi samarbejder også med eksterne eksperter gennem strukturerede red teaming-indsatser, kollektive tilpasningsprojekter, vi arbejder med U.S. CAISI og UK AISI samt rådgivningsgrupper som vores Global Physician Network og vores Expert Council on Well-Being and AI for at hjælpe med at vejlede vores arbejde med mental sundhed og brugernes trivsel. Disse indsatser bidrager med forskellige former for ekspertise og udgør en bredere og mere pålidelig understøttelse af et grundlag for vurdering og styring af avancerede AI-systemer.

Appendiks

Følgende er illustrative uddrag fra vores aftaler med tredjeparter, der samarbejder med os om vurderinger før implementering. 

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

Skrevet af

OpenAI

Fodnoter

  1. 1

    Dette adskiller sig fra red teaming, som har til hensigt at udføre detaljerede stresstests af sikkerhedsforanstaltninger og levere data til udvikling af evalueringer.

  2. 2

    Hvor en model bevidst underpræsterer eller skjuler sine sande evner, når den opdager, at den bliver evalueret eller testet.

  3. 3

    Modeller, der kun er hjælpsomme, besvarer enhver anmodning, selv hvis den er skadelig. Disse skabes ved hjælp af eftertræningsmetoder, der opnår denne adfærd.