Overslaan naar hoofdinhoud
OpenAI

19 november 2025

Veiligheid

Versterken van ons veiligheidsecosysteem met externe testen

Onze richtlijn voor beoordelingen door derde partijen voor grensverleggende AI.

Bezig met laden...

Bij OpenAI geloven we dat onafhankelijke, betrouwbare beoordelingen door vertrouwde derde partijen een cruciale rol spelen in het versterken van het veiligheidsecosysteem van grensverleggende AI. Beoordelingen door derde partijen zijn evaluaties die worden uitgevoerd op grensverleggende modellen om beweringen over cruciale veiligheidscapaciteiten en mitigaties te bevestigen of aanvullend bewijs te leveren. Deze evaluaties helpen om veiligheidsclaims te valideren, beschermen tegen blinde vlekken en vergroten de transparantie over capaciteiten en risico's. Door externe experts uit te nodigen om onze grensverleggende modellen te testen, willen we ook het vertrouwen in de grondigheid van onze capaciteitsevaluaties en veiligheidsmaatregelen bevorderen en het bredere veiligheidsecosysteem helpen verbeteren.

Sinds de lancering van GPT‑4 werkt OpenAI samen met verschillende externe partners om onze modellen te testen en beoordelen. Globaal kennen wij drie vormen van samenwerking met derde partijen:

  • Onafhankelijke evaluaties van belangrijke grensverleggende capaciteiten en risicogebieden zoals bioveiligheid, cyberbeveiliging, AI-zelfverbetering en misleiding
  • Methodologiebeoordelingen die beoordelen hoe we risico's inschatten en interpreteren
  • Onderzoek door Subject-matter experts (SME), waarbij vakexperts het model direct evalueren op SME-taken in de echte wereld en een gestructureerde bijdrage leveren aan onze beoordeling van de capaciteiten en bijbehorende waarborgen1

In deze blog leggen we uit hoe we elk van deze vormen van externe beoordeling gebruiken, waarom ze belangrijk zijn, hoe ze de beslissingen over implementatie hebben beïnvloed, en welke principes we hanteren om deze samenwerkingen te structureren. In het kader van transparantie delen we ook meer over de vertrouwelijkheid en publicatievoorwaarden die gelden voor onze samenwerking met derde partij-beoordelaars. 

Waarom is dit belangrijk? 

Derde partij-beoordelaars voegen een onafhankelijke evaluatielaag toe naast ons interne werk, waardoor de striktheid wordt versterkt en er extra bescherming wordt geboden tegen zelfbevestiging. Hun invoer levert aanvullend bewijs naast onze eigen beoordelingen en helpt bij het nemen van verantwoorde beslissingen over de inzet van krachtige systemen.

We zien beoordelingen door derde partijen ook als onderdeel van het opbouwen van een veerkrachtig veiligheidsecosysteem. Onze teams voeren uitgebreide interne tests uit op verschillende capaciteiten en risicogebieden, maar onafhankelijke organisaties bieden extra perspectieven en methodologische benaderingen. We werken aan de ondersteuning van een diverse groep gekwalificeerde beoordelingsorganisaties die samen met ons regelmatig grensverleggende modellen kunnen evalueren.

Tot slot willen we transparant zijn over hoe deze bijdrage ons veiligheidsproces vormgeeft. We maken beoordelingen door derde partijen regelmatig openbaar — bijvoorbeeld door voorafgaand aan de implementatie samenvattingen van evaluaties op te nemen in systeemkaarten en door beoordelende organisaties te ondersteunen bij het publiceren van meer gedetailleerd werk na een vertrouwelijkheids- en nauwkeurigheidsbeoordeling. Deze transparantie schept vertrouwen door te laten zien hoe externe bijdrage onze capaciteitsevaluaties en veiligheidsmaatregelen vormgeeft. 

Duurzame relaties gebaseerd op betrouwbare toegang, transparantie en kennisdeling helpen het hele ecosysteem voorop te blijven lopen bij opkomende risico's en bevorderen aanpasbare, uitvoerbare beoordelingen die nodig zijn voor sterkere standaarden en beter geïnformeerd bestuur voor grensverleggende AI-systemen.

Onafhankelijke evaluaties door externe laboratoria

Vanaf de lancering van GPT‑4(opent in een nieuw venster) hebben we onafhankelijke evaluaties ondersteund van vroege modelcontrolepunten voorafgaand aan de implementatie. Sinds die tijd hebben we ons werk uitgebreid met verschillende derde partijen die veel expertise hebben in evaluaties voor belangrijke grensverleggende capaciteiten en risicogebieden. We beschouwen onafhankelijk labwerk als open testen waarbij externe teams hun eigen methoden toepassen om tot een claim of beoordeling te komen met betrekking tot een specifieke grensverleggende capaciteit. 

Als voorbeeld coördineerde OpenAI voor GPT‑5 een breed scala aan externe capaciteitsbeoordelingen op belangrijke risicogebieden zoals autonomie op lange termijn, bedrog, misleiding en ondermijning van toezicht, haalbaarheid van experimentele planning en evaluaties van offensieve cyberbeveiliging.  

Deze onafhankelijke evaluaties vullen de evaluaties aan die worden uitgevoerd volgens het Preparedness Framework van OpenAI en omvatten benchmarks zoals de tijdshorizonevaluatie(opent in een nieuw venster) van METR, of SecureBio's Virology Capabilities Troubleshooting (VCT)(opent in een nieuw venster)-evaluatie. 

Om deze evaluaties te ondersteunen, bieden we veilige toegang tot vroege modelcontrolepunten, geselecteerde evaluatieresultaten om de waargenomen verbeteringen in capaciteit te concretiseren, geen-gegevensbewaring waar nodig, en modellen met minder mitigaties. Bijvoorbeeld, organisaties die testen in cyberbeveiligings- en bioveiligheidsdomeinen hebben modellen met en zonder veiligheidsmaatregelen getest om de onderliggende capaciteiten te onderzoeken. Verschillende andere organisaties kregen directe toegang tot de Chain-of-Thought, zodat ze de redeneerpaden van het model konden inspecteren. Dankzij deze stap van verhoogde transparantie konden beoordelaars gevallen van sandbagging 2 of misleidend gedrag identificeren die mogelijk alleen te onderscheiden waren door de Chain-of-Thought te lezen. Er werd toegang verleend met beveiligingsmaatregelen, en we blijven deze maatregelen bijwerken naarmate de capaciteiten van het model en de testbehoeften evolueren.

Methodologiebeoordeling

In bepaalde contexten kunnen externe beoordelaars uitstekend methodologische beoordelingen uitvoeren en extra perspectieven bieden op de kaders en het bewijsmateriaal waarop frontier labs vertrouwen om risico's te beoordelen. Bijvoorbeeld, tijdens de lancering van gpt-oss hebben we gebruik gemaakt van contradictoire fijnafstemming om de capaciteiten van open-weight modellen in het meest ongunstige scenario in te schatten, zoals beschreven in Schatting van de ergste grensrisico's van open-weight LLMs. De belangrijkste veiligheidsvraag was of een kwaadwillende partij het model kon fijnafstemmen om een hoge capaciteit te bereiken op gebieden zoals bio of cyber binnen ons Preparedness Framework. Omdat dit een arbeidsintensieve, contradictoire fijnafstemming vereiste, hebben we derde partij-beoordelaars uitgenodigd om onze interne methoden en resultaten te beoordelen en aanbevelingen te doen, in plaats van soortgelijk werk te herhalen.

Dit hield een proces van meerdere weken in waarin evaluatietoepassingen werden gedeeld, details over de aanpak voor tegengestelde fijnafstemming en het verzamelen van gestructureerde aanbevelingen over het verbeteren van de methodologie en evaluaties voor de ergste grensrisico's. Feedback van de beoordelaars leidde tot veranderingen in het uiteindelijke contradictoir fijnafstemmingsproces en toonde de waarde van methodologische bevestiging aan. We hebben vastgelegd welke items we hebben overgenomen in het document en de systeemkaart voor gpt-oss, en we hebben redenen aangegeven waarom we bepaalde items niet hebben overgenomen.

Hier was een methodologiebeoordeling in plaats van onafhankelijke evaluaties de juiste keuze: de evaluaties omvatten het uitvoeren van grootschalige experimenten bij het meest ongunstige scenario, waarvoor infrastructuur en technische expertise nodig zijn die buiten de grote AI-labs doorgaans niet beschikbaar zijn. Dit betekende dat onafhankelijke evaluaties waarschijnlijk niet direct tot inzichten in het meest ongunstige scenario hadden kunnen leiden, en dat het productiever was om externe beoordelaars in te zetten voor het bevestigen van de claims. Externe beoordelaars hebben de methoden en het bewijsmateriaal bekeken(opent in een nieuw venster), waarbij ze de voor de besluitvorming relevante hiaten markeerden die werden genoemd als onderdeel van de aanbevelingen in de feedback. Deze aanpak willen we uitbreiden naar andere gebieden waar toegang of infrastructuurbehoeften het voor een derde partij onpraktisch maken om zelf evaluaties uit te voeren, of waar externe evaluaties mogelijk nog niet bestaan. 

Onderzoek door Subject-matter experts (SME)

Een andere manier waarop we externe experts betrekken is via onderzoek door Subject-matter experts (SME), waarbij deskundigen het model direct evalueren en via enquêtes een gestructureerde bijdrage leveren voor onze beoordeling van de capaciteiten. Dit verschilt van red teaming, dat tot doel heeft specifieke veiligheidsmaatregelen onder spanning te testen. Hiermee kunnen we evaluaties van het Preparedness Framework aanvullen met domeinspecifieke inzichten die het oordeel van deskundigen en de context van de echte wereld weerspiegelen, iets wat statische evaluaties alleen niet kunnen vastleggen. Bijvoorbeeld, we hebben een panel van vakdeskundigen uitgenodigd om een helpful-only model3 te gebruiken om hun eigen end-to-end bioscenario's voor ChatGPT Agent en GPT‑5 uit te proberen. Ze beoordeelden in hoeverre het model een deskundige zoals zijzelf kon verbeteren in vergelijking met een minder ervaren beginner, op basis van de bruikbaarheid van de begeleiding die het bood in hun scenario's.  Het doel was om extra informatie te verzamelen over hoe goed het systeem een gemotiveerde beginner materieel dichter bij competente uitvoering kon brengen: SME's testten onze 'beginnersverbetering'-claims onder realistische workflows die ze zelf hadden opgesteld en gaven gedetailleerde feedback over waar het model materiële, stapsgewijze hulp bood versus minder nuttige samenvattingen. Deze deskundige onderzoeksactiviteit werd opgenomen als onderdeel van de algemene beoordeling voor de toepassing van deze modellen en werd gedeeld in systeemkaarten voor beide lanceringen. 

Wat maakt een samenwerking met een derde partij voor beoordelingen succesvol?

In het kader van transparantie delen we meer over waar derde partijen akkoord mee gaan wanneer ze met ons samenwerken, en de principes die onze samenwerkingen leiden:

  • Transparantie met strikte vertrouwelijkheidsgrenzen: Derde partij-beoordelaars ondertekenen geheimhoudingsverklaringen om het delen van vertrouwelijke, niet-openbare informatie mogelijk te maken ter ondersteuning van hun beoordelingen. In de Bijlage bij dit artikel hebben we relevante fragmenten uit contracten met derde partij-beoordelaars opgenomen, waarin de rechten rondom publicatie en de verwachtingen voor beoordeling worden beschreven. We werken volgens het principe van transparantie en streven ernaar publicaties mogelijk te maken die het begrip van veiligheid en gerelateerde evaluaties bevorderen zonder vertrouwelijke informatie of intellectueel eigendom in gevaar te brengen. Als onderdeel hiervan bekijken en autoriseren we publicaties van derde partij-beoordelingen om zowel vertrouwelijkheid als feitelijke juistheid te waarborgen. In de afgelopen jaren hebben, naast onze eigen publicatie met beoordelingssamenvattingen in systeemkaarten, verschillende derde partij-beoordelaars hun werk gepubliceerd. Enkele voorbeelden van werk dat is gepubliceerd nadat we het op vertrouwelijkheid en nauwkeurigheid hebben gecontroleerd, zijn: [METR GPT‑5 report (opent in een nieuw venster), Apollo Research report over OpenAI o1(opent in een nieuw venster), Irregular GPT‑5 Assessment(opent in een nieuw venster)
  • Weloverwogen openbaarmaking van informatie en veilige, gevoelige toegang: we bieden standaard informatie en toegang tot modellen die bedoeld zijn om openbaar te zijn of die klaar zijn voor productie. Wanneer het nodig is voor de evaluaties, geven we diepere toegang, zoals tot helpful-only modellen of niet-openbare informatie. OpenAI heeft deze vormen van toegang verstrekt waar nodig bij cruciale veiligheidsvragen voor derde partij-beoordelaars. Het is belangrijk te beseffen dat dit soort gevoelige toegang strikte beveiligingsmaatregelen vereist en we blijven die controles bijwerken naarmate de capaciteiten van modellen en de testbehoeften evolueren.
  • Evenwichtige financiële stimulansen: Wij vinden het belangrijk dat het ecosysteem voor derde partij-beoordelingen goed gefinancierd en duurzaam is. Daarom bieden we al onze derde partij-beoordelaars een vergoeding aan, en sommigen kiezen ervoor om deze af te wijzen, afhankelijk van hun organisatiefilosofie. Compensatievormen omvatten directe betaling voor werk en/of het subsidiëren van kosten voor modelgebruik via API-credits of anderszins. Geen enkele betaling is ooit afhankelijk van de resultaten van een derde partij-beoordeling.

Gezamenlijk helpen deze factoren ervoor te zorgen dat derde partijen-beoordelingen zowel vertrouwelijke informatie beschermen als transparantie in AI-veiligheid bevorderen, en maken ze het mogelijk dat derde partij-beoordelaars voor hun tijd te worden gecompenseerd. 

Vooruitzicht

Vooruitkijkend zien we de noodzaak voor versterking van het ecosysteem van organisaties die in staat zijn geloofwaardige en beslissingsrelevante beoordelingen van grensverleggende AI-systemen uit te voeren. Effectieve evaluatie door een derde partij vereist gespecialiseerde expertise, stabiele financiering en methodologische striktheid. Doorgaan met investeringen in gekwalificeerde beoordelingsorganisaties, de vooruitgang van de meettechnieken en beveiliging voor toegang tot gevoelige gegevens is essentieel om ervoor te zorgen dat beoordelingen gelijke tred kunnen houden met de vooruitgang in modelcapaciteiten. 

Beoordelingen door derde partijen zijn een manier waarop we extern perspectief in ons veiligheidswerk brengen, en ze functioneren naast andere mechanismen. We werken ook samen met externe experts via gestructureerde red teaming-inspanningen, collectieve afstemmingsprojecten, werken samen met de U.S. CAISI en UK AISI, en adviesgroepen, zoals ons wereldwijde netwerk van artsen en onze Deskundigenraad voor welzijn en AI om ons werk op het gebied van geestelijke gezondheid en het welzijn van gebruikers te ondersteunen. Deze inspanningen dragen bij aan verschillende vormen van expertise en bieden ondersteuning aan een bredere, betrouwbaardere basis voor het beoordelen en beheren van geavanceerde AI-systemen.

Bijlage

Hieronder volgen illustratieve uittreksels uit onze overeenkomsten met derde partijen die met ons samenwerken aan beoordelingen voorafgaand aan de implementatie. 

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

Auteur

OpenAI

Voetnoten

  1. 1

    Dit verschilt van red teaming, dat bedoeld is om beveiligingen gedetailleerd te testen en gegevens te leveren voor de ontwikkeling van evaluaties.

  2. 2

    Wanneer een model opzettelijk onderpresteert of zijn ware capaciteiten verbergt wanneer het merkt dat het wordt geëvalueerd of getest.

  3. 3

    Helpful-only modellen beantwoorden elk verzoek, zelfs als het verzoek schadelijk is. Deze worden gemaakt door post-trainingsmethoden die dit gedrag bereiken.