Het versterken van cyberweerbaarheid naarmate AI-capaciteiten zich ontwikkelen
Naarmate onze modellen capabeler worden op het gebied van cybersecurity, investeren we in het versterken ervan, het toevoegen van extra waarborgen en het samenwerken met beveiligingsexperts wereldwijd.
Cybercapaciteiten in AI-modellen ontwikkelen zich snel, wat aanzienlijke voordelen oplevert voor cyberverdediging, maar ook nieuwe dual-use-risico's met zich meebrengt die zorgvuldig moeten worden beheerd. Zo zijn de scores op capture-the-flag-uitdagingen (CTF) gestegen van 27% op GPT‑5(opent in een nieuw venster) in augustus 2025 naar 76% op GPT‑5.1‑Codex‑Max(opent in een nieuw venster) in november 2025.
We verwachten dat de komende AI-modellen deze koers zullen blijven aanhouden; ter voorbereiding plannen en evalueren we alsof elk nieuw model het niveau 'High' van cyberbeveiligingscapaciteit zou kunnen bereiken, zoals gemeten door ons Preparedness Framework(opent in een nieuw venster). Hiermee bedoelen we modellen die werkende zero-day-exploits op afstand kunnen ontwikkelen tegen goed verdedigde systemen, of die complexe, heimelijke aanvallen op enterprise- of industriële omgevingen kunnen ondersteunen, met reële impact als doel. Deze post legt uit hoe we nadenken over beschermingsmaatregelen voor modellen die deze capaciteitsniveaus bereiken, en hoe we ervoor zorgen dat ze verdedigers daadwerkelijk helpen terwijl misbruik wordt beperkt.
Naarmate deze mogelijkheden zich verder ontwikkelen, investeert OpenAI in het versterken van onze modellen voor defensieve cybersecuritytaken en in het creëren van tools waarmee beveiligers eenvoudiger workflows kunnen uitvoeren, zoals code auditen en kwetsbaarheden verhelpen. Ons doel is om ervoor te zorgen dat onze modellen en producten aanzienlijke voordelen opleveren voor verdedigers, die vaak in de minderheid zijn en over onvoldoende middelen beschikken.
Net als andere tweeledige domeinen zijn defensieve en offensieve cyberworkflows vaak afhankelijk van dezelfde onderliggende kennis en technieken. We investeren in waarborgen om ervoor te zorgen dat deze krachtige mogelijkheden voornamelijk ten goede komen aan defensieve toepassingen en de versterking voor kwaadwillige doeleinden beperken. Cybersecurity speelt in vrijwel elk domein een rol. Daarom kunnen we niet vertrouwen op één type maatregel, zoals alleen kennis beperken of alleen werken met gecontroleerde toegang. We hebben een gelaagde aanpak nodig die risico’s in balans houdt en gebruikers de ruimte geeft. In de praktijk betekent dit dat we bepalen hoe mogelijkheden toegankelijk worden gemaakt, aangestuurd en toegepast, zodat geavanceerde modellen de beveiliging versterken in plaats van de drempel voor misbruik te verlagen.
We zien dit werk niet als een eenmalige inspanning, maar als een blijvende investering op de lange termijn om verdedigers een voordeel te geven en de beveiligingsstatus van de kritieke infrastructuur in het bredere ecosysteem voortdurend te versterken.
Onze modellen zijn ontworpen en getraind om veilig te functioneren, ondersteund door proactieve systemen die cybermisbruik detecteren en erop reageren. We verfijnen deze beschermingsmaatregelen doorlopend naarmate onze mogelijkheden en het dreigingslandschap veranderen. Geen enkel systeem kan misbruik in cybersecurity volledig voorkomen zonder ook legitiem gebruik te beperken. Daarom richten we ons op het beperken van risico’s met een gelaagde set veiligheidsmaatregelen.
Aan de basis hiervan hanteren we een defense-in-depth-aanpak, waarbij we vertrouwen op een combinatie van toegangscontroles, infrastructuurverharding, uitgaande controles en monitoring. We vullen deze maatregelen aan met detectie- en responsystemen en speciale programma's voor dreigingsinformatie en insider-risico's, zodat nieuwe bedreigingen snel worden geïdentificeerd en geblokkeerd. Deze beveiligingen zijn ontworpen om mee te evolueren met het dreigingslandschap. We gaan uit van verandering en bouwen op een manier die ons in staat stelt om ons snel en gericht aan te passen.
Hoe we op deze basis voortbouwen:
- We trainen het model om schadelijke verzoeken te weigeren of er veilig op te reageren, terwijl het behulpzaam blijft voor educatieve en defensieve toepassingen: We trainen onze grensverleggende modellen om verzoeken te weigeren of er veilig op te reageren wanneer die duidelijk cybermisbruik mogelijk zouden maken, terwijl ze maximaal behulpzaam blijven voor legitieme defensieve en educatieve toepassingen.
- Detectiesystemen: We verfijnen en onderhouden systeembrede monitoring voor producten die grensverleggende modellen gebruiken om mogelijk kwaadaardige cyberactiviteit te detecteren. Wanneer activiteit onveilig lijkt, kunnen we uitvoer blokkeren, prompts doorsturen naar veiligere of minder capabele modellen, of escaleren voor handhaving. Onze handhaving combineert geautomatiseerde en menselijke beoordeling, gebaseerd op factoren zoals wettelijke vereisten, de ernst en herhaald gedrag. We werken ook nauw samen met ontwikkelaars en zakelijke klanten om afstemming te bereiken over veiligheidsnormen en verantwoord gebruik te bevorderen met duidelijke escalatiepaden.
- End-to-end red teaming: We werken samen met deskundige organisaties voor red teaming om onze veiligheidsmaatregelen te evalueren en te verbeteren. Het is hun taak om al onze verdedigingsmaatregelen te proberen te omzeilen door end-to-end te werk te gaan, net zoals een vastberaden en goed gefinancierde tegenstander dat zou kunnen doen. Dit helpt ons tekortkomingen vroegtijdig te identificeren en het volledige systeem te versterken.
OpenAI heeft al vroeg geïnvesteerd in het toepassen van AI op defensieve cybersecurity-scenario's, en ons team werkt nauw samen met experts over de hele wereld om zowel onze modellen als hun toepassing verder te ontwikkelen. We waarderen de wereldwijde gemeenschap van cybersecurityprofessionals die zich inzetten om onze digitale wereld veiliger te maken, en we zetten ons in om krachtige tools te leveren die defensieve beveiliging ondersteunen. Terwijl we nieuwe waarborgen invoeren, blijven we samenwerken met de cybersecuritygemeenschap om te begrijpen waar AI de weerbaarheid echt kan versterken en waar doordachte waarborgen het belangrijkst zijn.
Naast deze samenwerkingen zetten we ook een reeks initiatieven op die bedoeld zijn om verdedigers te helpen sneller te handelen, onze veiligheidsmaatregelen te baseren op behoeften uit de praktijk, en verantwoorde herstelmaatregelen op grote schaal te versnellen.
We zullen binnenkort een 'trusted access'-programma introduceren, waarin we onderzoeken of we in aanmerking komende gebruikers en klanten die werken aan cyberverdediging gelaagde toegang kunnen bieden tot uitgebreidere mogelijkheden in onze nieuwste modellen voor defensieve toepassingen. We onderzoeken nog steeds wat precies de juiste grens is tussen welke mogelijkheden we breed toegankelijk kunnen maken en welke gelaagde beperkingen vereisen, wat van invloed kan zijn op de toekomstige opzet van dit programma. We willen dat dit trusted access-programma een bouwsteen wordt voor een veerkrachtig ecosysteem.
Aardvark, onze agent-ondersteunde securityonderzoeker die ontwikkelaars en securityteams helpt kwetsbaarheden op schaal op te sporen en te verhelpen, is nu in private bèta. Het scant codebases op kwetsbaarheden en stelt patches voor die beheerders snel kunnen overnemen. Het heeft al nieuwe CVE's in open source-software geïdentificeerd door middel van redenering over volledige codebases. We zijn van plan om gratis dekking aan te bieden voor bepaalde niet-commerciële open-source-repository's om bij te dragen aan de beveiliging van het ecosysteem voor open-source-software en de toeleveringsketen. Meld je hier aan om deel te nemen.
We richten de Frontier Risk Council op, een adviesgroep die ervaren cyberverdedigers en beveiligingsprofessionals nauw zal laten samenwerken met onze teams. Deze raad zal in eerste instantie gericht zijn op cybersecurity en zich in de toekomst uitbreiden naar andere grensverleggende capaciteitsdomeinen. Deelnemers zullen adviseren over de grens tussen nuttige, verantwoorde capaciteiten en mogelijk misbruik, en deze inzichten zullen rechtstreeks richting geven aan onze evaluaties en safeguards. We zullen hier binnenkort meer over delen.
Tot slot voorzien we dat cybermisbruik mogelijk haalbaar is met elk grensverleggend model in de sector. Om dit aan te pakken, werken we via het Frontier Model Forum, een non-profitorganisatie die wordt ondersteund door toonaangevende AI-labs en partners uit de sector, samen met andere grensverleggende laboratoria aan het ontwikkelen van een gedeeld begrip van dreigingsmodellen en best practices. In deze context helpt dreigingsmodellering risico's te beperken door vast te stellen hoe AI-capaciteiten als wapen zouden kunnen worden ingezet, waar zich voor verschillende dreigingsactoren kritieke knelpunten bevinden en hoe grensverleggende modellen een zinvolle verbetering zouden kunnen bieden. Deze samenwerking heeft als doel een consistente, ecosysteembrede kennis op te bouwen van threat actors en aanvalspaden, zodat laboratoria, maintainers en verdedigers hun mitigaties beter kunnen verbeteren en ervoor kunnen zorgen dat kritieke beveiligingsinzichten zich snel door het hele ecosysteem verspreiden. We werken ook samen met externe teams om cybersecurity-evaluaties(opent in een nieuw venster) te ontwikkelen. We hopen dat een ecosysteem van onafhankelijke evaluaties verder zal bijdragen aan het opbouwen van een gedeeld begrip van modelcapaciteiten.
Samen weerspiegelen deze inspanningen onze langetermijninzet om de defensieve kant van het ecosysteem te versterken. Naarmate modellen krachtiger worden, willen we die mogelijkheden omzetten in echte slagkracht voor verdedigers, gebaseerd op behoeften uit de praktijk, gevormd door experts en zorgvuldig ingezet. Naast dit werk zijn we van plan om andere initiatieven en subsidies op het gebied van cyberbeveiliging te verkennen, om baanbrekende ideeën naar voren te brengen die mogelijk niet via traditionele trajecten ontstaan, en om gedurfde, creatieve verdedigingsoplossingen te verzamelen uit de academische wereld, de industrie en de open-sourcegemeenschap. Alles bij elkaar genomen is dit doorlopend werk, en we verwachten dat we deze programma’s verder zullen blijven ontwikkelen naarmate we leren wat de beveiliging in de praktijk het meest effectief bevordert.


