Maak kennis met Aardvark: De agentische beveiligingsonderzoeker van OpenAI
Nu in de privé bètaversie: een AI-agent die denkt als een beveiligingsonderzoeker en zich aanpast aan de eisen van moderne software.
Vandaag kondigen we Aardvark aan, een agentische beveiligingsonderzoeker die wordt aangestuurd door GPT‑5.
Softwarebeveiliging is een van de meest cruciale (en uitdagende) gebieden in de technologie. Elk jaar worden tienduizenden nieuwe kwetsbaarheden ontdekt in codebases van bedrijven en open source. Beveiligers staan voor de enorme uitdaging om kwetsbaarheden te vinden en verhelpen voordat hun tegenstanders dat doen. Bij OpenAI werken we eraan om die balans te verschuiven in het voordeel van de beveiligers.
Aardvark is een doorbraak op het gebied van AI- en beveiligingsonderzoek: een autonome agent die ontwikkelaars en beveiligingsteams kan helpen bij het opsporen en verhelpen van beveiligingskwetsbaarheden op grote schaal. Aardvark is nu beschikbaar in als privé bètaversie om de mogelijkheden in de praktijk te valideren en verfijnen.
Aardvark analyseert continu broncoderepository's om kwetsbaarheden te identificeren, de exploiteerbaarheid te beoordelen, de ernst te prioriteren en gerichte patches voor te stellen.
Aardvark werkt door commits en wijzigingen in codebases te monitoren, kwetsbaarheden te identificeren, te bepalen hoe deze kunnen worden geëxploiteerd en oplossingen voor te stellen. Aardvark maakt geen gebruik van traditionele programma-analysetechnieken zoals fuzzing of softwarecompositieanalyse. In plaats daarvan maakt het gebruik van LLM-aangestuurd redeneren en toolgebruik om het gedrag van code te begrijpen en kwetsbaarheden te identificeren. Aardvark zoekt naar bugs zoals een menselijke beveiligingsonderzoeker dat zou doen: door code te lezen, te analyseren, tests te schrijven en uit te voeren, tools te gebruiken en meer.
Aardvark maakt gebruik van een meerfasige pijplijn om kwetsbaarheden te identificeren, uit te leggen en te verhelpen:
- Analyse: De agent begint met het analyseren van de volledige repository om een dreigingsmodel te produceren dat een weerspiegeling is van het begrip van de beveiligingsdoelstellingen en het ontwerp van het project.
- Commits scannen: De agent scant op kwetsbaarheden door wijzigingen op commit-niveau te inspecteren ten opzichte van de volledige repository en het dreigingsmodel wanneer nieuwe code wordt gecommit. Wanneer een repository voor het eerst wordt verbonden, scant Aardvark de geschiedenis om bestaande problemen te identificeren. Aardvark legt de gevonden kwetsbaarheden stap voor stap uit en voorziet de code van annotaties, zodat deze door mensen kan worden beoordeeld.
- Validatie: Zodra Aardvark een potentiële kwetsbaarheid heeft geïdentificeerd, zal het deze in een geïsoleerde sandbox proberen te activeren om te controleren of deze kan worden geëxploiteerd. Aardvark beschrijft de genomen stappen, zodat gebruikers nauwkeurige, hoogwaardige inzichten krijgen met een laag percentage false positives.
- Patchen: Aardvark integreert met OpenAI Codex om de gevonden kwetsbaarheden te verhelpen. Het voegt een door Codex gegenereerde en door Aardvark gescande patch toe aan elke bevinding voor menselijke beoordeling en efficiënte patching met één muisklik.
Aardvark werkt samen met engineers en integreert met GitHub, Codex en bestaande workflows om duidelijke, bruikbare inzichten te leveren zonder de ontwikkeling te vertragen. Hoewel Aardvark is ontwikkeld met het oog op beveiliging, hebben we tijdens onze tests ontdekt dat het ook bugs kan opsporen, zoals logische fouten, onvolledige oplossingen en privacyproblemen.
Aardvark is al enkele maanden in gebruik en draait continu op de interne codebases van OpenAI en die van externe alfa-partners. Binnen OpenAI zijn er belangrijke kwetsbaarheden aan het licht gekomen, die hebben bijgedragen aan de defensieve houding van OpenAI. Partners hebben de grondigheid van de analyse benadrukt, waarbij Aardvark problemen heeft gevonden die alleen onder complexe omstandigheden voorkomen.
In benchmarktests op ‘gouden’ repository's identificeerde Aardvark 92% van de bekende en synthetisch geïntroduceerde kwetsbaarheden, wat een hoge recall en effectiviteit in de praktijk aantoont.
Aardvark is ook toegepast op open-sourceprojecten, waar het talrijke kwetsbaarheden heeft ontdekt. We hebben deze op verantwoorde wijze bekendgemaakt. Tien daarvan hebben een CVE-identificatiecode (Common Vulnerabilities and Exposures) gekregen.
Als gebruikers van tientallen jaren open onderzoek en verantwoordelijke openbaarmaking, zetten we ons in om iets terug te doen: we dragen bij met tools en bevindingen die het digitale ecosysteem voor iedereen veiliger maken. We zijn van plan om pro bono scanns aan te bieden aan bepaalde niet-commerciële open source-repository's om bij te dragen aan de beveiliging van het ecosysteem voor open source-software en de toeleveringsketen.
We hebben onlangs ons beleid inzake gecoördineerde openbaarmaking van uitgaande informatie bijgewerkt. Dit beleid is ontwikkelaarsvriendelijk en gericht op samenwerking en schaalbare impact, in plaats van op rigide openbaarmakingsschema's die ontwikkelaars onder druk kunnen zetten. We verwachten dat tools zoals Aardvark zullen leiden tot de ontdekking van steeds meer bugs en willen duurzaam samenwerken om op lange termijn veerkrachtig te zijn.
Software vormt tegenwoordig de ruggengraat van elke sector, wat betekent dat kwetsbaarheden in software een systeemrisico vormen voor bedrijven, infrastructuur en de samenleving. Alleen al in 2024 werden meer dan 40.000 CVE's gemeld. Onze tests tonen aan dat ongeveer 1,2% van de commits bugs introduceert: dat zijn kleine wijzigingen die grote gevolgen kunnen hebben.
Aardvark vertegenwoordigt een nieuw model waarin verdediging voorop staat: een actieve beveiligingsonderzoeker die samenwerkt met teams door continue bescherming te bieden terwijl de code zich ontwikkelt. Door kwetsbaarheden vroegtijdig op te sporen, de bruikbaarheid in de praktijk te valideren en duidelijke oplossingen aan te bieden, kan Aardvark de beveiliging versterken zonder innovatie te vertragen. Wij geloven in het vergroten van de toegang tot beveiligingsexpertise. We beginnen met een privé bètaversie en zullen de beschikbaarheid uitbreiden naarmate we meer ervaring opdoen.
We nodigen geselecteerde partners uit om deel te nemen aan de privé bètaversie van Aardvark. Deelnemers krijgen vroegtijdig toegang en werken rechtstreeks samen met ons team om de detectienauwkeurigheid, validatieworkflows en rapportage-ervaring te verfijnen.
We willen de prestaties in verschillende omgevingen valideren. Als je organisatie of open source-project geïnteresseerd is om deel te nemen, kun je je hier aanmelden .
Auteur
Bijdragers
Akshay Bhat, Andy Nguyen, Dave Aitel, Harold Nguyen, Ian Brelinsky, Tiffany Citra, Xin Hu, Matt Knight


