Vi har i dag annonceret Aardvark, en agentisk sikkerhedsresearcher drevet af GPT‑5.
Softwaresikkerhed er en af de altafgørende – og mest udfordrende – frontlinjer inden for teknologi. Hvert år opdages i titusindvis af nye sårbarheder i både proprietær og open-source-baseret kodebaser. Forsvarerne står over for skræmmende opgaver med at finde og rette sårbarheder, før deres modstandere gør. Hos OpenAI arbejder vi på at tippe balancen til fordel for forsvarerne.
Aardvark repræsenterer et gennembrud i AI og sikkerhedsresearch: En autonom agent, der kan hjælpe udviklere og sikkerhedsteams med at opdage og rette sikkerhedssårbarheder i stor skala. Aardvark er nu tilgængelig i privat beta for at validere og finjustere dens evner i marken.
Aardvark analyserer kontinuerligt lagringspladser med kildekode for at identificere sårbarheder, vurdere risikoen for udnyttelse, prioritere alvorsgraden og foreslå målrettede rettelser.
Aardvark fungerer ved at overvåge commits og ændringer af kodebaser, identificere sårbarheder, hvordan de kunne udnyttes, og foreslå rettelser. Aardvark er ikke baseret på traditionelle teknikker til programanalyse som f.eks. fuzzing eller analyse af softwareopbygning. Den bruger i stedet avanceret LLM-drevet tænkning og brug af værktøjer til at forstå kodeadfærd og identificere sårbarheder. Aardvark leder efter fejl, som en menneskelig sikkerhedsresearcher ville gøre det: ved at læse koden, analysere den, skrive og køre test, bruge værktøjer m.m.
Aardvark er baseret på en pipeline i flere trin til at identificere, forklare og rette sårbarheder:
- Analyse: Den begynder med at analysere den fulde lagringsplads for at producere en trusselsmodel, der afspejler dens forståelse af projektets sikkerhedsmålsætninger og -design.
- Commit-scanning: Den scanner for sårbarheder ved at inspicere ændringer på commit-niveau mod hele lagringspladsen og trusselsmodellen, når ny kode committes. Når der første gang oprettes forbindelse til en ny lagringsplads, scanner Aardvark den historik for at identificere eksisterende problemer. Aardvark forklarer de sårbarheder, den finder, trin for trin og tilføjer noter til gennemsyn af mennesker.
- Validering: Når Aardvark har identificeret en potentiel sårbarhed, vil den forsøge at udløse den i et isoleret sandkassemiljø for at bekræfte muligheden for at udnytte den. Aardvark beskriver de trin, den har taget, for at sikre, at brugerne får et nøjagtigt indblik af høj kvalitet med lavt antal falsk positive.
- Rettelser: Aardvark er integreret i OpenAI Codex for at hjælpe med at rette de sårbarheder, den finder. Den vedhæfter en Codex-genereret og Aardvark-scannet rettelse til hver fundet sårbarhed til gennemsyn af mennesker og effektive rettelser med et enkelt klik.
Aardvark arbejder sammen med teknikere og kan integreres med GitHub, Codex og eksisterende arbejdsgange for at give et handlingsrettet indblik, der ikke hæmmer udviklingen. Mens Aardvark er bygget med henblik på sikkerhed, fandt vi i vores test ud af, at den også kan afdække fejl som f.eks. logiske fejl, ukomplette rettelser og problemer med databeskyttelse.
Aardvark har været i tjeneste i flere måneder og har kørt kontinuerligt på tværs af OpenAI's interne kodebaser samt eksterne alfapartneres kodebaser. Hos OpenAI har den afdækket relevante sårbarheder og bidraget til OpenAI's forsvarsposition. Partnere har fremhævet dens analysedybde, hvor Aardvark finder problemer, der kun viser sig under komplekse omstændigheder.
I benchmark-test på “gyldne” lagringspladser identificerede Aardvark 92 % af kendte og syntetisk introducerede sårbarheder og demonstrerede høj genkendelse og effektivitet i den virkelige verden.
Aardvark har også været anvendt på open source-projekter, hvor den har fundet, og hvor vi på ansvarlig vis har publiceret, flere sårbarheder, hvoraf ti har fået CVE-identifikatorer (Common Vulnerabilities Exposures).
Som mangeårig støtter af open research og ansvarlig offentliggørelse har vi forpligtet os til at give noget tilbage – værktøjer og resultater, der gør det digitale økosystem mere sikkert for alle. Vi planlægger at tilbyde pro-bono-scanning til udvalgte ikke-kommercielle open source-lagringspladser for at bidrage til sikkerheden i open source-økosystemet og -forsyningskæden.
Vi har for nylig opdateret vores udgående kordinerede politik for offentliggørelse, som indtager en udviklervenlig holdning med fokus på samarbejde og skalerbar effekt, snarere end stive tidsfrister for offentliggørelse, der kan presse udviklerne. Vi forudser, at værktøjer som Aardvark vil resultere i opdagelsen af et øget antal fejl, og vi ønsker at samarbejde for at opnå en langsigtet modstandsdygtighed.
Software er nu rygraden i alle brancher, hvilket betyder, at sårbarheder i software er en systemisk risiko for virksomheder, infrastruktur og samfundet. Der blev rapporteret over 40.000 CVE'er alene i 2024. Vores test viser, at ca. 1,2 % af commits indeholder fejl – små ændringer, der kan have uforholdsmæssigt store konsekvenser.
Aardvark repræsenterer en ny type forsvarsbaseret model: En agentisk sikkerhedsresearcher, der samarbejder med teams for at sikre kontinuerlig beskyttelse, mens koden udvikles. Ved at fange sårbarheder tidligt, validere ægte sårbarhedsrisici og tilbyde tydelige rettelser kan Aardvark styrke sikkerheden uden at hæmme udviklingen. Vi tror på udvidet adgang til sikkerhedsekspertise. Vi begynder med en privat beta og vil udvide tilgængeligheden, efterhånden som vi lærer.
Vi inviterer udvalgte partnere til at deltage i den private Aardvark-beta. Deltagerne vil få tidlig adgang og arbejde direkte sammen med vores team om at finjustere registreringspræcisionen, arbejdsgange til validering og rapportering af erfaringer.
Vi ønsker at validere præstationen på tværs af en række forskellige miljøer. Hvis din organisation eller dit open source-projekt er interesseret i at deltage, kan du ansøge her.
Skrevet af
Bidragsydere
Akshay Bhat, Andy Nguyen, Dave Aitel, Harold Nguyen, Ian Brelinsky, Tiffany Citra, Xin Hu og Matt Knight


