Presentiamo oggi Aardvark, un ricercatore di sicurezza agentico basato su GPT‑5.
La sicurezza dei software è una delle frontiere più critiche e impegnative nel campo della tecnologia. Ogni anno vengono scoperte decine di migliaia di nuove vulnerabilità nei codici aziendali e open source. Gli esperti di sicurezza informatica devono affrontare il difficile compito di individuare e correggere le vulnerabilità prima che lo facciano i loro avversari. Noi di OpenAI stiamo lavorando per ribaltare questo equilibrio a favore degli esperti di sicurezza informatica.
Aardvark rappresenta una svolta nella ricerca nel campo dell'IA e della sicurezza: si tratta di un agente autonomo in grado di aiutare gli sviluppatori e i team di sicurezza a individuare e correggere le vulnerabilità di sicurezza su larga scala. Aardvark è ora disponibile in versione beta privata per convalidare e perfezionare le sue funzionalità sul campo.
Aardvark analizza continuamente i repository di codice sorgente per individuare vulnerabilità, valutare l’exploitabilità, classificare la gravità e proporre patch mirate.
Agisce monitorando i commit e le modifiche al codice sorgente, identificando le vulnerabilità, il modo in cui potrebbero essere sfruttate e proponendo soluzioni. Non si basa sulle tecniche tradizionali di analisi dei programmi come il fuzzing o l’analisi della composizione del software. Utilizza invece il ragionamento basato su LLM e strumenti specifici per comprendere il comportamento del codice e rilevare le vulnerabilità. Aardvark cerca i bug proprio come farebbe un ricercatore di sicurezza umano: leggendo il codice, analizzandolo, scrivendo ed eseguendo test, utilizzando strumenti e così via.
Aardvark si affida a una pipeline in più fasi per identificare, spiegare e correggere le vulnerabilità:
- Analisi: inizialmente si analizza l’intero repository per produrre un modello di minaccia che rifletta la comprensione degli obiettivi di sicurezza e della progettazione del progetto.
- Scansione dei commit: viene eseguita la scansione delle vulnerabilità ispezionando le modifiche a livello di commit rispetto all’intero repository e al modello di minaccia man mano che viene eseguito il commit del nuovo codice. Quando un repository viene collegato per la prima volta, Aardvark ne esegue la scansione della cronologia per identificare i problemi esistenti. Aardvark spiega passo dopo passo le vulnerabilità riscontrate, annotando il codice per la revisione umana.
- Convalida: dopo aver identificato una potenziale vulnerabilità, Aardvark tenterà di attivarla in un ambiente isolato e protetto da sandbox per confermarne l’exploitabilità. Aardvark descrive le misure adottate per fornire agli utenti informazioni accurate, di alta qualità e con un basso tasso di falsi positivi.
- Applicazione di patch: Aardvark si integra con OpenAI Codex per aiutare a risolvere le vulnerabilità che individua. Aggiunge una patch generata da Codex e scansionata da Aardvark a ciascun risultato per la revisione umana e l’applicazione efficiente e rapida della patch.
Aardvark affianca gli ingegneri, integrandosi con GitHub, Codex e i flussi di lavoro esistenti per fornire informazioni chiare e fruibili senza rallentare lo sviluppo. Benché sia stato progettato per garantire la sicurezza, dai nostri test è emerso che è anche in grado di individuare bug quali difetti logici, correzioni incomplete e problemi relativi alla privacy.
Aardvark è in servizio da diversi mesi e funziona ininterrottamente sui codici interni di OpenAI e su quelli dei partner alpha esterni. All'interno di OpenAI, ha portato alla luce vulnerabilità significative e ha contribuito alla posizione difensiva di OpenAI. I partner hanno sottolineato la profondità della sua analisi, poiché Aardvark è in grado di individuare problemi che si verificano solo in condizioni complesse.
Nei test di benchmark su repository “golden”, ha identificato il 92% delle vulnerabilità note e introdotte sinteticamente, dimostrando un elevato richiamo e un'efficacia reale.
Aardvark è stato applicato anche a progetti open source, dove ha scoperto e divulgato in modo responsabile numerose vulnerabilità, dieci delle quali hanno ricevuto identificatori CVE (Common Vulnerabilities and Exposures).
Siamo stati per decenni beneficiari di ricerca aperta e divulgazione responsabile; ora ci teniamo a restituire ciò che abbiamo ricevuto, fornendo strumenti e risultati che rendono l’ecosistema digitale più sicuro per tutti. Intendiamo offrire servizi di scansione pro bono a selezionati repository open source non commerciali, per contribuire alla sicurezza dell’ecosistema e della catena di fornitura del software open source.
Recentemente abbiamo aggiornato la nostra politica di divulgazione coordinata in uscita che adotta un approccio favorevole agli sviluppatori e si orienta alla collaborazione e all’impatto scalabile, piuttosto che su rigidi tempi di divulgazione che possono mettere sotto pressione gli sviluppatori. Prevediamo che strumenti come Aardvark permetteranno di scoprire un numero crescente di bug e desideriamo collaborare in modo sostenibile per ottenere una resilienza a lungo termine.
Il software è ormai la colonna portante di ogni settore industriale: ciò significa che le vulnerabilità del software rappresentano un rischio sistemico per le aziende, le infrastrutture e la società. Solo nel 2024 sono stati segnalati oltre 40.000 CVE. I nostri test dimostrano che circa l’1,2% dei commit introduce bug, ovvero piccole modifiche che possono avere conseguenze sproporzionate.
Aardvark rappresenta un nuovo modello incentrato sulla difesa: un ricercatore di sicurezza proattivo che collabora con i team fornendo protezione continua man mano che il codice evolve. Rafforza la sicurezza senza frenare l’innovazione grazie all’individuazione tempestiva delle vulnerabilità, alla verifica della loro effettiva exploitabilità nel mondo reale e alla fornitura di soluzioni chiare. Crediamo nell’importanza di estendere l’accesso alle competenze in materia di sicurezza. Inizieremo con una versione beta privata e amplieremo la disponibilità man mano che acquisiremo esperienza.
Stiamo invitando alcuni partner selezionati a partecipare alla versione beta privata di Aardvark. I partecipanti otterranno l’accesso anticipato e lavoreranno direttamente con il nostro team per perfezionare l’accuratezza del rilevamento, i flussi di lavoro di convalida e l’esperienza di reporting.
Stiamo cercando di convalidare le prestazioni in una varietà di ambienti. Se la tua organizzazione o il tuo progetto open source sono interessati ad aderire, puoi candidarti qui.
Autore
Collaboratori
Akshay Bhat, Andy Nguyen, Dave Aitel, Harold Nguyen, Ian Brelinsky, Tiffany Citra, Xin Hu e Matt Knight


