Vai al contenuto principale
OpenAI

22 dicembre 2025

Sicurezza

Rafforzare continuamente ChatGPT Atlas contro la prompt injection

Il red teaming automatizzato, potenziato dall'apprendimento per rinforzo, ci aiuta a scoprire e correggere proattivamente gli exploit degli agenti nel mondo reale prima che si trasformino in armi pericolose.

Caricamento in corso...

La modalità agente in ChatGPT Atlas è una delle funzionalità agentiche più versatili che abbiamo rilasciato fino a oggi. In questa modalità, l'agente del browser visualizza le pagine web ed esegue azioni, clic e battute all'interno del tuo browser, proprio come faresti tu. Questo permette a ChatGPT di lavorare direttamente su molti dei tuoi flussi di lavoro quotidiani utilizzando lo stesso spazio e contesto, e gli stessi dati.

Mentre l'agente del browser ti aiuta a fare di più, diventa anche un bersaglio di maggior valore per gli attacchi avversari. Questo rende la sicurezza dell'IA particolarmente importante. Molto prima del lancio di ChatGPT Atlas, abbiamo continuamente costruito e rafforzato le difese contro le minacce emergenti che prendono di mira in modo specifico questo nuovo paradigma di "agente nel browser". La prompt injection è uno dei rischi più significativi contro cui ci difendiamo attivamente per garantire che ChatGPT Atlas possa operare in modo sicuro per tuo conto. 

Nell'ambito di questo sforzo, abbiamo recentemente rilasciato un aggiornamento di sicurezza per l'agente del browser di Atlas, che include un nuovo modello addestrato in modo antagonistico e misure di sicurezza circostanti rafforzate. Questo aggiornamento è stato indotto da una nuova classe di attacchi di prompt injection scoperti tramite il nostro red teaming interno automatizzato.

In questo post spieghiamo come possa sorgere il rischio di prompt-injection per gli agenti basati sul web e condividiamo un ciclo di risposta rapida che abbiamo sviluppato per scoprire continuamente nuovi attacchi e implementare rapidamente le mitigazioni, illustrato da questo recente aggiornamento di sicurezza.

Consideriamo la prompt injection una sfida a lungo termine per la sicurezza dell'IA e dovremo rafforzare continuamente le nostre difese contro questa minaccia (proprio come avviene con le truffe online in continua evoluzione che prendono di mira gli esseri umani). Il nostro ultimo ciclo di risposta rapida sta già promettendo bene quale strumento critico in questo percorso: stiamo scoprendo nuove strategie di attacco internamente, prima che si manifestino all'esterno. La nostra visione a lungo termine è quella di utilizzare appieno (1) il nostro accesso white-box ai modelli, (2) la profonda comprensione delle nostre difese e (3) la portata di elaborazione per rimanere un passo avanti rispetto agli aggressori esterni, così da trovare gli exploit prima, implementare le mitigazioni più velocemente e rendere continuamente più rigoroso il ciclo. Combinata con la ricerca all'avanguardia sulle nuove tecniche per affrontare la prompt injection e con un aumento degli investimenti negli altri controlli di sicurezza, questa serie di azioni può rendere gli attacchi sempre più difficili e costosi, riducendo notevolmente il rischio reale di prompt injection. In definitiva, il nostro obiettivo è che tu possa fidarti di un agente ChatGPT per usare il tuo browser come faresti con un collega o con un amico altamente competente e attento alla sicurezza.

La prompt injection come sfida aperta alla sicurezza degli agenti

Un attacco di prompt injection prende di mira gli agenti IA incorporando istruzioni dannose nel contenuto che l'agente elabora. Queste istruzioni sono progettate per sovrascrivere o reindirizzare il comportamento dell'agente, dirottandolo per seguire l'intento di un aggressore anziché quello dell'utente.

Per un agente browser come quello all'interno di ChatGPT Atlas, la prompt injection introduce un nuovo vettore di minaccia, oltre ai tradizionali rischi di sicurezza web (come errori dell'utente o vulnerabilità del software). Invece di fare phishing sugli esseri umani o sfruttare le vulnerabilità del sistema del browser, l'aggressore prende di mira l'agente che opera al suo interno.

Quale esempio ipotetico, un criminale informatico potrebbe inviare un'e-mail dannosa tentando di ingannare un agente affinché ignori la richiesta dell'utente e inoltri invece documenti fiscali sensibili a un indirizzo e-mail controllato dal criminale informatico. Se un utente chiede all'agente di esaminare le e-mail non lette e riassumere i punti chiave, l'agente potrebbe elaborare quell'e-mail dannosa durante il flusso di lavoro. Se segue le istruzioni iniettate, può deviare dall'attività e condividere erroneamente informazioni sensibili.

Questo è solo uno scenario specifico. La stessa generalità che rende utili gli agenti del browser aumenta anche i rischi, poiché l'agente può incontrare istruzioni non affidabili su una superficie effettivamente illimitata (e-mail e allegati, inviti del calendario, documenti condivisi, forum, post sui social media e pagine web arbitrarie). Poiché l'agente può eseguire molte delle stesse azioni che un utente può compiere in un browser, l'impatto di un attacco andato a buon fine può ipoteticamente essere altrettanto ampio (inoltrare un'e-mail riservata, inviare denaro, modificare o eliminare file nel cloud e molto altro).

Abbiamo fatto progressi nella difesa contro la prompt injection attraverso più livelli di protezione, come abbiamo condiviso in un post precedente. Tuttavia, la prompt injection rimane una sfida aperta per la sicurezza degli agenti, e ci aspettiamo di continuare a lavorarci ancora per molti anni.

Scoperta automatizzata degli attacchi di prompt injection attraverso l'apprendimento per rinforzo end-to-end e l'elevata capacità computazionale

Per rafforzare le nostre difese, stiamo continuamente cercando nuovi attacchi di prompt injection contro i sistemi basati su agenti in produzione. Individuare questi attacchi è un prerequisito necessario per costruire mitigazioni robuste: aiuta a comprendere i rischi reali, a individuare le lacune nelle difese e a sviluppare patch efficaci.

Per fare questo su larga scala, abbiamo sviluppato un aggressore automatizzato basato su LLM e lo abbiamo addestrato a individuare gli attacchi di prompt injection che potrebbero colpire con successo un agente del browser. Abbiamo addestrato questo aggressore end-to-end con l'apprendimento per rinforzo, così che possa apprendere dai propri successi e fallimenti per migliorare le sue competenze di red teaming. Gli permettiamo anche di "provare prima di agire"; durante il suo ragionamento a catena di pensiero, il nostro aggressore può proporre un'iniezione candidata e inviarla a un simulatore esterno. Il simulatore esegue un rollout controfattuale su come l'agente-vittima designato (il difensore) si comporterebbe se incontrasse la injection e fornisce un tracciato completo del ragionamento e delle azioni dell'agente-vittima. L'aggressore usa quella traccia come feedback, itera sull'attacco e ripete la simulazione, ripetendo questo ciclo più volte prima di lanciare un attacco finale. Questo offre un feedback più ricco sul contesto all'aggressore rispetto a un semplice segnale di successo/fallimento. Aumenta anche la potenza di calcolo dell'aggressore durante il tempo di test. Inoltre, l'accesso privilegiato alle tracce di ragionamento (che non divulghiamo agli utenti esterni) del difensore offre al nostro aggressore interno un vantaggio asimmetrico, poiché aumenta le probabilità che possa superare gli avversari esterni.

Mockup di una pagina web in modalità chiara che illustra l'apprendimento per rinforzo, con un braccio robotico stilizzato che interagisce con forme geometriche fluttuanti su uno sfondo a gradiente brillante.

Perché l'apprendimento per rinforzo (RL)? Abbiamo scelto l'apprendimento per rinforzo per addestrare l'aggressore automatizzato a molti ragionamenti:

  1. Ottimizzare gli obiettivi a lungo termine e non continui degli aggressori. Il nostro obiettivo è quello di individuare gli attacchi di prompt injection che potrebbero ingannare l'agente facendogli eseguire attività avversarie sofisticate (ad esempio, inviare e-mail, effettuare transazioni bancarie) che potrebbero verificarsi nel mondo reale. Queste attività avversarie sono intrinsecamente a lungo termine, richiedendo molti passaggi di ragionamento e interazione con l'ambiente, con segnali di successo scarsi e ritardati. L'apprendimento per rinforzo è molto adatto a questa struttura di ricompensa scarsa e ritardata.
  2. Utilizzare le funzionalità all'avanguardia degli LLM. Abbiamo addestrato i modelli LLM di frontiera direttamente come auto-red-teamer, affinché l'aggressore benefici direttamente dei miglioramenti nel ragionamento e nella pianificazione dei modelli di frontiera. Via via che i modelli di base diventano più forti, anche l'aggressore diventa naturalmente più capace, rendendo questo un modo scalabile per mantenere la pressione sulle nostre difese mentre i nostri modelli si evolvono.
  3. Scalare il calcolo e imitare gli aggressori adattivi. L'apprendimento per rinforzo è molto adatto a scalare il calcolo impiegato nella ricerca di attacchi su un gran numero di campionamenti e fasi di apprendimento, e riflette anche da vicino il comportamento degli aggressori umani adattivi: provano strategie iterativamente, apprendono dai risultati e rafforzano i comportamenti di successo.

Il nostro aggressore automatizzato è in grado di scoprire nuovi attacchi di prompt injection realistici end-to-end. A differenza della maggior parte delle iniziative precedenti di red teaming automatizzato, che hanno evidenziato semplici fallimenti come l'ottenimento di specifiche stringhe di output o l'attivazione di una chiamata a uno strumento non intenzionale da parte dell'agente, il nostro aggressore addestrato con RL può guidare un agente nell'esecuzione di flussi di lavoro dannosi sofisticati e a lungo termine che si sviluppano su decine (o addirittura centinaia) di passaggi. Abbiamo anche osservato nuove strategie di attacco che non sono apparse nella nostra campagna di red teaming umano o nei rapporti esterni.

La demo qui sotto presenta un exploit concreto di prompt injection trovato dal nostro aggressore automatizzato, che abbiamo poi utilizzato per rafforzare ulteriormente le difese di ChatGPT Atlas. L'aggressore riempie la casella di posta dell'utente con un'e-mail dannosa contenente una prompt injection che ordina all'agente di inviare una lettera di dimissioni all'Amministratore delegato (CEO) dell'utente. Successivamente, quando l'utente chiede all'agente di redigere una risposta automatica di assenza, l'agente incontra quell'e-mail durante l'esecuzione normale delle attività, considera il prompt iniettato come autorevole e lo segue. Il messaggio di assenza non viene mai scritto e l'agente si dimette per conto dell'utente.

La natura della prompt injection rende difficili le garanzie di sicurezza deterministiche, tuttavia ampliando la nostra ricerca automatizzata sulla sicurezza, eseguendo test antagonistici e rafforzando il nostro ciclo di risposta rapida, siamo in grado di migliorare la robustezza e le difese del modello, prima di attendere che si verifichi un attacco nel mondo reale. 

Stiamo condividendo questa demo per aiutare gli utenti e i ricercatori a comprendere meglio la natura di questi attacchi e come ci difendiamo attivamente da essi. Crediamo che questo rappresenti l'avanguardia di ciò che il red teaming automatizzato può realizzare e siamo entusiasti di continuare con la nostra ricerca.

Rafforzamento di ChatGPT Atlas con un ciclo di risposta rapida proattiva

Il nostro red teaming automatizzato sta guidando un ciclo di risposta rapida proattiva: quando l'aggressore automatizzato scopre una nuova classe di attacchi di prompt injection riusciti, crea immediatamente un obiettivo concreto per migliorare le nostre difese.

Addestramento antagonistico contro gli attacchi di recente scoperta. Addestriamo continuamente i modelli di agenti aggiornati contro il nostro miglior aggressore automatizzato, dando priorità agli attacchi in cui gli agenti target attualmente falliscono. L'obiettivo è quello di insegnare agli agenti a ignorare le istruzioni avversarie e a rimanere allineati con l'intento dell'utente, migliorando la resistenza alle nuove strategie di prompt injection recentemente scoperte. Questo incorpora la robustezza contro gli attacchi nuovi e ad alta intensità direttamente nel checkpoint del modello. Ad esempio, il recente red teaming automatizzato ha prodotto direttamente un nuovo checkpoint browser-agent con addestramento antagonistico, che è già stato distribuito a tutti gli utenti di ChatGPT Atlas. Questo aiuta a proteggere meglio i nostri utenti contro i nuovi tipi di attacchi.

Utilizzare le tracce degli attacchi per migliorare lo stack di difesa più ampio. Molti percorsi di attacco scoperti dal nostro red teamer automatizzato rivelano anche opportunità di miglioramento al di fuori del modello stesso, come nel monitoraggio, nelle istruzioni di sicurezza che inseriamo nel contesto del modello o nelle protezioni a livello di sistema. Questi risultati ci aiutano a iterare sull'intero stack di difesa, non solo sul checkpoint dell'agente.

Rispondere agli attacchi attivi. Questo ciclo può anche aiutare a rispondere meglio agli attacchi attivi in natura. Mentre prendiamo in esame la nostra presenza globale alla ricerca di potenziali attacchi, possiamo prendere le tecniche e le tattiche che vediamo utilizzare dagli avversari esterni, inserirle in questo ciclo, emulare la loro attività e apportare cambiamenti difensivi sulla nostra piattaforma.

Prospettiva: il nostro impegno a lungo termine per la sicurezza degli agenti

Rafforzare la nostra capacità di red teaming degli agenti e utilizzare i nostri modelli più avanzati per automatizzare parti di quel lavoro ci aiuta a rendere l'agente del browser Atlas più robusto, scalando il ciclo di scoperta e correzione. Questo lavoro di rafforzamento ribadisce una lezione familiare sulla sicurezza: un percorso ben noto verso una protezione più forte consiste nel testare continuamente i sistemi reali, reagire ai fallimenti e implementare correzioni concrete.

Ci aspettiamo che gli avversari continuino ad adattarsi. È improbabile che la prompt injection, proprio come le truffe e l'ingegneria sociale sul web, venga mai completamente "risolta". Tuttavia, siamo ottimisti che un ciclo di risposta rapida, proattivo e altamente reattivo possa continuare a ridurre in modo significativo il rischio nel mondo reale nel tempo. Combinando la scoperta automatizzata degli attacchi con l'addestramento antagonistico e le misure di sicurezza a livello di sistema, possiamo identificare nuovi schemi di attacco in anticipo, colmare le lacune più rapidamente e aumentare continuamente il costo degli exploit.

La modalità agente in ChatGPT Atlas è potente ed estende anche la superficie di minaccia alla sicurezza. Essere chiari su questo compromesso fa parte del nostro modo di lavorare responsabilmente. Il nostro obiettivo è quello di rendere Atlas notevolmente più sicuro a ogni iterazione: migliorare la robustezza del modello, rafforzare lo stack di difesa circostante e monitorare i pattern di abuso emergenti nel mondo reale.

Continueremo a investire nella ricerca e nell'implementazione, sviluppando metodi migliori di red teaming automatizzato, implementando mitigazioni stratificate e iterando rapidamente via via che apprendiamo. Condivideremo anche con la comunità più vasta tutto ciò che possiamo.

Raccomandazioni per l'uso sicuro degli agenti

Mentre continuiamo a rafforzare Atlas a livello di sistema, ci sono azioni che gli utenti possono intraprendere per ridurre i rischi nell'uso degli agenti. 

Limitare l'accesso degli utenti in modalità logged-in quando possibile. Continuiamo a raccomandare agli utenti di utilizzare la modalità logged-out(si apre in una nuova finestra) quando utilizzano l'agente in Atlas, ogni volta che l'accesso ai siti web a cui si è connessi non è necessario per l'attività in corso, oppure per limitare l'accesso a siti specifici a cui si accede durante l'attività. 

Leggere attentamente le richieste di conferma. Per alcune azioni importanti, come completare un acquisto o inviare un'e-mail, gli agenti sono progettati per chiedere la tua conferma prima di procedere. Quando un agente ti chiede di confermare un'azione, prenditi un momento per verificare che l'azione sia corretta e che le informazioni condivise siano appropriate per quel contesto.

Fornire istruzioni esplicite agli agenti quando possibile. Evita prompt troppo vaghi come "leggi le mie e-mail e intraprendi qualsiasi azione necessaria". Troppa libertà consente ai contenuti nascosti o dannosi di influenzare l'agente più facilmente, anche quando sono in atto misure di protezione. È più sicuro chiedere all'agente di eseguire attività specifiche e ben definite. Anche se questo non elimina il rischio, rende più difficile eseguire gli attacchi.

Se gli agenti devono diventare partner fidati per le attività quotidiane, devono essere resilienti ai tipi di manipolazioni che il web aperto introduce. Rafforzare la protezione contro la prompt injection è un impegno a lungo termine ed è una delle nostre principali priorità. Condivideremo presto ulteriori informazioni su questo lavoro.

Autore

OpenAI