Vai al contenuto principale
OpenAI

7 novembre 2025

Sicurezza

Comprendere le iniezioni di prompt: una sfida di sicurezza di frontiera

Gli strumenti di intelligenza artificiale ora non si limitano più a rispondere a delle domande. Possono navigare sul web, coadiuvare attività di ricerca, pianificare viaggi e accompagnare nell'acquisto di prodotti. Man mano che diventano più capaci, potendo accedere ai tuoi dati in altre app e agire per tuo conto, emergono nuove sfide di sicurezza. Una delle aree su cui ci stiamo concentrando in particolare è l'iniezione di prompt.

Un diagramma che illustra come funziona un attacco di iniezione di prompt. Sulla sinistra, un'icona di un utente sorridente è etichettata “L'utente chiede aiuto all'IA per un'attività“. Una freccia punta al centro, dove un'icona di schermo di computer è etichettata “L'IA vede un sito web con l'attacco“ e, sopra di essa, una piccola figura con un cappello e un ghigno è etichettata “L'aggressore ha inserito un'iniezione di prompt“. Un'altra freccia punta verso destra mostrando un'icona di documento con un triangolo di avviso etichettato “L'IA viene indotta a compiere un'azione non intenzionale“. Il flusso dimostra come un hacker possa manipolare l'IA attraverso l'iniezione di prompt.

Che cos'è un'iniezione di prompt?

L'iniezione di prompt è un tipo di attacco di ingegneria sociale specifico per l'intelligenza artificiale conversazionale. I primi sistemi di IA consistevano in conversazioni tra un singolo utente e un singolo agente di IA. Nei prodotti di IA di oggi, la tua conversazione può includere contenuti provenienti da molte fonti, tra cui Internet. L'idea che una terza parte (che non è l'utente e non è l'IA) potesse ingannare il modello inserendo istruzioni dannose nel contesto della conversazione ha portato al termine “iniezione di prompt”.

Nello stesso modo in cui le e-mail di phishing o le truffe sul web cercano di ingannare le persone inducendole a divulgare informazioni sensibili, le iniezioni di prompt cercano di ingannare le IA inducendole a eseguire azioni non richieste.

Immagina di aver chiesto a un'IA di aiutarti a fare ricerche online per le vacanze e che, nel farlo, si imbatta in contenuti fuorvianti o istruzioni dannose nascoste in una pagina web, come il commento su un annuncio o in una recensione. Il contenuto potrebbe essere attentamente progettato per ingannare un'IA affinché raccomandi l'inserzione sbagliata o, peggio ancora, sottragga le informazioni della tua carta di credito.

Questi sono solo alcuni esempi di attacchi di “iniezione di prompt“: istruzioni dannose progettate per indurre un'IA a compiere azioni non volute, spesso nascoste all'interno di contenuti ordinari come una pagina web, un documento o un'e-mail.

Questi rischi aumentano man mano che le IA hanno accesso a dati più sensibili, assumono maggiore iniziativa e svolgono compiti più lunghi.

Riepilogo

Ciò che hai chiesto di fare all'IA

Cosa fa l'hacker

Possibile risultato qualora l'attacco vada a buon fine

Chiedi a un'IA di cercare appartamenti, ma viene manipolata tramite un'iniezione di prompt affinché ti consigli un annuncio che non è la scelta migliore per te.

Chiedi a un'IA di ricercare appartamenti secondo alcuni specifici criteri.

L'hacker ha incluso un attacco di iniezione di prompt nell'annuncio dell'appartamento per ingannare l'IA facendole credere che tale annuncio debba essere selezionato indipendentemente dalle preferenze espresse dall'utente.

Se l'attacco va a buon fine, l'IA potrebbe consigliare erroneamente un annuncio di appartamento non ottimale rispetto alle tue preferenze

Chiedi a un agente IA di rispondere alle tue e-mail notturne, ma finisce per condividere i tuoi estratti conto bancari.

Chiedi a un agente IA di rispondere generalmente alle tue e-mail ricevute durante la notte perché al mattino sei impegnato.

Vedi “Quando possibile, fornire istruzioni esplicite a un agente“ qui di seguito.


L'hacker ti ha inviato un'e-mail contenente informazioni fuorvianti che inducono il modello a cercare i tuoi estratti conto bancari e a inviarglieli.

Se l'attacco va a buon fine, l'agente potrebbe cercare documenti come estratti conto bancari nella tua e-mail (a cui hai dato accesso per l'attività) e condividerli con l'hacker.

Il nostro approccio alla protezione degli utenti

La difesa contro l'iniezione di prompt rappresenta una sfida per l'intero settore dell'IA ed è un obiettivo centrale per OpenAI. Sebbene ci aspettiamo che gli avversari continuino a sviluppare tali attacchi, stiamo costruendo difese progettate per eseguire il compito previsto dall'utente anche quando qualcuno sta attivamente cercando di ingannarlo. Questa capacità è fondamentale per garantire in sicurezza i benefici dell'AGI.

Per proteggere i nostri utenti e migliorare i nostri modelli contro questi attacchi, adottiamo un approccio a più livelli, che include i seguenti elementi:

Formazione sulla sicurezza

Desideriamo un'IA che riconosca le iniezioni di prompt e le eviti. Tuttavia, la robustezza agli attacchi avversari rappresenta una sfida di lunga data per l'apprendimento automatico e l'intelligenza artificiale, rendendo questo un problema complesso e ancora irrisolto. Abbiamo sviluppato una ricerca denominata Gerarchia delle istruzioni per sviluppare modelli che distinguano tra istruzioni affidabili e non affidabili. Continuiamo a sviluppare nuovi approcci per addestrare i modelli a riconoscere meglio i pattern di iniezione di prompt, così da poterli ignorare o segnalarli agli utenti. Una delle tecniche che applichiamo è il red teaming automatizzato, un settore che studiamo(si apre in una nuova finestra) da anni per sviluppare nuovi attacchi di iniezione di prompt.

Monitoraggio

Abbiamo sviluppato diversi monitor automatizzati basati sull'intelligenza artificiale per identificare e bloccare gli attacchi di iniezione di prompt. Queste misure integrano gli approcci di addestramento sulla sicurezza, perché possono essere aggiornate rapidamente per bloccare tempestivamente eventuali nuovi attacchi che individuiamo. Questi monitor non solo aiutano a individuare potenziali attacchi di iniezione di prompt contro i nostri utenti, ma ci consentono anche di intercettare la ricerca e i test avversari di iniezione di prompt che utilizzano la nostra piattaforma, prima che tali attacchi vengano lanciati nel mondo reale.

Misure di protezione della sicurezza

Abbiamo progettato i nostri prodotti e la nostra infrastruttura con diverse protezioni di sicurezza sovrapposte per aiutare a proteggere i dati degli utenti. Queste funzionalità, che esploreremo in modo più tecnico nei post futuri, sono adattate a ogni singolo prodotto. Ad esempio, per aiutarti a evitare siti non attendibili, ti chiederemo di approvare alcuni link in ChatGPT, specialmente su siti web che ci chiedono di non catalogarli(si apre in una nuova finestra), prima che possano essere visitati. Quando la nostra IA utilizza strumenti per eseguire altri programmi o codice (come in Canvas o nel nostro strumento di sviluppo Codex), adottiamo una tecnica chiamata sandboxing per evitare che il modello apporti modifiche dannose che potrebbero derivare da un'iniezione di prompt.

Il controllo agli utenti

Includiamo controlli integrati nei nostri prodotti per aiutare gli utenti a proteggersi. Ad esempio, in ChatGPT Atlas, puoi selezionare la modalità disconnessa che permette all'agente ChatGPT di avviare attività senza effettuare l'accesso ai siti. L'agente ChatGPT si ferma e chiede conferma prima di eseguire azioni sensibili, come un acquisto. Quando l'agente opera su siti sensibili, abbiamo implementato una “Modalità osservazione“ che ti avvisa della natura sensibile del sito e richiede che la scheda sia attiva per osservare l'agente mentre svolge il suo lavoro. L'agente si metterà in pausa non appena ti allontanerai dalla scheda contenente informazioni sensibili. Questo ti garantisce di mantenere consapevolezza e controllo delle azioni che l'agente sta eseguendo.

Red teaming

Eseguiamo un red teaming approfondito con team interni ed esterni per testare e migliorare le nostre difese, emulare il comportamento degli hacker e rafforzare le nostre funzionalità di sicurezza. Ciò include migliaia di ore dedicate specificamente all'iniezione di prompt. Man mano che scopriamo nuove tecniche e attacchi, i nostri team affrontano preventivamente le vulnerabilità di sicurezza e migliorano le mitigazioni del nostro modello.

Bug Bounty

Per incoraggiare ricercatori indipendenti di sicurezza che operano in buona fede ad aiutarci a individuare nuove tecniche e attacchi di iniezione di prompt, offriamo ricompense economiche nell'ambito del nostro programma bug bounty(si apre in una nuova finestra) quando dimostrano un percorso di attacco realistico che potrebbe portare all’esposizione involontaria dei dati degli utenti. Incentiviamo i collaboratori esterni a segnalare rapidamente questi problemi, così da poterli risolvere e rafforzare ulteriormente le nostre difese.

La scelta rimane agli utenti

Informiamo gli utenti sui rischi associati all'uso di alcune funzionalità del prodotto, affinché possano prendere decisioni consapevoli. Ad esempio, quando ChatGPT viene collegata ad altre app, spieghiamo a quali dati avrebbe accesso, come potrebbero essere utilizzati e quali rischi potrebbero presentarsi, ad esempio un sito che tenta di rubare i tuoi dati, e forniamo un link per scoprire come proteggerti al meglio. Inoltre forniamo alle aziende il controllo sulle funzionalità che gli utenti possono abilitare o utilizzare nelle loro aree di lavoro.

Azioni che puoi intraprendere per rimanere più al sicuro

L'iniezione di prompt è una sfida di sicurezza di frontiera che, a nostro avviso, continuerà a evolversi nel tempo. Nuovi livelli di intelligenza e capacità richiedono che la tecnologia, la società e la strategia di mitigazione del rischio si sviluppino insieme. E come per i virus informatici dei primi anni 2000, riteniamo sia importante che tutti comprendano la minaccia delle iniezioni di prompt e come gestire il rischio, in modo da beneficiare di questa tecnologia in modo sicuro. Essere consapevoli e cauti permette a ciascuno di tutelare meglio i propri dati quando utilizza l'IA e le funzionalità agentiche che operano in sua vece.

Le funzionalità integrate limitano l'accesso ai dati sensibili

Quando possibile, limita l'accesso dell'agente soltanto ai dati sensibili o alle credenziali necessarie per completare il compito. Ad esempio, quando utilizzi la modalità agente in ChatGPT Atlas per fare ricerche sulle vacanze, se l'agente sta solo effettuando ricerche e non necessita di accesso connesso, utilizza la modalità “disconnesso”.

Quando un agente richiede conferma, verifica attentamente che stia per compiere l'azione corretta.

Spesso progettiamo gli agenti in modo che chiedano una conferma finale da parte tua prima di compiere azioni rilevanti, come completare un acquisto o inviare un'email. Quando un agente ti chiede di confermare un'azione, verifica attentamente che l'azione sia corretta e che le informazioni condivise siano appropriate per quel contesto.

Quando un agente opera su un sito sensibile, come la tua banca, osserva l'agente mentre svolge il suo lavoro. È simile a monitorare un'auto a guida autonoma tenendo le mani sul volante.

Ove possibile, fornire istruzioni esplicite all'agente

Fornire a un agente istruzioni molto ampie come “esamina le mie e-mail e intraprendi qualsiasi azione necessaria“ può facilitare l'inganno del modello da parte di contenuti dannosi nascosti, anche se è progettato per consultarti prima di eseguire azioni sensibili.

È più sicuro chiedere al tuo agente di svolgere compiti specifici e non concedergli troppa libertà, portandolo a seguire istruzioni dannose provenienti da altre fonti, come le e-mail. Anche se questo non garantisce che non vi saranno attacchi, complica la vita agli hacker.

Rimanere informati e seguire le buone prassi di sicurezza

Con l'evoluzione della tecnologia IA, emergeranno nuovi rischi e misure di salvaguardia. Segui gli aggiornamenti di OpenAI e altre fonti affidabili per apprendere le migliori pratiche.

Prospettive future

L'iniezione di prompt rimane un problema impegnativi di ricerca di frontiera e, proprio come le truffe tradizionali sul web, ci aspettiamo di continuare a lavorare in questo senso. Sebbene non vi sia ancora stata un'adozione significativa di questa tecnica da parte degli hacker, ci aspettiamo che gli avversari dedichino tempo e risorse significativi a trovare modi per far cadere le IA in questi attacchi. Continuiamo a investire in modo sostanziale nella sicurezza dei nostri prodotti e nella ricerca volta a rafforzare la robustezza dell'IA rispetto a questo rischio. Condivideremo aggiornamenti man mano che avremo ulteriori informazioni, inclusi i progressi continui nel nostro lavoro sulla sicurezza in quest'area. Ad esempio, stiamo preparando un rapporto che pubblicheremo presto e che fornirà maggiori dettagli su come rileviamo se la comunicazione tra la tua IA e Internet potrebbe trasmettere informazioni provenienti dalla tua conversazione.

Il nostro obiettivo è rendere questi sistemi affidabili e sicuri come lavorare con un collega o amico fidato e attento alla sicurezza. Continueremo a imparare dall'uso nel mondo reale, a iterare in modo sicuro e a pubblicare ciò che apprendiamo man mano che la tecnologia avanza.