Comprendere le iniezioni di prompt: una sfida di sicurezza di frontiera
Gli strumenti di intelligenza artificiale ora non si limitano più a rispondere a delle domande. Possono navigare sul web, coadiuvare attività di ricerca, pianificare viaggi e accompagnare nell'acquisto di prodotti. Man mano che diventano più capaci, potendo accedere ai tuoi dati in altre app e agire per tuo conto, emergono nuove sfide di sicurezza. Una delle aree su cui ci stiamo concentrando in particolare è l'iniezione di prompt.
L'iniezione di prompt è un tipo di attacco di ingegneria sociale specifico per l'intelligenza artificiale conversazionale. I primi sistemi di IA consistevano in conversazioni tra un singolo utente e un singolo agente di IA. Nei prodotti di IA di oggi, la tua conversazione può includere contenuti provenienti da molte fonti, tra cui Internet. L'idea che una terza parte (che non è l'utente e non è l'IA) potesse ingannare il modello inserendo istruzioni dannose nel contesto della conversazione ha portato al termine “iniezione di prompt”.
Nello stesso modo in cui le e-mail di phishing o le truffe sul web cercano di ingannare le persone inducendole a divulgare informazioni sensibili, le iniezioni di prompt cercano di ingannare le IA inducendole a eseguire azioni non richieste.
Immagina di aver chiesto a un'IA di aiutarti a fare ricerche online per le vacanze e che, nel farlo, si imbatta in contenuti fuorvianti o istruzioni dannose nascoste in una pagina web, come il commento su un annuncio o in una recensione. Il contenuto potrebbe essere attentamente progettato per ingannare un'IA affinché raccomandi l'inserzione sbagliata o, peggio ancora, sottragga le informazioni della tua carta di credito.
Questi sono solo alcuni esempi di attacchi di “iniezione di prompt“: istruzioni dannose progettate per indurre un'IA a compiere azioni non volute, spesso nascoste all'interno di contenuti ordinari come una pagina web, un documento o un'e-mail.
Questi rischi aumentano man mano che le IA hanno accesso a dati più sensibili, assumono maggiore iniziativa e svolgono compiti più lunghi.
Riepilogo | Ciò che hai chiesto di fare all'IA | Cosa fa l'hacker | Possibile risultato qualora l'attacco vada a buon fine |
Chiedi a un'IA di cercare appartamenti, ma viene manipolata tramite un'iniezione di prompt affinché ti consigli un annuncio che non è la scelta migliore per te. | Chiedi a un'IA di ricercare appartamenti secondo alcuni specifici criteri. | L'hacker ha incluso un attacco di iniezione di prompt nell'annuncio dell'appartamento per ingannare l'IA facendole credere che tale annuncio debba essere selezionato indipendentemente dalle preferenze espresse dall'utente. | Se l'attacco va a buon fine, l'IA potrebbe consigliare erroneamente un annuncio di appartamento non ottimale rispetto alle tue preferenze |
Chiedi a un agente IA di rispondere alle tue e-mail notturne, ma finisce per condividere i tuoi estratti conto bancari. | Chiedi a un agente IA di rispondere generalmente alle tue e-mail ricevute durante la notte perché al mattino sei impegnato. Vedi “Quando possibile, fornire istruzioni esplicite a un agente“ qui di seguito. | L'hacker ti ha inviato un'e-mail contenente informazioni fuorvianti che inducono il modello a cercare i tuoi estratti conto bancari e a inviarglieli. | Se l'attacco va a buon fine, l'agente potrebbe cercare documenti come estratti conto bancari nella tua e-mail (a cui hai dato accesso per l'attività) e condividerli con l'hacker. |
La difesa contro l'iniezione di prompt rappresenta una sfida per l'intero settore dell'IA ed è un obiettivo centrale per OpenAI. Sebbene ci aspettiamo che gli avversari continuino a sviluppare tali attacchi, stiamo costruendo difese progettate per eseguire il compito previsto dall'utente anche quando qualcuno sta attivamente cercando di ingannarlo. Questa capacità è fondamentale per garantire in sicurezza i benefici dell'AGI.
Per proteggere i nostri utenti e migliorare i nostri modelli contro questi attacchi, adottiamo un approccio a più livelli, che include i seguenti elementi:
Desideriamo un'IA che riconosca le iniezioni di prompt e le eviti. Tuttavia, la robustezza agli attacchi avversari rappresenta una sfida di lunga data per l'apprendimento automatico e l'intelligenza artificiale, rendendo questo un problema complesso e ancora irrisolto. Abbiamo sviluppato una ricerca denominata Gerarchia delle istruzioni per sviluppare modelli che distinguano tra istruzioni affidabili e non affidabili. Continuiamo a sviluppare nuovi approcci per addestrare i modelli a riconoscere meglio i pattern di iniezione di prompt, così da poterli ignorare o segnalarli agli utenti. Una delle tecniche che applichiamo è il red teaming automatizzato, un settore che studiamo(si apre in una nuova finestra) da anni per sviluppare nuovi attacchi di iniezione di prompt.
Abbiamo sviluppato diversi monitor automatizzati basati sull'intelligenza artificiale per identificare e bloccare gli attacchi di iniezione di prompt. Queste misure integrano gli approcci di addestramento sulla sicurezza, perché possono essere aggiornate rapidamente per bloccare tempestivamente eventuali nuovi attacchi che individuiamo. Questi monitor non solo aiutano a individuare potenziali attacchi di iniezione di prompt contro i nostri utenti, ma ci consentono anche di intercettare la ricerca e i test avversari di iniezione di prompt che utilizzano la nostra piattaforma, prima che tali attacchi vengano lanciati nel mondo reale.
Abbiamo progettato i nostri prodotti e la nostra infrastruttura con diverse protezioni di sicurezza sovrapposte per aiutare a proteggere i dati degli utenti. Queste funzionalità, che esploreremo in modo più tecnico nei post futuri, sono adattate a ogni singolo prodotto. Ad esempio, per aiutarti a evitare siti non attendibili, ti chiederemo di approvare alcuni link in ChatGPT, specialmente su siti web che ci chiedono di non catalogarli(si apre in una nuova finestra), prima che possano essere visitati. Quando la nostra IA utilizza strumenti per eseguire altri programmi o codice (come in Canvas o nel nostro strumento di sviluppo Codex), adottiamo una tecnica chiamata sandboxing per evitare che il modello apporti modifiche dannose che potrebbero derivare da un'iniezione di prompt.
Includiamo controlli integrati nei nostri prodotti per aiutare gli utenti a proteggersi. Ad esempio, in ChatGPT Atlas, puoi selezionare la modalità disconnessa che permette all'agente ChatGPT di avviare attività senza effettuare l'accesso ai siti. L'agente ChatGPT si ferma e chiede conferma prima di eseguire azioni sensibili, come un acquisto. Quando l'agente opera su siti sensibili, abbiamo implementato una “Modalità osservazione“ che ti avvisa della natura sensibile del sito e richiede che la scheda sia attiva per osservare l'agente mentre svolge il suo lavoro. L'agente si metterà in pausa non appena ti allontanerai dalla scheda contenente informazioni sensibili. Questo ti garantisce di mantenere consapevolezza e controllo delle azioni che l'agente sta eseguendo.
Eseguiamo un red teaming approfondito con team interni ed esterni per testare e migliorare le nostre difese, emulare il comportamento degli hacker e rafforzare le nostre funzionalità di sicurezza. Ciò include migliaia di ore dedicate specificamente all'iniezione di prompt. Man mano che scopriamo nuove tecniche e attacchi, i nostri team affrontano preventivamente le vulnerabilità di sicurezza e migliorano le mitigazioni del nostro modello.
Per incoraggiare ricercatori indipendenti di sicurezza che operano in buona fede ad aiutarci a individuare nuove tecniche e attacchi di iniezione di prompt, offriamo ricompense economiche nell'ambito del nostro programma bug bounty(si apre in una nuova finestra) quando dimostrano un percorso di attacco realistico che potrebbe portare all’esposizione involontaria dei dati degli utenti. Incentiviamo i collaboratori esterni a segnalare rapidamente questi problemi, così da poterli risolvere e rafforzare ulteriormente le nostre difese.
Informiamo gli utenti sui rischi associati all'uso di alcune funzionalità del prodotto, affinché possano prendere decisioni consapevoli. Ad esempio, quando ChatGPT viene collegata ad altre app, spieghiamo a quali dati avrebbe accesso, come potrebbero essere utilizzati e quali rischi potrebbero presentarsi, ad esempio un sito che tenta di rubare i tuoi dati, e forniamo un link per scoprire come proteggerti al meglio. Inoltre forniamo alle aziende il controllo sulle funzionalità che gli utenti possono abilitare o utilizzare nelle loro aree di lavoro.
L'iniezione di prompt è una sfida di sicurezza di frontiera che, a nostro avviso, continuerà a evolversi nel tempo. Nuovi livelli di intelligenza e capacità richiedono che la tecnologia, la società e la strategia di mitigazione del rischio si sviluppino insieme. E come per i virus informatici dei primi anni 2000, riteniamo sia importante che tutti comprendano la minaccia delle iniezioni di prompt e come gestire il rischio, in modo da beneficiare di questa tecnologia in modo sicuro. Essere consapevoli e cauti permette a ciascuno di tutelare meglio i propri dati quando utilizza l'IA e le funzionalità agentiche che operano in sua vece.
Quando possibile, limita l'accesso dell'agente soltanto ai dati sensibili o alle credenziali necessarie per completare il compito. Ad esempio, quando utilizzi la modalità agente in ChatGPT Atlas per fare ricerche sulle vacanze, se l'agente sta solo effettuando ricerche e non necessita di accesso connesso, utilizza la modalità “disconnesso”.
Spesso progettiamo gli agenti in modo che chiedano una conferma finale da parte tua prima di compiere azioni rilevanti, come completare un acquisto o inviare un'email. Quando un agente ti chiede di confermare un'azione, verifica attentamente che l'azione sia corretta e che le informazioni condivise siano appropriate per quel contesto.
Quando un agente opera su un sito sensibile, come la tua banca, osserva l'agente mentre svolge il suo lavoro. È simile a monitorare un'auto a guida autonoma tenendo le mani sul volante.
Fornire a un agente istruzioni molto ampie come “esamina le mie e-mail e intraprendi qualsiasi azione necessaria“ può facilitare l'inganno del modello da parte di contenuti dannosi nascosti, anche se è progettato per consultarti prima di eseguire azioni sensibili.
È più sicuro chiedere al tuo agente di svolgere compiti specifici e non concedergli troppa libertà, portandolo a seguire istruzioni dannose provenienti da altre fonti, come le e-mail. Anche se questo non garantisce che non vi saranno attacchi, complica la vita agli hacker.
Con l'evoluzione della tecnologia IA, emergeranno nuovi rischi e misure di salvaguardia. Segui gli aggiornamenti di OpenAI e altre fonti affidabili per apprendere le migliori pratiche.
L'iniezione di prompt rimane un problema impegnativi di ricerca di frontiera e, proprio come le truffe tradizionali sul web, ci aspettiamo di continuare a lavorare in questo senso. Sebbene non vi sia ancora stata un'adozione significativa di questa tecnica da parte degli hacker, ci aspettiamo che gli avversari dedichino tempo e risorse significativi a trovare modi per far cadere le IA in questi attacchi. Continuiamo a investire in modo sostanziale nella sicurezza dei nostri prodotti e nella ricerca volta a rafforzare la robustezza dell'IA rispetto a questo rischio. Condivideremo aggiornamenti man mano che avremo ulteriori informazioni, inclusi i progressi continui nel nostro lavoro sulla sicurezza in quest'area. Ad esempio, stiamo preparando un rapporto che pubblicheremo presto e che fornirà maggiori dettagli su come rileviamo se la comunicazione tra la tua IA e Internet potrebbe trasmettere informazioni provenienti dalla tua conversazione.
Il nostro obiettivo è rendere questi sistemi affidabili e sicuri come lavorare con un collega o amico fidato e attento alla sicurezza. Continueremo a imparare dall'uso nel mondo reale, a iterare in modo sicuro e a pubblicare ciò che apprendiamo man mano che la tecnologia avanza.


