Salta al contingut principal
OpenAI

7 de novembre del 2025

Seguretat

Entendre les injeccions d'indicacions: un repte de seguretat d'avantguarda

Les eines d'IA comencen a fer més que respondre preguntes. Ara poden navegar per internet, ajudar amb la recerca, planificar viatges i ajudar a comprar productes. A mesura que es tornen més capaces, amb la possibilitat d'accedir a les teves dades en altres aplicacions i dur a terme accions en nom teu, apareixen nous reptes de seguretat. Un dels que ens preocupa especialment és la injecció d'indicacions.

Un diagrama que il·lustra com funciona un atac d'injecció d'indicacions. A l'esquerra, una icona d'un usuari somrient porta l'etiqueta «L'usuari demana ajuda a la IA amb una tasca». Una fletxa apunta cap al centre, on una icona d'una pantalla d'ordinador porta l'etiqueta «La IA veu un lloc web amb l'atac», i a sobre hi ha una figura petita amb barret i un somriure burleta amb l'etiqueta «L'atacant ha inserit una injecció d'indicacions». Una altra fletxa porta cap a la dreta, on es mostra una icona de document amb un triangle d'advertència i l'etiqueta «La IA és enganyada perquè faci una acció no desitjada». El flux demostra com un atacant pot manipular la IA mitjançant indicacions injectades.

Què és una injecció d'indicacions?

La injecció d'indicacions és un tipus d'atac d'enginyeria social específic de la IA conversacional. Els primers sistemes d'IA eren converses entre un únic usuari i un únic agent d'IA. En els productes d'IA actuals, la teva conversa pot incloure contingut de moltes fonts, inclòs internet. La idea que un tercer (és a dir, que no és l'usuari ni la IA) pugui induir a error el model injectant instruccions malicioses en el context de la conversa va donar lloc al terme «injecció d'indicacions».

De la mateixa manera que els correus electrònics de pesca o les estafes al web intenten enganyar les persones perquè revelin informació sensible, les injeccions d'indicacions intenten enganyar les IA perquè facin una cosa que tu no has demanat.

Imagina que has demanat a una IA que t'ajudi a fer recerca en línia per a unes vacances i, mentre ho fa, es troba amb contingut enganyós o instruccions perjudicials amagades en una pàgina web, com ara en un comentari d'un anunci o d'una ressenya. El contingut es podria haver elaborat amb cura per intentar enganyar una IA perquè recomani l'anunci equivocat o, pitjor encara, per robar la informació de la teva targeta de crèdit.

Aquests són només alguns exemples d'atacs d'«injecció d'indicacions»: instruccions perjudicials dissenyades per enganyar una IA perquè faci alguna cosa que no pretenies, sovint amagades dins de contingut ordinari com ara una pàgina web, un document o un correu electrònic.

Aquests riscos augmenten a mesura que les IA tenen accés a dades més sensibles i assumeixen més iniciativa i tasques més llargues.

Resum

El que vas demanar a la IA que fes

El que fa l'atacant

Possible resultat si l'atac té èxit

Demanes a una IA que investigui apartaments, i rep una injecció d'indicacions perquè et recomani un anunci que no és la millor opció per a tu.

Demanes a una IA que investigui apartaments amb uns criteris determinats.

L'atacant ha inclòs un atac d'injecció d'indicacions a l'anunci de l'apartament per enganyar la IA i fer-li pensar que s'ha de triar el seu anunci independentment de les preferències indicades per l'usuari.

Si l'atac té èxit, la IA pot recomanar incorrectament un anunci d'apartament no òptim segons les teves preferències.

Demanes a un agent d'IA que respongui als teus correus electrònics de la nit, i acaba compartint els teus extractes bancaris.

Demanes a un agent d'IA que, en general, respongui als teus correus electrònics de la nit perquè aquest matí estàs ocupat.

Mira «Quan sigui possible, dona instruccions explícites a un agent» més avall


L'atacant t'ha enviat un correu electrònic que inclou informació falsa que enganya el model perquè trobi els teus extractes bancaris i els comparteixi amb l'atacant.

Si l'atac té èxit, l'agent pot buscar al teu correu qualsevol cosa semblant a extractes bancaris (al qual li has donat accés per a la tasca) i els compartirà amb l'atacant.

El nostre enfocament per protegir els usuaris

Defensar-se contra la injecció d'indicacions és un repte per a tot el sector de la IA i un objectiu central a OpenAI. Tot i que esperem que els adversaris continuïn desenvolupant aquests atacs, estem construint defenses dissenyades per dur a terme la tasca que l'usuari volia fer fins i tot quan algú intenta activament enganyar-los. Aquesta capacitat és essencial per fer realitat de manera segura els beneficis de l'AGI.

Per protegir els nostres usuaris, i per ajudar a millorar els nostres models contra aquests atacs, adoptem un enfocament multicapa, que inclou el següent:

Entrenament de seguretat

Volem una IA que reconegui les injeccions d'indicacions i no hi caigui. Tanmateix, la robustesa davant d'atacs adversaris és un repte històric de l'aprenentatge automàtic i la IA, cosa que fa que aquest sigui un problema difícil i obert. Hem desenvolupat una línia de recerca anomenada Instruction Hierarchy per avançar cap a models que distingeixin entre instruccions de confiança i no fiables. Continuem desenvolupant nous enfocaments per entrenar models perquè reconeguin millor els patrons d'injecció d'indicacions, de manera que puguin ignorar-los o avisar-ne els usuaris. Una de les tècniques que apliquem és el red-teaming automatitzat, un àmbit que fa anys que estudiem(s'obre en una finestra nova), per desenvolupar nous atacs d'injecció d'indicacions.

Monitoratge

Hem desenvolupat diversos monitors automatitzats impulsats per IA per identificar i bloquejar atacs d'injecció d'indicacions. Aquests complementen els enfocaments d'entrenament de seguretat perquè es poden actualitzar ràpidament per bloquejar amb celeritat qualsevol atac nou que descobrim. Aquests monitors no només ajuden a identificar possibles atacs d'injecció d'indicacions contra els nostres usuaris, sinó que també ens poden permetre detectar recerca i proves adversàries d'injecció d'indicacions que facin servir la nostra plataforma abans que aquests atacs es despleguin en entorns reals.

Proteccions de seguretat

Hem dissenyat els nostres productes i la nostra infraestructura amb diverses proteccions de seguretat superposades per ajudar a salvaguardar les dades dels usuaris. Aquestes funcions, que explorarem amb més detall tècnic en futures publicacions, s'adapten a cada producte. Per exemple, per ajudar-te a evitar llocs no fiables, et demanarem que aprovis certs enllaços a ChatGPT, especialment als llocs web que ens demanen que no els cataloguem(s'obre en una finestra nova), abans que es puguin visitar. Quan la nostra IA utilitza eines per executar altres programes o codi (com a Llenç, o a la nostra eina de desenvolupament Codex), fem servir una tècnica anomenada sandboxing per evitar que el model faci canvis perjudicials que podrien ser el resultat d'una injecció d'indicacions.

Donar control als usuaris

Incloem controls integrats als nostres productes per ajudar els usuaris a protegir-se. Per exemple, a ChatGPT Atlas, pots seleccionar el mode de sessió tancada, que permet que l'agent de ChatGPT iniciï tasques sense haver iniciat sessió als llocs. L'agent de ChatGPT també es posa en pausa i demana confirmació abans de fer passos sensibles, com ara completar una compra. Quan l'agent opera en llocs sensibles, també hem implementat un «Mode de vigilància» que t'alerta de la naturalesa sensible del lloc i requereix que tinguis la pestanya activa per observar com l'agent fa la seva feina. L'agent es posarà en pausa si surts de la pestanya amb informació sensible. Això garanteix que siguis conscient —i mantinguis el control— de quines accions està fent l'agent.

Red-teaming

Fem un ampli red-teaming amb equips interns i externs per provar i millorar les nostres defenses, emular el comportament dels atacants i trobar noves maneres de millorar la nostra seguretat. Això inclou milers d'hores centrades específicament en la injecció d'indicacions. A mesura que hem descobert noves tècniques i atacs, els nostres equips aborden de manera proactiva les vulnerabilitats de seguretat i milloren les mitigacions del nostre model.

Programa de recompenses per errors

Per animar investigadors independents en seguretat que actuen de bona fe a ajudar-nos a descobrir noves tècniques i atacs d'injecció d'indicacions, oferim recompenses econòmiques dins del nostre programa de recompenses per errors(s'obre en una finestra nova) quan mostren una via d'atac realista que podria provocar una exposició no desitjada de dades d'usuaris. Incentivem els col·laboradors externs a fer aflorar aquests problemes ràpidament perquè els puguem resoldre i reforçar encara més les nostres defenses.

Deixar decidir els usuaris

Informem els usuaris dels riscos d'utilitzar determinades funcions del producte perquè puguin prendre decisions informades. Per exemple, quan connectes ChatGPT a altres aplicacions, expliquem a quines dades es pot accedir, com es poden utilitzar i quins riscos poden sorgir, com ara que un lloc intenti robar les teves dades, juntament amb un enllaç per aprendre a mantenir-te més segur. També donem a les organitzacions control sobre quines funcions es poden habilitar o fer servir pels usuaris als seus espais de treball.

Passos que pots fer per mantenir-te més segur

La injecció d'indicacions és un repte de seguretat d'avantguarda que esperem que continuï evolucionant amb el temps. Nous nivells d'intel·ligència i capacitat exigeixen que la tecnologia, la societat i l'estratègia de mitigació del risc coevolucionin. I, igual que amb els virus informàtics de principis dels anys 2000, creiem que és important que tothom entengui l'amenaça de les injeccions d'indicacions i com gestionar-ne el risc, perquè tots puguem aprendre a beneficiar-nos d'aquesta tecnologia de manera segura. Mantenir-se atent i actuar amb cautela ajuda a mantenir les teves dades més segures quan fas servir IA i funcions d'agent que poden actuar en nom teu.

Fes servir les funcions integrades per limitar l'accés a dades sensibles

Sempre que sigui possible, limita l'accés d'un agent només a les dades sensibles o credencials que necessita per completar la tasca. Per exemple, quan facis servir el mode agent a ChatGPT Atlas per fer recerca per a unes vacances, si l'agent només investiga i no necessita accés amb sessió iniciada, fes servir el mode «sessió tancada».

Quan un agent et demani confirmació, revisa amb cura que estigui a punt de fer el que toca

Sovint dissenyem els agents perquè obtinguin una confirmació final teva abans de dur a terme determinades accions importants, com completar una compra o enviar un correu electrònic. Quan un agent et demani que confirmis una acció, comprova amb cura que l'acció sembli correcta i que qualsevol informació que es comparteixi sigui adequada per compartir en aquell context.

Quan un agent opera en un lloc sensible, com ara el teu banc, observa com l'agent fa la seva feina. Això s'assembla a supervisar un cotxe autònom mantenint les mans al volant.

Quan sigui possible, dona instruccions explícites a un agent

Donar a un agent una instrucció molt àmplia com ara "revisa els meus correus electrònics i fes qualsevol acció que calgui" pot fer més fàcil que contingut maliciós ocult indueixi a error el model, tot i que estigui dissenyat per consultar-t'ho abans de dur a terme accions sensibles.

És més segur demanar al teu agent que faci coses concretes i no donar-li un marge ampli perquè pugui seguir instruccions perjudicials provinents d'altres llocs, com ara els correus electrònics. Tot i que això no garanteix que no hi haurà atacs, fa més difícil que els atacants tinguin èxit.

Mantén-te informat i segueix les bones pràctiques de seguretat

A mesura que la tecnologia d'IA evoluciona, sorgiran nous riscos i noves salvaguardes. Segueix les actualitzacions d'OpenAI i d'altres fonts de confiança per conèixer les bones pràctiques.

Mirant cap al futur

La injecció d'indicacions continua sent un problema de recerca d'avantguarda i difícil, i, igual que les estafes tradicionals al web, esperem que la nostra feina sigui continuada. Tot i que encara no hem vist una adopció significativa d'aquesta tècnica per part dels atacants, esperem que els adversaris hi dediquin molt de temps i recursos per trobar maneres de fer que les IA caiguin en aquests atacs. Continuem invertint molt per fer que els nostres productes siguin segurs i en recerca per avançar en la robustesa de la IA davant d'aquest risc. Compartirem actualitzacions a mesura que n'aprenguem més, inclòs el progrés continuat en la nostra feina de seguretat en aquest àmbit. Per exemple, estem elaborant un informe que publicarem aviat i que compartirà més detalls sobre com detectem si la comunicació de la teva IA amb internet transmetria informació de la teva conversa.

El nostre objectiu és fer que aquests sistemes siguin tan fiables i segurs com treballar amb el teu col·lega o amic més digne de confiança i amb més coneixements de seguretat. Continuarem aprenent de l'ús al món real, iterant de manera segura i publicant el que aprenem a mesura que la tecnologia avanci.