Disseny d’agents d’IA per resistir la injecció d'indicacions
Què ens ensenya l’enginyeria social sobre la protecció dels agents d’IA.
Els agents d’IA cada cop poden més navegar per la web, recuperar informació i dur a terme accions en nom d’un usuari. Aquestes capacitats són útils, però també creen noves vies perquè els atacants intentin manipular el sistema.
Aquests atacs sovint es descriuen com a injecció d'indicacions: instruccions col·locades en contingut extern amb l’intent de fer que el model faci una cosa que l’usuari no ha demanat. Segons la nostra experiència, les versions reals més eficaces d’aquests atacs s’assemblen cada cop més a l’enginyeria social que no pas a simples substitucions d’indicacions.
Aquest canvi és important. Si el problema no és només identificar una cadena maliciosa, sinó resistir contingut enganyós o manipulador dins del context, aleshores la defensa no pot basar-se només a filtrar entrades. També cal dissenyar el sistema de manera que l’impacte de la manipulació quedi limitat, fins i tot si alguns atacs tenen èxit.
Els primers atacs del tipus «injecció d'indicacions» podien ser tan simples com editar un article de la Viquipèdia per incloure instruccions directes als agents d’IA que el visitaven; sense experiència en temps d’entrenament d’un entorn adversarial com aquest, els models d’IA sovint seguien aquelles instruccions sense qüestionar-les1. A mesura que els models s’han tornat més intel·ligents, també s’han tornat menys vulnerables a aquest tipus de suggeriment i hem observat que els atacs d’estil injecció d'indicacions han respost incorporant elements d’enginyeria social:
Exemple per correu electrònic d’injecció d'indicacions
Un exemple de 2025 d’un atac d’injecció d'indicacions a ChatGPT comunicat a OpenAI per investigadors de seguretat externs(s'obre en una finestra nova). En les proves, va funcionar el 50% de les vegades amb la indicació de l’usuari «Vull que facis recerca profunda sobre els meus correus d’avui; vull que llegeixis i comprovis cada font que pugui aportar informació sobre el meu nou procés d’incorporació d’empleats.»
Dins l’ecosistema més ampli de la seguretat d’IA, s’ha fet habitual recomanar tècniques com ara el «tallafoc d’IA», en què un intermediari entre l’agent d’IA i el món exterior intenta classificar les entrades entre injecció d'indicacions maliciosa i entrades normals; però aquests atacs plenament desenvolupats no solen ser detectats per aquests sistemes. Per a aquests sistemes, detectar una entrada maliciosa esdevé el mateix problema, molt difícil, que detectar una mentida o desinformació, i sovint sense el context necessari.
A mesura que els atacs reals d’injecció d'indicacions es feien més complexos, vam trobar que les tècniques ofensives més eficaces aprofitaven tàctiques d’enginyeria social. En lloc de tractar aquests atacs d’injecció d'indicacions amb enginyeria social com una classe de problema separada o completament nova, vam començar a veure-ho a través de la mateixa lent que s’utilitza per gestionar el risc d’enginyeria social sobre els éssers humans en altres àmbits. En aquests sistemes, l’objectiu no es limita a identificar perfectament les entrades malicioses, sinó a dissenyar agents i sistemes de manera que l’impacte de la manipulació quedi limitat, encara que tingui èxit. Aquests sistemes demostren ser eficaços a l’hora de mitigar tant la injecció d'indicacions com l’enginyeria social.
D’aquesta manera, podem imaginar l’agent d’IA existint en un sistema semblant de tres actors, com un agent de servei d’atenció al client; l’agent vol actuar en nom del seu ocupador, però està contínuament exposat a entrades externes que poden intentar enganyar-lo. A l’agent d’atenció al client, humà o d’IA, se li han d’imposar limitacions a les seves capacitats per limitar el risc potencial inherent al fet d’existir en un entorn tan maliciós.
Imaginem una situació en què una persona opera un sistema d’atenció al client i pot concedir targetes regal i reemborsaments per inconvenients patits pel client, com ara lentitud en el lliurament, danys com a resultat d’un mal funcionament, etc. Aquest és un problema multipartits en què la corporació ha de confiar que l’agent concedeix reemborsaments pels motius adequats, mentre que l’agent també interactua amb tercers que poden intentar enganyar-lo o fins i tot sotmetre’l a coacció.
Al món real, a l’agent se li dona un conjunt de normes que ha de seguir, però s’espera que, en l’entorn adversarial en què existeix, sigui enganyat. Potser un client envia un missatge afirmant que el seu reemborsament no es va arribar a tramitar, o amenaça amb fer mal si no se li concedeix un reemborsament. Els sistemes deterministes amb què interactua l’agent limiten la quantitat de reemborsaments que es poden concedir a un client, marquen possibles correus electrònics de pesca de credencials i ofereixen altres mitigacions d’aquest tipus per limitar l’impacte que té comprometre un agent individual.
Aquesta mentalitat ha informat un conjunt robust de contramesures que hem desplegat i que mantenen les expectatives de seguretat dels nostres usuaris.
A ChatGPT, combinem aquest model d’enginyeria social amb enfocaments més tradicionals d’enginyeria de seguretat, com ara l’anàlisi de font i destí.
En aquest marc, un atacant necessita tant una font, o una manera d’influir en el sistema, com un destí, o una capacitat que es torna perillosa en un context inadequat. Per als sistemes amb agents, això sovint significa combinar contingut extern no fiable amb una acció, com ara transmetre informació a un tercer, seguir un enllaç o interactuar amb una eina.
El nostre objectiu és preservar una expectativa bàsica de seguretat per als usuaris: que les accions potencialment perilloses, o les transmissions d’informació potencialment sensible, no passin en silenci ni sense les garanties adequades.
Els atacs que veiem desenvolupats contra ChatGPT consisteixen més sovint a intentar convèncer l’assistent que hauria d’agafar alguna informació secreta d’una conversa i transmetre-la a un tercer maliciós. En la majoria dels casos que coneixem, aquests atacs fracassen perquè el nostre entrenament de seguretat fa que l’agent s’hi negui. Per als casos en què l’agent queda convençut, hem desenvolupat una estratègia de mitigació anomenada Safe Url, dissenyada per detectar quan la informació que l’assistent ha après en la conversa es transmetria a un tercer. En aquests casos infreqüents, o bé mostrem a l’usuari la informació que es transmetria i li demanem que la confirmi, o bé ho bloquegem i indiquem a l’agent que provi una altra manera de continuar amb la sol·licitud de l’usuari.
Aquest mateix mecanisme s’aplica a les navegacions i als marcadors de Atlas; i a les cerques i navegacions de Deep Research. ChatGPT Llenç i ChatGPT Apps adopten un enfocament similar, que permet a l’agent crear i utilitzar aplicacions funcionals; aquestes s’executen en un entorn aïllat capaç de detectar comunicacions inesperades i demanar el consentiment de l’usuari(s'obre en una finestra nova).
Pots obtenir més informació sobre Safe Url i trobar un article sobre la seva estructura a la seva entrada de bloc dedicada Mantenir segures les teves dades quan un agent d’IA fa clic en un enllaç.
La interacció segura amb el món exterior adversarial és necessària per als agents plenament autònoms. Quan s’integra un model d’IA amb un sistema d’aplicacions, recomanem preguntar-se quins controls hauria de tenir un agent humà en una situació similar i implementar-los. Esperem que un model d’IA amb una intel·ligència màxima pugui resistir l’enginyeria social millor que un agent humà, però això no sempre és factible ni rendible segons l’aplicació.
Continuem explorant les implicacions de l’enginyeria social contra els models d’IA i les defenses contra aquesta, i incorporem les nostres troballes tant a les nostres arquitectures de seguretat d’aplicacions com a l’entrenament al qual sotmetem els nostres models d’IA.
Notes a peu de pàgina
- 1
Rehberger, J. (2023, 04 15). No confiïs cegament en les respostes dels LLM. Amenaces per als xatbots. EmbraceTheRed. Recuperat el 11 14, 2025, de https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
Autors
Thomas Shadwell i Adrian Spânu


