Reforçant contínuament ChatGPT Atlas contra els atacs d'injecció d'indicacions
L’equip vermell automatitzat, impulsat per aprenentatge per reforç, ens ajuda a descobrir i corregir de manera proactiva exploits d’agent del món real abans que es converteixin en armes en entorns reals.
El mode agent a ChatGPT Atlas és una de les funcionalitats orientades a agents més generals que hem llançat fins ara. En aquest mode, l’agent del navegador veu pàgines web i fa accions, clics i pulsacions dins del teu navegador, igual que tu. Això permet que ChatGPT treballi directament en molts dels teus fluxos de treball quotidians utilitzant el mateix espai, context i dades.
A mesura que l’agent del navegador t’ajuda a fer més coses, també es converteix en un objectiu de més valor per als atacs adversaris. Això fa que la seguretat de la IA sigui especialment important. Molt abans de llançar ChatGPT Atlas, hem estat construint i reforçant contínuament defenses contra amenaces emergents que apunten específicament a aquest nou paradigma d’«agent al navegador». La injecció d'indicacions és un dels riscos més significatius contra els quals ens defensem activament per ajudar a garantir que ChatGPT Atlas pugui operar de manera segura en nom teu.
Com a part d’aquest esforç, recentment hem desplegat una actualització de seguretat per a l’agent del navegador d’Atlas, incloent-hi un model nou entrenat de manera adversària i proteccions complementàries reforçades. Aquesta actualització va estar motivada per una nova classe d’atacs d’injecció d'indicacions descoberta mitjançant el nostre equip vermell automatitzat intern.
En aquesta publicació, expliquem com pot sorgir el risc d’injecció d'indicacions per als agents basats en web, i compartim un bucle de resposta ràpida que hem estat construint per descobrir contínuament nous atacs i desplegar mitigacions amb rapidesa, il·lustrat amb aquesta actualització de seguretat recent.
Considerem la injecció d'indicacions un repte de seguretat de la IA a llarg termini, i haurem de continuar reforçant-hi les nostres defenses (igual que passa amb les estafes en línia en evolució constant que tenen els humans com a objectiu). El nostre darrer cicle de resposta ràpida mostra senyals inicials prometedors com a eina crítica en aquest camí: estem descobrint internament noves estratègies d’atac abans que apareguin en entorns reals. La nostra visió a llarg termini és aprofitar plenament (1) el nostre accés de caixa blanca als nostres models, (2) la comprensió profunda de les nostres defenses i (3) l’escala de còmput per mantenir-nos per davant dels atacants externs: trobant exploits abans, desplegant mitigacions més ràpid i estrenyent contínuament el bucle. Combinat amb recerca d'avantguarda sobre noves tècniques per abordar la injecció d'indicacions i amb més inversió en altres controls de seguretat, aquest cicle acumulatiu pot fer que els atacs siguin cada cop més difícils i costosos, reduint de manera material el risc d’injecció d'indicacions al món real. En última instància, el nostre objectiu és que puguis confiar en un agent de ChatGPT perquè utilitzi el teu navegador tal com confiaries en un col·lega o amic molt competent i conscient de la seguretat.
Un atac d’injecció d'indicacions apunta els agents d’IA incrustant instruccions malicioses en el contingut que l’agent processa. Aquestes instruccions estan dissenyades per anul·lar o redirigir el comportament de l’agent, segrestant-lo perquè segueixi la intenció d’un atacant en lloc de la de l’usuari.
Per a un agent del navegador com el que hi ha dins de ChatGPT Atlas, la injecció d'indicacions afegeix un nou vector d’amenaça més enllà dels riscos tradicionals de seguretat web (com ara l’error humà o les vulnerabilitats del programari). En comptes de fer phishing als humans o explotar vulnerabilitats del sistema del navegador, l’atacant apunta l’agent que opera dins seu.
Com a exemple hipotètic, un atacant podria enviar un correu maliciós intentant enganyar un agent perquè ignori la sol·licitud de l’usuari i, en canvi, reenviï documents fiscals sensibles a una adreça de correu controlada per l’atacant. Si un usuari demana a l’agent que revisi els correus no llegits i en resumeixi els punts clau, l’agent pot ingerir aquest correu maliciós durant el flux de treball. Si segueix les instruccions injectades, pot desviar-se de la tasca i compartir informació sensible de manera incorrecta.
Això és només un escenari concret. La mateixa generalitat que fa útils els agents del navegador també amplia els riscos: l’agent pot trobar-se instruccions no fiables en una superfície pràcticament il·limitada: correus i fitxers adjunts, invitacions de calendari, documents compartits, fòrums, publicacions a xarxes socials i pàgines web arbitràries. Com que l’agent pot fer moltes de les mateixes accions que un usuari pot fer en un navegador, l’impacte d’un atac reeixit pot ser hipotèticament igual d’ampli: reenviar un correu sensible, enviar diners, editar o suprimir fitxers al núvol, i més.
Hem avançat en la defensa contra la injecció d'indicacions mitjançant múltiples capes de protecció, tal com vam compartir en una publicació anterior. Tanmateix, la injecció d'indicacions continua sent un repte obert per a la seguretat dels agents, i esperem continuar-hi treballant durant els anys vinents.
Per reforçar les nostres defenses, hem estat cercant contínuament nous atacs d’injecció d'indicacions contra sistemes d’agent en producció. Trobar aquests atacs és un requisit previ necessari per construir mitigacions robustes: ens ajuda a entendre el risc del món real, exposa buits en les nostres defenses i impulsa correccions concretes.
Per fer-ho a escala, vam construir un atacant automatitzat basat en LLM i el vam entrenar perquè busqués atacs d’injecció d'indicacions que poguessin atacar amb èxit un agent del navegador. Vam entrenar aquest atacant d’extrem a extrem amb aprenentatge per reforç, de manera que aprèn dels seus propis èxits i fracassos per millorar les seves habilitats d’equip vermell. També li permetem «provar abans de desplegar», és a dir: durant el seu raonament de cadena de pensament, l’atacant pot proposar una injecció candidata i enviar-la a un simulador extern. El simulador executa un desplegament contrafactual de com es comportaria l’agent víctima objectiu (el defensor) si trobés la injecció, i retorna una traça completa del raonament i les accions de l’agent víctima. L’atacant fa servir aquesta traça com a retroalimentació, itera sobre l’atac i torna a executar la simulació, repetint aquest bucle diverses vegades abans de comprometre’s amb un atac final. Això proporciona a l’atacant una retroalimentació en context més rica que un únic senyal d’èxit o fracàs. També amplia el còmput de test-time de l’atacant. A més, l’accés privilegiat a les traces de raonament (que no revelem als usuaris externs) del defensor dona al nostre atacant intern un avantatge asimètric, augmentant les probabilitats que pugui anar per davant dels adversaris externs.
Per què aprenentatge per reforç (RL)? Vam triar l’aprenentatge per reforç per entrenar l’atacant automatitzat per diversos motius:
- Optimització d’objectius d’atacant de llarg horitzó i no continus. El nostre objectiu és buscar atacs d’injecció d'indicacions que puguin enganyar l’agent perquè executi tasques adversàries sofisticades (p. ex., enviar correus, transaccions bancàries) que podrien produir-se al món real. Aquestes tasques adversàries són inherentment de llarg horitzó, i requereixen molts passos de raonament i interacció amb l’entorn, amb senyals d’èxit escassos i retardats. L’aprenentatge per reforç s’adapta bé a aquesta estructura de recompensa escassa i retardada.
- Aprofitament de les capacitats d'avantguarda dels LLM. Vam entrenar LLM d'avantguarda directament com a autoequips vermells, de manera que l’atacant es beneficia directament de les millores en raonament i planificació dels models d'avantguarda. A mesura que els models base es fan més forts, l’atacant també esdevé naturalment més capaç, cosa que fa que aquesta sigui una manera escalable de mantenir pressió sobre les nostres defenses a mesura que els nostres models evolucionen.
- Escalat del còmput i imitació d’atacants adaptatius. L’aprenentatge per reforç és adequat per escalar el còmput dedicat a la cerca d’atacs a través de grans quantitats de mostrejos i passos d’aprenentatge, i també reflecteix de prop com es comporten els atacants humans adaptatius: provant estratègies de manera iterativa, aprenent dels resultats i reforçant els comportaments reeixits.
El nostre atacant automatitzat pot descobrir nous atacs d’injecció d'indicacions realistes d’extrem a extrem. A diferència de la major part del treball previ d’equip vermell automatitzat, que va posar al descobert errors simples, com ara obtenir cadenes de sortida específiques o activar una única crida d’eina no desitjada per part de l’agent, el nostre atacant entrenat amb RL pot conduir un agent a executar fluxos de treball nocius sofisticats i de llarg horitzó que es desenvolupen al llarg de desenes (o fins i tot centenars) de passos. També vam observar noves estratègies d’atac que no havien aparegut en la nostra campanya d’equip vermell humà ni en informes externs.
La demostració de sota presenta un exploit concret d’injecció d'indicacions trobat pel nostre atacant automatitzat, que després vam fer servir per reforçar encara més les defenses de ChatGPT Atlas. L’atacant sembra la safata d’entrada de l’usuari amb un correu maliciós que conté una injecció d'indicacions que indica a l’agent que enviï una carta de dimissió al CEO de l’usuari. Més endavant, quan l’usuari demana a l’agent que redacti una resposta d’absència de l’oficina, l’agent troba aquest correu durant l’execució normal de la tasca, tracta la indicació injectada com si fos autoritativa i la segueix. La resposta d’absència mai no s’arriba a escriure i, en canvi, l’agent dimiteix en nom de l’usuari.

1. Demanar ajuda a l’agent per gestionar el correu

2. L’agent obre l’últim correu no llegit

3. El correu conté instruccions malicioses

4. L’agent envia un correu de dimissió no desitjat

5. Després de la nostra actualització de seguretat, el mode agent detecta amb èxit un intent d’injecció d'indicacions
La naturalesa de la injecció d'indicacions fa que les garanties de seguretat deterministes siguin difícils, però ampliant la nostra recerca automatitzada de seguretat, les proves adversàries i estrenyent el nostre bucle de resposta ràpida, podem millorar la robustesa i les defenses del model abans d’esperar que es produeixi un atac en entorns reals.
Compartim aquesta demostració per ajudar usuaris i investigadors a entendre millor la naturalesa d’aquests atacs i com ens hi defensem activament. Creiem que això representa l'avantguarda del que l’equip vermell automatitzat pot aconseguir, i estem enormement il·lusionats de continuar la nostra recerca.
El nostre equip vermell automatitzat impulsa un bucle proactiu de resposta ràpida: quan l’atacant automatitzat descobreix una nova classe d’atacs d’injecció d'indicacions reeixits, crea immediatament un objectiu concret per millorar les nostres defenses.
Entrenament adversari contra atacs acabats de descobrir. Entrenem contínuament models d’agent actualitzats contra el nostre millor atacant automatitzat, prioritzant els atacs en què els agents objectiu fallen actualment. L’objectiu és ensenyar als agents a ignorar instruccions adversàries i a mantenir-se alineats amb la intenció de l’usuari, millorant la resistència a estratègies noves d’injecció d'indicacions. Això «incorpora» robustesa contra atacs nous i molt potents directament al checkpoint del model. Per exemple, l’equip vermell automatitzat recent va produir directament un nou checkpoint d’agent del navegador entrenat de manera adversària que ja s’ha desplegat a tots els usuaris de ChatGPT Atlas. En última instància, això ajuda a protegir millor els nostres usuaris contra nous tipus d’atac.
Ús de traces d’atac per millorar la pila de defensa més àmplia. Moltes vies d’atac descobertes pel nostre equip vermell automatitzat també revelen oportunitats de millora fora del model mateix, com ara en la monitorització, les instruccions de seguretat que posem en el context del model o les proteccions a nivell de sistema. Aquestes troballes ens ajuden a iterar sobre tota la pila de defensa, no només sobre el checkpoint de l’agent.
Resposta a atacs actius. Aquest bucle també pot ajudar a respondre millor als atacs actius en entorns reals. A mesura que examinem la nostra petjada global a la recerca de possibles atacs, podem agafar les tècniques i tàctiques que observem que fan servir els adversaris externs, introduir-les en aquest bucle, emular-ne l’activitat i impulsar canvis defensius a tota la nostra plataforma.
Reforçar la nostra capacitat de fer equip vermell d’agents i utilitzar els nostres models més capaços per automatitzar parts d’aquesta feina ajuda a fer més robust l’agent del navegador Atlas ampliant el bucle de descoberta i correcció. Aquest esforç de reforç reafirma una lliçó coneguda de la seguretat: un camí ben conegut cap a una protecció més forta és posar a prova contínuament sistemes reals, reaccionar als errors i desplegar correccions concretes.
Esperem que els adversaris continuïn adaptant-se. La injecció d'indicacions, igual que les estafes i l’enginyeria social a la web, és poc probable que arribi a estar mai completament «resolta». Però som optimistes que un bucle de resposta ràpida proactiu i altament reactiu pugui continuar reduint de manera material el risc del món real amb el temps. Combinant el descobriment automatitzat d’atacs amb entrenament adversari i proteccions a nivell de sistema, podem identificar nous patrons d’atac abans, tancar buits més ràpid i continuar elevant el cost de l’explotació.
El mode agent a ChatGPT Atlas és potent, però també amplia la superfície d’amenaça de seguretat. Tenir aquesta compensació ben present forma part de construir de manera responsable. El nostre objectiu és fer Atlas significativament més segur amb cada iteració: millorant la robustesa del model, reforçant la pila de defensa que l’envolta i monitoritzant patrons d’abús emergents en entorns reals.
Continuarem invertint en recerca i desplegament, desenvolupant millors mètodes automatitzats d’equip vermell, desplegant mitigacions en capes i iterant ràpidament a mesura que aprenem. També compartirem amb la comunitat en general tot allò que puguem.
Mentre continuem reforçant Atlas a nivell de sistema, hi ha passos que els usuaris poden seguir per reduir el risc quan utilitzen agents.
Limita l’accés amb sessió iniciada quan sigui possible. Continuem recomanant que els usuaris aprofitin el mode sense sessió iniciada(s'obre en una finestra nova) quan facin servir Agent a Atlas sempre que l’accés a llocs web on tens la sessió iniciada no sigui necessari per a la tasca en qüestió, o per limitar l’accés a llocs concrets on iniciïs sessió durant la tasca.
Revisa amb cura les sol·licituds de confirmació. Per a determinades accions amb conseqüències, com completar una compra o enviar un correu electrònic, els agents estan dissenyats per demanar la teva confirmació abans de continuar. Quan un agent et demani que confirmis una acció, dedica un moment a verificar que l’acció sigui correcta i que qualsevol informació que es comparteixi sigui adequada per a aquest context.
Dona instruccions explícites als agents sempre que sigui possible. Evita indicacions massa àmplies com «revisa els meus correus i fes qualsevol acció que calgui». Un marge d’acció ampli fa més fàcil que contingut ocult o maliciós influeixi l’agent, fins i tot quan hi ha proteccions establertes. És més segur demanar a l’agent que faci tasques específiques i ben delimitades. Encara que això no elimina el risc, sí que dificulta els atacs.
Si els agents han d’arribar a ser companys de confiança per a les tasques del dia a dia, han de ser resilients als tipus de manipulació que permet la web oberta. Reforçar-se contra la injecció d'indicacions és un compromís a llarg termini i una de les nostres màximes prioritats. Aviat compartirem més informació sobre aquesta feina.


