Sari la conținutul principal
OpenAI

7 noiembrie 2025

Securitate

Înțelegerea injectărilor solicitărilor: o importantă provocare de securitate

Instrumentele AI încep să facă mai mult decât să răspundă la întrebări. Acum pot naviga pe web, pot ajuta la cercetare, pot planifica excursii și pot ajuta la achiziționarea de produse. Pe măsură ce devin mai capabile, având posibilitatea de a accesa datele tale din alte aplicații și de a întreprinde acțiuni în numele tău, apar noi provocări de securitate. Unul pe care ne concentrăm intens este injectarea de solicitări.

O diagramă care ilustrează cum funcționează un atac de injectare de solicitare. În stânga, o pictogramă a unui utilizator zâmbitor este etichetată „Utilizatorul cere ajutorul AI pentru o sarcină.” O săgeată indică spre centru, unde o pictogramă de ecran de computer este etichetată „AI vede un site web cu atacul”, iar deasupra ei o figură mică cu pălărie și un zâmbet șiret este etichetată „Atacatorul a inserat o injectare de solicitare.” O altă săgeată indică spre dreapta, afișând o pictogramă de document cu un triunghi de avertizare etichetat „AI păcălit să efectueze o acțiune neintenționată”. Fluxul arată cum un atacator poate manipula AI prin intermediul injectărilor de solicitări.

Ce este o injectare de solicitare?

Injectarea de solicitări este un tip de atac de inginerie socială specific AI conversaționale. Sistemele AI timpurii erau conversații între un singur utilizator și un singur agent AI. În produsele AI de astăzi, conversația ta poate conține conținut din diverse surse, inclusiv de pe internet. Ideea că o terță parte (care nu este utilizatorul și nu este AI-ul) ar putea induce în eroare modelul prin injectarea de instrucțiuni rău intenționate în contextul conversației a dus la termenul „injectare solicitare”.

În același mod în care e-mailurile de phishing sau înșelătoriile de pe web încearcă să păcălească oamenii să divulge informații sensibile, injectările de solicitări încearcă să păcălească AI-urile să facă ceva ce tu nu ai cerut.

Imaginează-ți că ai cerut unui AI să te ajute să faci niște cercetări online pentru vacanță, iar în timp ce face asta, întâlnește conținut înșelător sau instrucțiuni dăunătoare ascunse pe o pagină web, cum ar fi într-un comentariu la o listare sau într-o recenzie. Conținutul ar putea fi elaborat cu grijă pentru a păcăli o AI să recomande o listare greșită sau, mai rău, să îți fure informațiile de pe cardul de credit.

Acestea sunt doar câteva exemple de atacuri de „injectare solicitare” — instrucțiuni dăunătoare concepute pentru a păcăli o AI să facă ceva ce nu ai intenționat, adesea ascunse în conținut obișnuit, cum ar fi o pagină web, un document sau un e-mail.

Aceste riscuri cresc pe măsură ce AI-urile au acces la date mai sensibile și își asumă mai multă inițiativă și sarcini mai lungi.

Rezumat

Ce ai cerut AI să facă

Ce face atacatorul

Rezultat potențial dacă atacul are succes

Ceri unui AI să caute apartamente, iar acesta este manipulat prin solicitări pentru a recomanda un anunț care nu este cea mai bună opțiune pentru tine.

Ceri unui AI să caute apartamente pe baza unor criterii date.

Atacatorul a inclus un atac de injectare solicitare în anunțul de apartament pentru a păcăli AI să creadă că anunțul lor trebuie ales indiferent de preferințele declarate ale utilizatorului.

Dacă atacul reușește, AI-ul ar putea recomanda greșit un anunț de apartament suboptim, bazat pe preferințele tale.

Îi ceri unui agent AI să răspundă la e-mailurile tale de peste noapte, iar acesta ajunge să-ți distribuie extrasele de cont bancar.

Îi ceri unui agent AI să răspundă în mod obișnuit la e-mailurile tale de peste noapte, deoarece ești ocupat în această dimineață.

Vezi „Când este posibil, oferă unui agent instrucțiuni explicite” de mai jos


Atacatorul ți-a trimis un e-mail care conține informații false ce păcălesc modelul să găsească extrasele tale bancare și să le partajeze cu atacatorul.

Dacă atacul reușește, agentul ar putea căuta în e-mailul tău lucruri precum extrase bancare (la care i-ai oferit acces pentru sarcină) și le va împărtăși cu atacatorul.

Abordarea noastră pentru protejarea utilizatorilor

Apărarea împotriva injectărilor de solicitări este o provocare în întreaga industrie AI și un obiectiv central la OpenAI. Deși ne așteptăm ca adversarii să continue să dezvolte astfel de atacuri, construim apărări menite să îndeplinească sarcina dorită de utilizator chiar și atunci când cineva încearcă activ să-l inducă în eroare. Această capacitate este esențială pentru a obține în siguranță beneficiile AGI.

Pentru a proteja utilizatorii noștri și pentru a îmbunătăți modelele noastre împotriva acestor atacuri, adoptăm o abordare pe mai multe niveluri, incluzând următoarele:

Instruire în domeniul siguranței

Ne dorim un AI care recunoaște injectări de solicitare și nu se lasă păcălită de ele. Totuși, robustețea la atacuri adversariale reprezintă o provocare de lungă durată pentru învățarea automată și AI, ceea ce face ca aceasta să fie o problemă dificilă și deschisă. Am dezvoltat o cercetare numită Ierarhia Instrucțiunilor pentru a lucra la modele care disting între instrucțiuni de încredere și cele care nu sunt de încredere. Continuăm să dezvoltăm noi abordări pentru a instrui modelele să recunoască mai bine tiparele de injectări de solicitare, astfel încât să le poată ignora sau să le semnaleze utilizatorilor. Una dintre tehnicile pe care le aplicăm este red teaming automatizat, un domeniu pe care îl studiem(se deschide într-o fereastră nouă) de ani de zile, pentru a dezvolta atacuri noi de injectare solicitare.

Monitorizare

Am dezvoltat mai multe sisteme de monitorizare automatizate bazate pe AI, pentru a identifica și bloca atacurile de injectare de solicitare. Acestea completează abordările de instruire privind siguranța, deoarece pot fi actualizate rapid pentru a bloca prompt orice atacuri noi pe care le descoperim. Aceste sisteme de monitorizare nu doar că ajută la identificarea potențialelor atacuri de injectări de solicitare împotriva utilizatorilor noștri, dar ne pot permite și să depistăm cercetarea și testarea adversarială privind injectări de solicitare folosind platforma noastră, înainte ca aceste atacuri să fie lansate în mediul real.

Protecții de securitate

Am proiectat produsele și infrastructura noastră cu diverse măsuri de securitate suprapuse pentru a proteja datele utilizatorilor. Aceste caracteristici, pe care le vom explora în detaliu tehnic în postări viitoare, sunt personalizate pentru fiecare produs. De exemplu, pentru a te ajuta să eviți site-urile nesigure, îți vom cere să aprobi anumite linkuri în ChatGPT, mai ales pe site-uri web care ne solicită să nu le catalogăm(se deschide într-o fereastră nouă), înainte ca acestea să poată fi vizitate. Când AI-ul nostru folosește instrumente pentru a rula alte programe sau cod (precum în Canvas sau în instrumentul nostru de dezvoltare Codex), utilizăm o tehnică numită sandboxing pentru a preveni modelul să efectueze modificări dăunătoare, care ar putea rezulta dintr-o injectare de solicitare.

Oferă utilizatorilor control

Includem controale integrate în produsele noastre pentru a ajuta utilizatorii să se protejeze. De exemplu, în ChatGPT Atlas, poți alege modul deconectat, care permite agentului ChatGPT să înceapă sarcini fără a fi conectat la site-uri. Agentul ChatGPT face o pauză și cere confirmarea înainte de a efectua acțiuni sensibile, cum ar fi finalizarea unei achiziții. Când agentul operează pe site-uri sensibile, am implementat și un „Mod de supraveghere”, care te avertizează cu privire la natura sensibilă a site-ului și îți cere să ai fila activă pentru a urmări agentul în timp ce își desfășoară activitatea. Agentul va întrerupe activitatea dacă părăsești fila cu informații sensibile. Acest lucru te asigură că ești conștient — și ai controlul — asupra acțiunilor pe care le efectuează agentul.

Red teaming

Efectuăm activități extinse de red-teaming, cu echipe interne și externe, pentru a testa și îmbunătăți măsurile noastre de apărare, a emula comportamentul atacatorilor și a găsi noi modalități de a ne îmbunătăți securitatea. Aceasta include mii de ore axate în mod specific pe injectarea de solicitări. Pe măsură ce descoperim noi tehnici și atacuri, echipele noastre abordează proactiv vulnerabilitățile de securitate și îmbunătățesc măsurile de atenuare ale modelului nostru.

Recompense pentru bug-uri

Pentru a încuraja cercetătorii independenți în domeniul securității, care acționează cu bună-credință, să ne ajute să descoperim noi tehnici și atacuri de injectări de solicitare, oferim recompense financiare în cadrul programului nostru de recompense pentru bug-uri(se deschide într-o fereastră nouă) atunci când aceștia demonstrează o cale de atac realistă care ar putea duce la expunerea neintenționată a datelor utilizatorilor. Oferim stimulente colaboratorilor externi pentru a semnala rapid aceste probleme, astfel încât să le putem rezolva și să ne consolidăm și mai mult apărarea.

Permite utilizatorilor să decidă

Îi educăm pe utilizatori despre riscurile utilizării anumitor funcții din produs, astfel încât să poată lua decizii informate. De exemplu, când conectezi ChatGPT la alte aplicații, îți explicăm ce date pot fi accesate, cum pot fi utilizate și ce riscuri ar putea apărea, cum ar fi un site care încearcă să îți fure datele, împreună cu un link pentru a afla cum să rămâi în siguranță. De asemenea, oferim organizațiilor control asupra caracteristicilor care pot fi activate sau utilizate de utilizatori în spațiile lor de lucru.

Pași pe care îi poți face pentru a rămâne mai în siguranță

Injectarea solicitărilor este o provocare majoră de securitate despre care ne așteptăm să continue să evolueze în timp. Noile niveluri de inteligență și capacitate necesită ca tehnologia, societatea și strategia de atenuare a riscurilor să evolueze împreună. Și, la fel ca în cazul virușilor informatici de la începutul anilor 2000, considerăm că este important ca toată lumea să înțeleagă amenințarea injectărilor de solicitări și cum să gestioneze riscul, astfel încât să putem învăța cu toții să beneficiem de această tehnologie în siguranță. A fi conștient și precaut ajută la protejarea datelor tale atunci când utilizezi funcții de AI și funcții agentive care pot acționa în numele tău.

Folosește funcțiile integrate pentru a limita accesul la date sensibile.

Ori de câte ori este posibil, limitează accesul unui agent doar la datele sensibile sau la acreditările necesare pentru a finaliza sarcina. De exemplu, când utilizezi modul agent în ChatGPT Atlas pentru a efectua cercetări pentru vacanță, dacă agentul efectuează doar cercetări și nu necesită acces autentificat, utilizează modul „deconectat”.

Când un agent cere confirmarea, verifică cu atenție dacă este pe cale să facă ceea ce trebuie.

De multe ori, proiectăm agenți pentru a obține o confirmare finală de la tine înainte de a efectua anumite acțiuni importante, cum ar fi finalizarea unei achiziții sau trimiterea unui e-mail. Când un agent îți cere să confirmi o acțiune, verifică cu atenție dacă acțiunea pare corectă și dacă informațiile partajate sunt adecvate pentru a fi împărtășite în acel context.

Când un agent operează pe un site sensibil, cum ar fi banca ta, urmărește agentul cum își desfășoară activitatea. Acest lucru este similar cu supravegherea unei mașini autonome, ținând mâinile pe volan.

Când este posibil, oferă agentului instrucțiuni clare

A oferi unui agent o instrucțiune foarte largă, cum ar fi "revizuiește-mi e-mailurile și ia orice măsură este necesară", poate facilita ca un conținut ascuns rău intenționat să inducă în eroare modelul, chiar dacă acesta este proiectat să verifice cu tine înainte de a lua acțiuni sensibile.

Este mai sigur să ceri agentului să facă lucruri specifice și să nu-i oferi o libertate largă, care ar putea duce la urmarea unor instrucțiuni dăunătoare din alte surse, cum ar fi e-mailurile. Deși acest lucru nu garantează că nu vor exista atacuri, face mai dificil pentru atacatori să aibă succes.

Rămâi informat și urmează cele mai bune practici de securitate

Pe măsură ce tehnologia AI evoluează, vor apărea noi riscuri și măsuri de siguranță. Urmărește actualizările de la OpenAI și alte surse de încredere pentru a învăța despre cele mai bune practici.

Privind în viitor

Injectarea de solicitări rămâne o frontieră, o problemă de cercetare provocatoare și, la fel ca înșelătoriile tradiționale de pe web, ne așteptăm ca munca noastră să fie continuă. Deși nu am observat încă o adoptare semnificativă a acestei tehnici de către atacatori, ne așteptăm ca adversarii să investească timp și resurse semnificative pentru a găsi modalități de a face AI-urile să cadă pradă acestor atacuri. Continuăm să investim masiv în a asigura siguranța produselor noastre și în cercetare pentru a spori robustețea AI față de acest risc. Vom împărtăși actualizări pe măsură ce aflăm mai multe, inclusiv progresul continuu al activității noastre de securitate în acest domeniu. De exemplu, lucrăm la un raport pe care îl vom publica în curând și care va oferi mai multe detalii despre cum detectăm dacă interacțiunea AI-ului tău cu internetul ar putea transmite informații din conversația ta.

Obiectivul nostru este să facem aceste sisteme la fel de fiabile și sigure ca și cum ai lucra cu cel mai de încredere și conștient de securitate coleg sau prieten. Vom continua să învățăm din utilizarea în lumea reală, să iterăm în siguranță și să publicăm ceea ce învățăm pe măsură ce tehnologia avansează.