Kalo te përmbajtja kryesore
OpenAI

7 nëntor 2025

Siguria kibernetike

Injektimi i kërkesave: një sfidë e sigurisë në avangardë

Mjetet e IA po fillojnë të bëjnë më shumë sesa thjesht t'u përgjigjen pyetjeve. Tani ato mund të shfletojnë në internet, të ndihmojnë në kërkime, të planifikojnë udhëtime dhe të ndihmojnë në blerjen e produkteve. Ndërsa bëhen më të afta, me mundësinë për të aksesuar të dhënat e tua në aplikacione të tjera dhe për të ndërmarrë veprime në emrin tënd, shfaqen sfida të reja sigurie. Një nga çështjet ku jemi shumë të përqendruar është injektimi i kërkesave.

Një diagram që ilustron se si funksionon një sulm i injektimit të kërkesave. Në të majtë, një ikonë e një përdoruesi që buzëqesh është etiketuar “Përdoruesi i kërkon ndihmë IA për një detyrë.” Një shigjetë tregon drejt qendrës ku një ikonë e ekranit të kompjuterit është etiketuar “IA sheh një faqe interneti me sulmin,” dhe sipër saj një figurë e vogël me një kapelë dhe një buzëqeshje e vetëkënaqur me etiketimin “Sulmuesi futi injektimin e kërkesave.” Një shigjetë tjetër drejtohet djathtas duke treguar një ikonë dokumenti me një trekëndësh paralajmërues të etiketuar “IA u mashtrua për të kryer një veprim të paqëllimshëm.” Cikli tregon se si një sulmues mund të manipulojë IA përmes kërkesave të injektuara.

Çfarë është injektimi i kërkesave?

Injektimi i kërkesave është një lloj sulmi i inxhinierisë sociale specifik për IA bisedore. Sistemet e hershme të IA ishin biseda midis një përdoruesi të vetëm dhe një agjenti të vetëm të IA. Në produktet e IA sot, biseda jote mund të përfshijë përmbajtje nga shumë burime, përfshirë internetin. Ideja që një palë e tretë (që nuk është përdoruesi dhe nuk është IA) mund të mashtrojë modelin duke injektuar udhëzime keqdashëse në kontekstin e bisedës çoi në termin “injektim i kërkesave”.

Në të njëjtën mënyrë që emailet mashtruese ose skemat në internet përpiqen t’i mashtrojnë njerëzit që të japin informacione të ndjeshme, injektimet e kërkesave përpiqen t’i mashtrojnë inteligjencat artificiale që të bëjnë diçka që nuk e keni kërkuar.

Imagjino sikur t'i kesh kërkuar IA të të ndihmojë të bësh disa kërkime për pushime në internet, dhe ndërsa po e bën këtë, ndeshet me përmbajtje mashtruese ose udhëzime të dëmshme të fshehura në një faqe interneti, si për shembull në një koment në një listim ose në një recension. Përmbajtja mund të jetë krijuar me kujdes për të mashtruar një IA që të rekomandojë listimin e gabuar, ose më keq, për të vjedhur informacionin e kartës suaj të kreditit.

Këto janë vetëm disa shembuj të sulmeve me “injektim të kërkesave”—udhëzime të dëmshme të krijuara për të mashtruar një IA që të kryejë veprime të paqëllimshme, shpesh të fshehura brenda përmbajtjes së zakonshme si një faqe interneti, dokument ose email.

Këto rreziqe rriten ndërsa IA ka qasje në të dhëna më të ndjeshme dhe merr më shumë iniciativë dhe detyra më të gjata.

Përmbledhje

Çfarë i kërkove të bënte IA

Çfarë bën sulmuesi

Rezultati i mundshëm nëse sulmi ka sukses

Ti i kërkon IA të kërkojë apartamente dhe ajo i nënshtrohet një injektimi të kërkesës për të rekomanduar një listim që nuk është opsioni më i mirë për ty.

Ti kërkon nga IA që të kërkojë apartamente me disa kritere të caktuara.

Sulmuesi ka përfshirë një injektim të kërkesave në listimin e apartamentit për të mashtruar IA që të mendojë se listimi i tij duhet të zgjidhet pavarësisht preferencave të deklaruara të përdoruesit.

Nëse sulmi ka sukses, IA mund të rekomandojë gabimisht një listim apartamenti jooptimal bazuar në preferencat e tua.

Ti kërkon një agjent të IA që t'u përgjigjet emaileve të tua të natës, dhe ai përfundon duke ndarë raportet e tua bankare.

Ti kërkon një agjent të IA që t'iu përgjigjet përgjithësisht emaileve të tua të natës, sepse nuk ke kohë këtë mëngjes.

Shiko “Kur është e mundur, jepi një agjenti udhëzime të qarta” më poshtë


Sulmuesi të ka dërguar një email që përmban keqinformim që e mashtron modelin për të gjetur raportet e tua bankare dhe për t'ia dërguar ato sulmuesit.

Nëse sulmi është i suksesshëm, agjenti mund të kërkojë dokumente si raporte bankare në emailin tënd (të cilit i ke dhënë akses për detyrën) dhe do t'i ndajë ato me sulmuesin.

Qasja jonë për mbrojtjen e përdoruesve

Mbrojtja kundër injektimit të kërkesave është një sfidë në të gjithë industrinë e IA dhe një fokus kryesor në OpenAI. Ndërsa presim që kundërshtarët të vazhdojnë të zhvillojnë sulme të tilla, po ndërtojmë mbrojtje të projektuara për të realizuar detyrën e synuar nga përdoruesi, edhe kur dikush përpiqet ta mashtrojë atë. Kjo aftësi është thelbësore për të realizuar në mënyrë të sigurt përfitimet e AGI.

Për të mbrojtur përdoruesit tanë dhe për të ndihmuar në përmirësimin e modeleve tona kundër këtyre sulmeve, ne ndjekim një qasje me shumë shtresa, duke përfshirë sa vijon:

Trajnime sigurie

Ne dëshirojmë që IA t'i identifikojë injektimet e kërkesave dhe të mos bjerë pre e tyre. Megjithatë, qëndrueshmëria ndaj sulmeve kundërshtare mbetet një sfidë e kahershme për mësimin e makinave dhe IA, duke e bërë këtë një problem të vështirë dhe të hapur. Ne kemi zhvilluar një kërkim të quajtur Hierarkia e udhëzimeve për të punuar drejt modeleve që dallojnë midis udhëzimeve të besueshme dhe atyre të pabesueshme. Ne vazhdojmë të zhvillojmë qasje të reja për të trajnuar modelet që të njohin më mirë modelet e injektimit të kërkesave, në mënyrë që t’i injorojnë ose t’ua sinjalizojnë përdoruesve. Një nga teknikat që zbatojmë është simulim sulmesh të automatizuara, një fushë që e kemi studiuar(hapet në një dritare të re) prej vitesh, për të zhvilluar sulme të reja të injektimit të kërkesave.

Monitorim

Ne kemi zhvilluar disa monitorë të automatizuar të mundësuar nga IA, për të identifikuar dhe bllokuar sulmet e injektimit të kërkesave. Këto plotësojnë qasjet e trajnimit të sigurisë sepse mund të përditësohen shpejt për të bllokuar çdo sulm të ri që zbulojmë. Këta monitorues jo vetëm që ndihmojnë në identifikimin e sulmeve të mundshme të injektimit të kërkesave kundër përdoruesve tanë, por gjithashtu na lejojnë të kapim kërkime dhe testime kundërshtare të injektimit të kërkesave duke përdorur platformën tonë, përpara se ato sulme të zbatohen në praktikë.

Mbrojtje sigurie

Ne kemi projektuar produktet dhe infrastrukturën tonë me mbrojtje të ndryshme sigurie që mbivendosen për të mbrojtur të dhënat e përdoruesve. Këto veçori, të cilat do t’i shqyrtojmë në më shumë detaje teknike në postimet e ardhshme, janë të përshtatura për çdo produkt. Për shembull, për të të ndihmuar të shmangësh faqet e pabesueshme, do të të kërkojmë të miratosh lidhje të caktuara në ChatGPT, veçanërisht në faqe interneti që na kërkojnë të mos i katalogojmë(hapet në një dritare të re), përpara se të mund të vizitohen. Kur IA jonë përdor mjete për të ekzekutuar programe ose kod tjetër (si në Canvas, ose mjetin tonë të zhvillimit Codex), ne përdorim një teknikë të quajtur sandboxing për të parandaluar modelin nga bërja e ndryshimeve të dëmshme që mund të jenë rezultat i një injektimi kërkesash.

Dhënia e kontrollit përdoruesve

Ne përfshijmë kontrolle të integruara në produktet tona për t'i ndihmuar përdoruesit të mbrojnë veten. Për shembull, në ChatGPT Atlas, mund të zgjedhësh modalitetin e paidentifikuar që i lejon agjentit ChatGPT të nisë detyra pa qenë i identifikuar në faqe. Agjenti ChatGPT gjithashtu ndalon dhe kërkon konfirmim përpara se të ndërmarrë hapa të ndjeshëm si kryerja e një blerjeje. Kur agjenti operon në faqe të ndjeshme, kemi zbatuar një “Modalitet vëzhgimi” që të njofton për natyrën e ndjeshme të faqes dhe kërkon që skeda të jetë aktive për të parë agjentin duke kryer punën e tij. Agjenti do të ndalojë nëse largohesh nga skeda me informacion të ndjeshëm. Kjo siguron që të jesh i vetëdijshëm—dhe në kontroll—për veprimet që po kryen agjenti.

Simulimi i sulmeve

Ne kryejmë simulim sulmesh me ekipe të brendshme dhe të jashtme për të testuar dhe përmirësuar mbrojtjet tona, për të imituar sjelljen e sulmuesve dhe për të gjetur mënyra të reja për të përmirësuar sigurinë tonë. Kjo përfshin mijëra orë me fokus të posaçëm në injektimin e kërkesave. Ndërsa kemi zbuluar teknika dhe sulme të reja, ekipet tona i trajtojnë në mënyrë proaktive dobësitë e sigurisë dhe përmirësojnë masat tona zbutëse të modelit.

Bug bounty

Për të inkurajuar studiuesit e pavarur të sigurisë me mirëbesim që të na ndihmojnë të zbulojmë teknika dhe sulme të reja të injektimit të kërkesave, ne ofrojmë shpërblime financiare në kuadër të programit tonë të shpërblimeve për zbulimin e gabimeve (bug bounty)(hapet në një dritare të re) kur ata tregojnë një rrugë sulmi realist që mund të rezultojë në ekspozim të paqëllimshëm të të dhënave të përdoruesit. Ne stimulojmë kontribuesit e jashtëm që të identifikojnë shpejt këto çështje, në mënyrë që t'i zgjidhim dhe të forcojmë më tej mbrojtjet tona.

Lejo përdoruesit të vendosin

Ne i informojmë përdoruesit për rreziqet e përdorimit të disa veçorive të produktit, në mënyrë që ata të marrin vendime të informuara. Për shembull, kur lidh ChatGPT me aplikacione të tjera, ne shpjegojmë se cilat të dhëna mund të aksesohen, si mund të përdoren dhe cilat rreziqe mund të lindin, siç është një faqe që përpiqet të vjedhë të dhënat e tua, së bashku me një lidhje për të mësuar se si të qëndrosh më i sigurt. Ne gjithashtu u japim organizatave kontroll se cilat veçori mund të aktivizohen ose të përdoren nga përdoruesit në hapësira pune.

Hapat që mund të ndërmerrni për të qëndruar më të sigurt

Injektimi i kërkesave është një sfidë e sigurisë në avangardë që presim të vazhdojë të evoluojë me kalimin e kohës. Nivele të reja inteligjence dhe aftësish kërkojnë që teknologjia, shoqëria dhe strategjia e zbutjes së rrezikut të bashkë-evoluojnë. Dhe ashtu si me viruset kompjuterike në fillim të viteve 2000, mendojmë se është e rëndësishme që të gjithë të kuptojnë kërcënimin e injektimeve të kërkesave dhe si të menaxhojnë rrezikun, në mënyrë që të gjithë të mësojmë të përfitojmë nga kjo teknologji në mënyrë të sigurt. Të jesh i vetëdijshëm dhe i kujdesshëm ndihmon që të dhënat e tua të jenë më të sigurta kur përdor inteligjencën artificiale dhe veçoritë agjentike që mund të veprojnë në emrin tënd.

Përdor veçoritë e integruara për të kufizuar aksesin në të dhëna të ndjeshme

Kur është e mundur, kufizo qasjen e një agjenti vetëm në të dhënat e ndjeshme ose kredencialet që i duhen për të përfunduar detyrën. Për shembull, kur përdor modalitetin e agjentit në ChatGPT Atlas për të bërë kërkime për pushime, nëse agjenti po bën vetëm kërkime dhe nuk ka nevojë për akses të identifikuar, përdor modalitetin “i çidentifikuar”.

Kur një agjent kërkon konfirmim, kontrollo me kujdes që ai është gati të bëjë gjënë e duhur

Ne shpesh krijojmë agjentë për të marrë një konfirmim përfundimtar nga ti përpara se të ndërmarrin veprime të caktuara me pasoja, si kryerja e një blerjeje ose dërgimi i një emaili. Kur një agjent të kërkon të konfirmosh një veprim, kontrollo me kujdes nëse veprimi duket i drejtë dhe që çdo informacion që po ndahet është i përshtatshëm për t’u ndarë në atë kontekst.

Kur një agjent operon në një faqe të ndjeshme, siç është banka jote, vëzhgoje agjentin ndërsa kryen punën e tij. Kjo është si të monitorosh një makinë vetëdrejtuese duke mbajtur duart në timon.

Kur është e mundur, jepi një agjenti udhëzime të qarta

Duke i dhënë një agjenti një udhëzim shumë të gjerë si "shqyrto emailet e mia dhe ndërmerr çfarëdolloj veprimi që është i nevojshëm" mund ta bëjë më të lehtë që përmbajtja e fshehur keqdashëse të mashtrojë modelin, edhe pse ai është projektuar për të kërkuar konfirmimin tënd para se të ndërmarrë veprime të ndjeshme.

Është më e sigurt t’i kërkosh agjentit të kryejë detyra specifike dhe të mos i japësh liri të gjerë që të mund të ndjekë udhëzime të dëmshme nga burime të tjera si emailet. Edhe pse kjo nuk garanton se nuk do të ketë sulme, e bën më të vështirë për sulmuesit që të kenë sukses.

Qëndro i informuar dhe ndiq praktikat më të mira të sigurisë

Ndërsa teknologjia e IA evoluon, do të shfaqen rreziqe dhe masa mbrojtëse të reja. Ndiq përditësimet nga OpenAI dhe burime të tjera të besuara për të mësuar mbi praktikat më të mira.

Në të ardhmen

Injektimi i kërkesave mbetet një problem kërkimor avangardë dhe sfidues, dhe ashtu si mashtrimet tradicionale në internet, presim që puna jonë të vazhdojë. Ndërsa ende nuk kemi parë një adoptim të madh të kësaj teknike nga sulmuesit, presim që kundërshtarët të shpenzojnë shumë kohë dhe burime për të gjetur mënyra për të bërë që IA të bjerë pre e këtyre sulmeve. Ne po vazhdojmë të investojmë shumë për të siguruar produktet tona dhe në studime për të përmirësuar qëndrueshmërinë e IA ndaj këtij rreziku. Ne do të ndajmë përditësime ndërsa mësojmë më shumë, duke përfshirë progresin e vazhdueshëm në punën tonë të sigurisë në këtë fushë. Për shembull, po përgatisim një raport që do ta publikojmë së shpejti, i cili do të japë më shumë detaje mbi mënyrën se si zbulojmë nëse komunikimi i IA me internetin do të transmetonte informacion nga biseda jote.

Qëllimi ynë është t'i bëjmë këto sisteme po aq të besueshme dhe të sigurta sa do të ishte po të punoje me kolegun ose mikun tënd më të besueshëm dhe të vetëdijshëm për sigurinë. Ne do të vazhdojmë të mësojmë nga përdorimi në botën reale, të përshtatemi në mënyrë të sigurt dhe të publikojmë atë që mësojmë ndërsa teknologjia përparon.