Aqbeż għall-kontenut prinċipali
OpenAI

7 ta’ Novembru 2025

Sigurtà

Nifhmu l-injezzjonijiet tal-prompts: sfida ta’ sigurtà fruntiera

L-għodod tal-IA qed jibdew jagħmlu aktar milli jwieġbu mistoqsijiet. Issa jistgħu jibbrawżjaw il-web, jgħinu fir-riċerka, jippjanaw vjaġġi, u jgħinu fix-xiri ta’ prodotti. Hekk kif isiru aktar kapaċi, bil-ħila li jaċċessaw id-data tiegħek f’apps oħra u jieħdu azzjonijiet f’ismek, jitfaċċaw sfidi ġodda tas-sigurtà. Waħda li qed niffokaw ħafna fuqha hi l-injezzjoni tal-prompts.

Dijagramma li turi kif jaħdem attakk ta’ injezzjoni tal-prompts. Fuq ix-xellug, ikona ta’ utent jitbissem għandha t-tikketta “L-utent jitlob lill-IA għall-għajnuna f’kompitu.” Vleġġa tindika ċ-ċentru fejn ikona ta’ skrin tal-kompjuter għandha t-tikketta “L-IA tara website bl-attakk”, u fuqha figura żgħira b’kappell u tbissima kattiva għandha t-tikketta “L-attakkant daħħal injezzjoni tal-prompts.” Vleġġa oħra twassal lejn il-lemin u turi ikona ta’ dokument bi trijanglu ta’ twissija bit-tikketta “L-IA ġiet imqarrqa biex tieħu azzjoni mhux intenzjonata.” Il-fluss juri kif attakkant jista’ jimmanipula l-IA permezz ta’ prompts injettati.

X’inhi injezzjoni tal-prompts?

L-injezzjoni tal-prompts hija tip ta’ attakk ta’ inġinerija soċjali speċifiku għall-IA konversazzjonali. Is-sistemi bikrin tal-IA kienu konversazzjonijiet bejn utent wieħed u aġent tal-IA wieħed. Fil-prodotti tal-IA tal-lum, il-konversazzjoni tiegħek tista’ tinkludi kontenut minn ħafna sorsi, inkluż l-internet. L-idea li parti terza (jiġifieri, la l-utent u lanqas l-IA) tista’ tqarraq bil-mudell billi ddaħħal istruzzjonijiet malizzjużi fil-kuntest tal-konversazzjoni wasslet għat-terminu “injezzjoni tal-prompts”.

Bl-istess mod li emails ta’ phishing jew scams fuq il-web jippruvaw iqarrqu bin-nies biex jagħtu informazzjoni sensittiva, l-injezzjonijiet tal-prompts jippruvaw iqarrqu bl-IAs biex jagħmlu xi ħaġa li inti ma tlabthomx jagħmlu.

Immaġina li tlabt lill-IA tgħinek tagħmel xi riċerka online għal vaganza, u waqt li tkun qed tagħmel dan tiltaqa’ ma’ kontenut qarrieqi jew istruzzjonijiet ta’ ħsara moħbija f’paġna web, bħal f’kumment fuq listing jew fuq reċensjoni. Il-kontenut jista’ jkun maħdum bir-reqqa biex jipprova jqarraq bl-IA biex tirrakkomanda l-listing żbaljat, jew agħar minn hekk, biex tisraq l-informazzjoni tal-karta tal-kreditu tiegħek.

Dawn huma biss ftit eżempji ta’ attakki ta’ “injezzjoni tal-prompts” — istruzzjonijiet ta’ ħsara maħsuba biex iqarrqu bl-IA biex tagħmel xi ħaġa li ma kontx biħsiebek, ħafna drabi moħbija ġewwa kontenut ordinarju bħal paġna web, dokument, jew email.

Dawn ir-riskji jiżdiedu hekk kif l-IAs ikollhom aċċess għal data aktar sensittiva u jieħdu aktar inizjattiva u kompiti itwal.

Sommarju

X’tlabt lill-IA tagħmel

X’jagħmel l-attakkant

Riżultat potenzjali jekk l-attakk jirnexxi

Int titlob lill-IA tirriċerka appartamenti, u ssirilha injezzjoni tal-prompts biex tirrakkomanda listing li mhuwiex l-aħjar għażla għalik.

Int titlob lill-IA tirriċerka appartamenti skont xi kriterji mogħtija.

L-attakkant inkluda attakk ta’ injezzjoni tal-prompts fil-listing tal-appartament biex iqarraq bl-IA u jġegħelha taħseb li l-listing tiegħu għandu jintgħażel irrispettivament mill-preferenzi ddikjarati tal-utent.

Jekk l-attakk jirnexxi, l-IA tista’ b’mod żbaljat tirrakkomanda listing ta’ appartament li mhuwiex l-aħjar skont il-preferenzi tiegħek.

Int titlob aġent tal-IA jwieġeb l-emails tiegħek mil-lejl ta’ qabel, u jispiċċa jaqsam il-kontijiet bankarji tiegħek.

Int titlob aġent tal-IA biex ġeneralment iwieġeb l-emails tiegħek mil-lejl ta’ qabel għax dalgħodu inti okkupat.

Ara “Meta jkun possibbli, agħti istruzzjonijiet espliċiti lil aġent” hawn taħt


L-attakkant bagħatlek email li fiha informazzjoni qarrieqa li tqarraq bil-mudell biex isib il-kontijiet bankarji tiegħek u jaqsmihom mal-attakkant.

Jekk l-attakk jirnexxi, l-aġent jista’ jfittex xi ħaġa bħall-kontijiet bankarji fl-email tiegħek (li tajtu aċċess għaliha għall-kompitu) u jaqsamhom mal-attakkant.

L-approċċ tagħna biex nipproteġu lill-utenti

Id-difiża kontra l-injezzjoni tal-prompts hija sfida fl-industrija kollha tal-IA u fokus ewlieni f’OpenAI. Għalkemm nistennew li l-avversarji jkomplu jiżviluppaw attakki bħal dawn, qed nibnu difiżi mfassla biex iwettqu l-kompitu maħsub mill-utent anke meta xi ħadd ikun qed jipprova b’mod attiv iqarraq bihom. Dik il-kapaċità hija essenzjali biex il-benefiċċji tal-AGI jitwettqu b’mod sikur.

Biex nipproteġu lill-utenti tagħna, u biex ngħinu ntejbu l-mudelli tagħna kontra dawn l-attakki, nużaw approċċ b’diversi saffi, inkluż dan li ġej:

Taħriġ tas-sigurtà

Irridu IA li tagħraf l-injezzjonijiet tal-prompts u ma taqax għalihom. Madankollu, ir-robustezza kontra attakki avversarjali hija sfida li ilha teżisti fit-tagħlim awtomatiku u fl-IA, u dan jagħmilha problema diffiċli u miftuħa. Żviluppajna riċerka msejħa Instruction Hierarchy biex naħdmu lejn mudelli li jiddistingwu bejn istruzzjonijiet fdati u mhux fdati. Inkomplu niżviluppaw approċċi ġodda biex inħarrġu mudelli jagħrfu aħjar ix-xejriet tal-injezzjoni tal-prompts sabiex ikunu jistgħu jinjorawhom jew jindikawhom lill-utenti. Waħda mit-tekniki li napplikaw hija red-teaming awtomatizzat, qasam li ilna nistudjawh(jinfetaħ f’tieqa ġdida) għal snin, biex niżviluppaw attakki ġodda ta’ injezzjoni tal-prompts.

Monitoraġġ

Żviluppajna diversi monitors awtomatizzati mħaddma bl-IA biex jidentifikaw u jimblukkaw attakki ta’ injezzjoni tal-prompts. Dawn jikkumplimentaw l-approċċi ta’ taħriġ tas-sigurtà għax jistgħu jiġu aġġornati malajr biex jimblukkaw malajr kwalunkwe attakk ġdid li niskopru. Dawn il-monitors mhux biss jgħinu jidentifikaw attakki potenzjali ta’ injezzjoni tal-prompts kontra l-utenti tagħna, iżda jistgħu wkoll jippermettulna naqbdu riċerka u ttestjar avversarjali tal-injezzjoni tal-prompts li jsiru fuq il-pjattaforma tagħna, qabel ma dawk l-attakki jitpoġġew fid-dinja reali.

Protezzjonijiet tas-sigurtà

Iddisinjajna l-prodotti u l-infrastruttura tagħna b’diversi protezzjonijiet tas-sigurtà li jikkoinċidu biex ngħinu nissalvagwardjaw id-data tal-utent. Dawn il-karatteristiċi, li se nesplorawhom f’aktar dettall tekniku f’kitbiet futuri, huma mfassla għal kull prodott separatament. Pereżempju, biex ngħinuk tevita siti mhux fdati, se nitolbuk tapprova ċerti links f’ChatGPT, speċjalment fuq websites that ask us not to catalogue them(jinfetaħ f’tieqa ġdida), qabel ma jkunu jistgħu jżuruhom. Meta l-IA tagħna tuża għodod biex tħaddem programmi oħra jew kodiċi (bħal fil-Canvas, jew l-għodda tagħna għall-iżvilupp Codex), nużaw teknika msejħa sandboxing biex inwaqqfu lill-mudell milli jagħmel bidliet ta’ ħsara li jistgħu jkunu r-riżultat ta’ injezzjoni tal-prompts.

Agħti kontroll lill-utenti

Ninkludu kontrolli integrati fil-prodotti tagħna biex ngħinu lill-utenti jipproteġu lilhom infushom. Pereżempju, f’ChatGPT Atlas, tista’ tagħżel il-modalità logged-out li tippermetti lill-aġent ChatGPT jibda kompiti mingħajr ma jkun illoggjat fis-siti. L-aġent ChatGPT jieqaf ukoll u jitlob konferma qabel jieħu passi sensittivi bħall-ikkompletar ta’ xirja. Meta l-aġent ikun qed jopera fuq siti sensittivi, implimentajna wkoll “Watch Mode” li javżak bin-natura sensittiva tas-sit u jeħtieġ li żżomm it-tab attiva biex tara lill-aġent jagħmel xogħlu. L-aġent jieqaf jekk titbiegħed mit-tab b’informazzjoni sensittiva. Dan jiżgura li tibqa’ konxju — u fil-kontroll — ta’ liema azzjonijiet ikun qed iwettaq l-aġent.

Red-teaming

Inwettqu red-teaming estensiv ma’ timijiet interni u esterni biex nittestjaw u ntejbu d-difiżi tagħna, nimitaw l-imġiba tal-attakkanti, u nsibu modi ġodda kif intejbu s-sigurtà tagħna. Dan jinkludi eluf ta’ sigħat iffukati speċifikament fuq l-injezzjoni tal-prompts. Hekk kif skoprejna tekniki u attakki ġodda, it-timijiet tagħna jindirizzaw b’mod proattiv vulnerabbiltajiet tas-sigurtà u jtejbu l-mitigazzjonijiet tal-mudell tagħna.

Bug bounty

Biex inħeġġu riċerkaturi indipendenti tas-sigurtà li jaġixxu in good faith biex jgħinuna niskopru tekniki u attakki ġodda ta’ injezzjoni tal-prompts, noffru premjijiet finanzjarji taħt il-bug bounty program(jinfetaħ f’tieqa ġdida) tagħna meta juru triq ta’ attakk realistika li tista’ twassal għal esponiment mhux intenzjonat tad-data tal-utent. Noffru inċentivi lill-kontributuri esterni biex dawn il-kwistjonijiet jitfaċċaw malajr sabiex inkunu nistgħu nsolvuhom u nsaħħu aktar id-difiżi tagħna.

Ħalli lill-utenti jiddeċiedu

Nedukaw lill-utenti dwar ir-riskji tal-użu ta’ ċerti karatteristiċi fil-prodott biex ikunu jistgħu jieħdu deċiżjonijiet infurmati. Pereżempju, meta tikkonnettja ChatGPT ma’ apps oħra, nispjegaw liema data tista’ tiġi aċċessata, kif tista’ tintuża, u liema riskji jistgħu jinqalgħu bħalma hu sit li jipprova jisraqlek id-data, flimkien ma’ link biex titgħallem kif tibqa’ aktar sigur. Nagħtu wkoll lill-organizzazzjonijiet kontroll fuq liema karatteristiċi jistgħu jkunu attivati jew użati mill-utenti fil-workspaces tagħhom.

Passi li tista’ tieħu biex tibqa’ aktar sigur

L-injezzjoni tal-prompts hija sfida ta’ sigurtà fruntiera li nistennew li tkompli tevolvi maż-żmien. Livelli ġodda ta’ intelliġenza u kapaċità jeħtieġu li t-teknoloġija, is-soċjetà, u l-istrateġija ta’ mitigazzjoni tar-riskju jevolvu flimkien. U bħalma kien il-każ bil-viruses tal-kompjuter fil-bidu tas-snin 2000, naħsbu li huwa importanti li kulħadd jifhem it-theddida tal-injezzjonijiet tal-prompts u kif jinnaviga r-riskju, sabiex ilkoll nitgħallmu nibbenefikaw minn din it-teknoloġija b’mod sigur. Li tibqa’ konxju u kawt jgħin biex iżżomm id-data tiegħek aktar sigura meta tuża karatteristiċi tal-IA u tal-aġenti li jistgħu jaġixxu f’ismek.

Uża karatteristiċi integrati biex tillimita l-aċċess għal data sensittiva

Fejn ikun possibbli, illimita l-aċċess ta’ aġent biss għad-data sensittiva jew il-kredenzjali li jeħtieġ biex itemm il-kompitu. Pereżempju, meta tuża l-modalità agent f’ChatGPT Atlas biex tagħmel riċerka għal vaganza, jekk l-aġent ikun qed jagħmel biss riċerka u ma jkollux bżonn aċċess bħala utent illoggjat, uża l-modalità “logged out”.

Meta aġent jitlob konferma, irrevedi bir-reqqa li wasal biex jagħmel il-ħaġa t-tajba

Ħafna drabi niddisinjaw aġenti biex jieħdu konferma finali mingħandek qabel ma jieħdu ċerti azzjonijiet b’konsegwenzi bħall-ikkompletar ta’ xirja jew l-ibgħat ta’ email. Meta aġent jitolbok tikkonferma azzjoni, iċċekkja bir-reqqa li l-azzjoni tidher korretta u li kwalunkwe informazzjoni li qed tinqasam hija xierqa biex tinqasam f’dak il-kuntest.

Meta aġent ikun qed jopera fuq sit sensittiv, bħall-bank tiegħek, osserva lill-aġent waqt li jwettaq xogħlu. Dan jixbah il-monitoraġġ ta’ karozza li ssuq waħedha billi żżomm idejk fuq l-isteering wheel.

Meta jkun possibbli, agħti istruzzjonijiet espliċiti lil aġent

Li tagħti lil aġent istruzzjoni wiesgħa ħafna bħal "irrevedi l-emails tiegħi u ħu kwalunkwe azzjoni meħtieġa" jista’ jagħmilha aktar faċli għal kontenut malizzjuż moħbi biex iqarraq bil-mudell, minkejja li huwa ddisinjat biex jiċċekkja miegħek qabel jieħu azzjonijiet sensittivi.

Huwa aktar sigur li titlob lill-aġent tiegħek jagħmel affarijiet speċifiċi, u li ma tagħtihx wisgħa kbira biex potenzjalment isegwi istruzzjonijiet ta’ ħsara minn x’imkien ieħor bħall-emails. Għalkemm dan ma jiggarantixxix li ma jkunx hemm attakki, jagħmilha aktar diffiċli biex l-attakkanti jirnexxu.

Ibqa’ infurmat u segwi l-aħjar prattiki tas-sigurtà

Hekk kif tevolvi t-teknoloġija tal-IA, se jitfaċċaw riskji u salvagwardji ġodda. Segwi aġġornamenti minn OpenAI u sorsi fdati oħra biex titgħallem dwar l-aħjar prattiki.

Nħarsu ’l quddiem

L-injezzjoni tal-prompts tibqa’ problema ta’ riċerka fruntiera u ta’ sfida, u bħall-iscams tradizzjonali fuq il-web, nistennew li x-xogħol tagħna jibqa’ għaddej. Għalkemm għadna ma rajniex adozzjoni sinifikanti ta’ din it-teknika mill-attakkanti, nistennew li l-avversarji jqattgħu ħin u riżorsi sinifikanti biex isibu modi kif jagħmlu l-IAs jaqgħu għal dawn l-attakki. Aħna qed inkomplu ninvestu ħafna biex nagħmlu l-prodotti tagħna sikuri u fir-riċerka biex navvanzaw ir-robustezza tal-IA għal dan ir-riskju. Se naqsmu aġġornamenti hekk kif nitgħallmu aktar, inkluż progress kontinwu fix-xogħol tagħna tas-sigurtà f’dan il-qasam. Pereżempju, qed nibnu rapport li dalwaqt nippubblikawh u li jaqsam aktar dettalji dwar kif nindividwaw jekk il-komunikazzjoni tal-IA tiegħek mal-internet tittrasmettix informazzjoni mill-konversazzjoni tiegħek.

L-għan tagħna huwa li nagħmlu dawn is-sistemi affidabbli u sikuri daqs li taħdem mal-aktar kollega jew ħabib affidabbli u konxju tas-sigurtà tiegħek. Se nibqgħu nitgħallmu mill-użu fid-dinja reali, niteraw b’mod sigur, u nippubblikaw dak li nitgħallmu hekk kif tavvanza t-teknoloġija.