Preskočite na glavni sadržaj
OpenAI

7. studenoga 2025.

Zaštita

Razumijevanje ubrizgavanja upita: napredni sigurnosni izazov

AI alati počinju činiti više od samog odgovaranja na pitanja. Sada mogu pregledavati web, pomagati u istraživanju, planirati putovanja i pomagati pri kupnji proizvoda. Kako postaju sposobniji, s mogućnošću pristupa vašim podacima u ostalim aplikacijama i poduzimanja radnji u vaše ime, pojavljuju se novi sigurnosni izazovi. Jedna od stvari na koju smo snažno usredotočeni je ubrizgavanje upita.

Dijagram koji prikazuje kako funkcionira napad ubrizgavanjem upita. S lijeve strane nalazi se ikona nasmiješenog korisnika s natpisom „Korisnik traži pomoć od AI-ja za zadatak.” Strelica pokazuje prema središtu u kojem je ikona zaslona računala s natpisom „AI vidi web stranicu s napadom”, a iznad nje je malena figura sa šeširom i podrugljivim osmijehom s natpisom „Napadač je umetnuo ubrizgavanje upita.” Još jedna strelica vodi udesno i prikazuje ikonu dokumenta s trokutom upozorenja s natpisom „AI prevarena i uvučena u nenamjernu radnju.” Tijek prikazuje kako napadač može manipulirati AI-jem putem ubrizgavanja upita.

Što je ubrizgavanje upita?

Ubrizgavanje upita je vrsta napada društvenog inženjeringa specifična za konverzacijski AI. Rani AI sustavi predstavljali su razgovore između pojedinačnog korisnika i pojedinačnog AI agenta. U današnjim AI proizvodima vaš razgovor može sadržavati informacije iz različitih izvora, uključujući internet. Ideja da bi treća strana (koja nije korisnik i nije AI) mogla dovesti model u zabludu ubacivanjem zlonamjernih uputa u kontekst razgovora dovela je do pojma „ubrizgavanje upita“.

Na isti način na koji phishing e-pošta ili prijevare na webu pokušavaju prevariti ljude da odaju osjetljive informacije, ubrizgavanje upita pokušava prevariti AI sustave da učine nešto što niste tražili.

Zamislite da ste zamolili AI da vam pomogne istražiti odmor na internetu, i dok to čini, naiđe na obmanjujući sadržaj ili štetne upute skrivene na web-stranici, primjerice, u komentaru na oglas ili recenziji. Sadržaj bi mogao biti pažljivo osmišljen kako bi prevario umjetnu inteligenciju da preporuči pogrešan oglas ili, još gore, da ukrade podatke o vašoj kreditnoj kartici.

Ovo su samo neki primjeri napada „ubrizgavanjem upita“, štetnih uputa osmišljenih da prevare AI da učini nešto što niste namjeravali, često skrivenih unutar uobičajenog sadržaja kao što su web stranica, dokument ili e-pošta.

Ovi rizici rastu kako umjetne inteligencije dobivaju pristup osjetljivijim podacima i preuzimaju više inicijative te dulje zadatke.

Sažetak

Što ste tražili od AI-ja da učini

Što napadač čini

Mogući ishod ako napad uspije

Vi zatražite od umjetne inteligencije da istraži stanove, a ona pod utjecajem ubrizgavanja upita odmah preporuči oglas koji nije najbolja opcija za vas.

Vi zamolite umjetnu inteligenciju da istraži stanove prema određenim kriterijima.

Napadač je u oglas za stan uključio napad ubrizgavanja upita kako bi prevario AI da misli da njihov oglas treba biti odabran bez obzira na korisnikove navedene preferencije.

Ako napad uspije, umjetna inteligencija može netočno preporučiti neoptimalni oglas za stan na temelju vaših preferencija.

Vi zamolite AI agenta da odgovori na vaše e-pošte pristigle tijekom noći, a on na kraju podijeli vaše bankovne izvode.

Vi zamolite AI agenta da odgovara na vaše e-pošte pristigle tijekom noći jer ste jutros zauzeti.

Pogledajte „Kad god je to moguće, dajte agentu izravne upute“ u nastavku


Napadač vam je poslao e-poštu koja sadržavai dezinformacije kako bi prevario model da pronađe vaše bankovne izvode i podijeli ih s napadačem.

Ako napad uspije, agent može potražiti bilo što poput bankovnih izvoda u vašoj e-pošti (kojoj ste dali pristup za zadatak) i podijeliti ih s napadačem.

Naš pristup zaštiti korisnika

Obrana od ubrizgavanja upita predstavlja izazov u cijeloj industriji umjetne inteligencije i ključni je fokus u OpenAI-ju. Iako očekujemo da će protivnici nastaviti razvijati takve napade, gradimo obranu osmišljenu za izvršavanje korisnikovog namjeravanog zadatka čak i kada ih netko aktivno pokušava dovesti u zabludu. Ta je sposobnost ključna za sigurno ostvarivanje prednosti AGI-ja.

Kako bismo zaštitili naše korisnike i poboljšali naše modele protiv ovih napada, primjenjujemo višeslojni pristup, uključujući sljedeće:

Sigurnosna obuka

Želimo AI koji prepoznaje ubrizgavanje upita i ne nasjeda na njih. Međutim, otpornost na protivničke napade predstavlja dugogodišnji izazov za strojno učenje i umjetnu inteligenciju, što je čini teškim i otvorenim problemom. Razvili smo istraživanje pod nazivom Hijerarhija instrukcija kako bismo radili na modelima koji razlikuju pouzdane i nepouzdane upute. Nastavljamo razvijati nove pristupe za obuku modela kako bi bolje prepoznavali obrasce ubrizgavanja upita, kako bi ih mogli ignorirati ili označiti korisnicima. Jedna od tehnika koje primjenjujemo je automatski red teaming, područje koje već godinama proučavamo(otvara se u novom prozoru), kako bismo razvili nove napade ubrizgavanjem upita.

Praćenje

Razvili smo više automatskih sustava monitora pokretanih umjetnom inteligencijom za prepoznavanje i blokiranje napada ubrizgavanjem upita. Ovo nadopunjuje pristupe sigurnosnoj obuci jer se mogu brzo ažurirati kako bi brzo blokirali sve nove napade koje otkrijemo. Ovi monitori ne samo da pomažu u prepoznavanju potencijalnih napada ubrizgavanjem upita protiv naših korisnika, već nam također mogu omogućiti da otkrijemo protivničko istraživanje i testiranje ubrizgavanja upita koristeći se našom platformom, prije nego što se ti napadi primijene u stvarnom svijetu.

Sigurnosne zaštite

Naše proizvode i infrastrukturu dizajnirali smo s raznim preklapajućim sigurnosnim zaštitama kako bismo pomogli u zaštiti korisničkih podataka. Ove značajke, koje ćemo istražiti u više tehničkih detalja u budućim objavama, prilagođene su za svaki pojedini proizvod. Na primjer, kako bismo vam pomogli da izbjegnete nepouzdane web-lokacije, zatražit ćemo da odobrite određene poveznice u ChatGPT‑ju, osobito na web-lokacijama koje traže da ih ne katalogiziramo(otvara se u novom prozoru), prije nego što ih možete posjetiti. Kada naš AI koristi alate za pokretanje ostalih programa ili koda (kao u Canvasu ili našem razvojnom alatu Codex), primjenjujemo tehniku zvanu sandboxing kako bismo spriječili model da napravi štetne promjene koje bi mogle biti rezultat ubrizgavanja upita.

Omogućite korisnicima kontrolu

U naše proizvode uključujemo ugrađene kontrole kako bismo korisnicima pomogli da se zaštite. Na primjer, u aplikaciji ChatGPT Atlas možete odabrati način rada bez prijave koji omogućuje agentu aplikacije ChatGPT da započne zadatke bez prijave na web-mjesta. Agent aplikacije ChatGPT također zastane i zatraži potvrdu prije poduzimanja osjetljivih koraka, kao što je dovršavanje kupnje. Kada agent radi na osjetljivim stranicama, implementirali smo i „Watch Mode“ koji vas upozorava na osjetljivu prirodu stranice i zahtijeva da kartica bude aktivna kako biste mogli pratiti agenta dok obavlja svoj posao. Agent će se pauzirati ako se udaljite s kartice koja sadržava osjetljive informacije. To osigurava da ostanete svjesni i imate kontrolu nad radnjama koje izvodi agent.

Red-teaming

Provodimo opsežan red teaming s internim i vanjskim timovima kako bismo testirali i poboljšali naše obrambene mjere, oponašali ponašanje napadača i pronašli nove načine za poboljšanje naše sigurnosti. To uključuje na tisuće sati usmjerenih posebno na ubrizgavanje upita. Kako otkrivamo nove tehnike i napade, naši timovi proaktivno rješavaju sigurnosne ranjivosti i poboljšavaju mjere ublažavanja za naš model.

Bug Bounty (Nagrada za otkrivanje ranjivosti)

Kako bismo potaknuli neovisne istraživače sigurnosti koji djeluju u dobroj vjeri da nam pomognu otkriti nove tehnike i napade ubrizgavanjem upita, nudimo financijske nagrade u okviru našeg programa nagrađivanja za otkrivanje ranjivosti(otvara se u novom prozoru) kada pokažu realističan put napada koji bi mogao rezultirati nenamjernim izlaganjem korisničkih podataka. Potičemo vanjske suradnike da brzo ukažu na te probleme kako bismo ih mogli riješiti i dodatno ojačati naše obrambene mehanizme.

Neka korisnici sami odluče

Obavještavamo korisnike o rizicima korištenja određenih značajki proizvoda kako bi mogli donositi informirane odluke. Na primjer, kada povezujete ChatGPT s ostalim aplikacijama, objašnjavamo kojim se podacima može pristupiti, kako se mogu koristiti i koji bi se rizici mogli pojaviti, kao što je web-mjesto koje pokušava ukrasti vaše podatke, zajedno s poveznicom za učenje kako biti zaštićeniji. Također, dajemo organizacijama kontrolu nad time koje značajke korisnici mogu omogućiti ili koristiti u svojim radnim prostorima.

Koraci koje možete poduzeti kako biste bili zaštićeniji

Ubrizgavanje upita predstavlja napredni sigurnosni izazov za koji očekujemo da će se nastaviti razvijati s vremenom. Nove razine inteligencije i potencijala zahtijevaju da tehnologija, društvo i strategija za ublažavanje rizika zajedno evoluiraju. Kao i s računalnim virusima početkom 2000-ih, smatramo da je važno da svi razumiju prijetnju ubrizgavanja upita i kako upravljati rizikom, kako bismo svi mogli naučiti sigurno koristiti ovu tehnologiju. Oprez i svjesnost pomažu u zaštiti vaših podataka prilikom korištenja umjetne inteligencije i agentskih značajki koje mogu djelovati u vaše ime.

Iskoristite ugrađene značajke za ograničavanje pristupa osjetljivim podacima

Gdje god je to moguće, ograničite pristup agenta samo na osjetljive podatke ili vjerodajnice potrebne za dovršetak zadatka. Na primjer, kada koristite način rada agenta u aplikaciji ChatGPT Atlas za istraživanje odmora, ako agent samo istražuje i ne treba prijavljeni pristup, koristite način rada „odjavljen“.

Kada agent zatraži potvrdu, pažljivo provjerite je li na pravom putu.

Često dizajniramo agente da dobiju konačnu potvrdu od vas prije nego što poduzmu određene važne radnje, poput dovršavanja kupnje ili slanja e-pošte. Kada od vas agent zatraži da potvrdite radnju, pažljivo provjerite izgleda li radnja ispravno i je li informacija koja se dijeli prikladna za dijeljenje u tom kontekstu.

Kada agent radi na osjetljivom mjestu, poput vaše banke, pratite ga dok obavlja svoj posao. To je kao nadzirati samovozeći automobil držeći ruke na volanu.

Kad god je to moguće, dajte agentu izravne upute

Davanje agentu vrlo široke upute poput „pregledaj moju e-poštu i poduzmi sve potrebne radnje” može olakšati skrivenom zlonamjernom sadržaju da zavara model, iako je osmišljen da provjeri s vama prije poduzimanja osjetljivih radnji.

Sigurnije je tražiti od svojeg agenta da obavlja određene zadatke, a ne dati mu široku slobodu da moguće slijedi štetne upute iz drugih izvora, poput e-pošte. Iako to ne jamči da napada neće biti, otežava napadačima da budu uspješni.

Ostanite informirani i slijedite najbolje sigurnosne prakse

Kako se AI tehnologija razvija, pojavit će se novi rizici i mjere zaštite. Pratite novosti iz OpenAI-ja i ostalih pouzdanih izvora kako biste saznali o najboljim praksama.

Gledajući naprijed

Ubrizgavanje upita ostaje izazovan napredan istraživački problem, i baš kao kod tradicionalnih prijevara na webu, očekujemo da će naš rad biti kontinuiran. Iako još nismo primijetili da napadači značajno usvajaju ovu tehniku, očekujemo da će protivnici uložiti znatno vrijeme i resurse kako bi pronašli načine da umjetne inteligencije postanu podložne ovim napadima. Nastavljamo značajno ulagati u sigurnost naših proizvoda i u istraživanje kako bismo unaprijedili otpornost umjetne inteligencije na ovaj rizik. Dijelit ćemo novosti kako budemo saznali više, uključujući stalni napredak u našem sigurnosnom radu u ovom području. Na primjer, izrađujemo izvješće koje ćemo uskoro objaviti i koje će pružiti više detalja o tome kako otkrivamo prenosi li komunikacija vaše umjetne inteligencije s internetom informacije iz vašeg razgovora.

Naš je cilj učiniti ove sustave jednako pouzdanima i sigurnima kao i rad s vašim najpouzdanijim i najsigurnijim kolegom ili prijateljem. Nastavit ćemo učiti iz upotrebe u stvarnom svijetu, sigurno iterirati i objavljivati ono što naučimo kako tehnologija napreduje.