7 Novemba 2025

Kuelewa upenyezaji wa madokezo: changamoto ya usalama ya hali ya juu

Zana za AI zinaanza kufanya zaidi ya kujibu maswali. Sasa zinaweza kuvinjari wavuti, kusaidia katika utafiti, kupanga safari, na kusaidia kununua bidhaa. Kadiri zinavyozidi kuwa na uwezo, zikiwa na uwezo wa kufikia data yako katika programu nyingine na kuchukua hatua kwa niaba yako, changamoto mpya za usalama zinaibuka. Moja tunalolenga sana ni upenyezaji wa madokezo.

Mchoro unaoonyesha jinsi shambulio la upenyezaji wa madokezo linavyofanya kazi. Kushoto, kuna ikoni ya mtumiaji anayetabasamu yenye lebo ya “Mtumiaji anaomba AI msaada wa kazi.” Kishale kinaelekeza katikati ambapo ikoni ya skrini ya kompyuta imewekewa lebo ya “AI huona tovuti yenye shambulio,” na juu yake kuna kielelezo kidogo chenye kofia na tabasamu la kejeli kimewekewa lebo ya “Mshambuliaji aliweka upenyezaji wa madokezo.” Kishale kingine kinaelekea kulia kikionyesha ikoni ya hati yenye pembetatu ya onyo iliyoandikwa “AI imedanganywa kufanya kitendo kisichokusudiwa.” Mtiririko unaonyesha jinsi mshambuliaji anaweza kudanganya AI kupitia madokezo yaliyoingizwa.

Upenyezaji wa madokezo ni nini?

Upenyezaji wa madokezo ni aina ya shambulio la uhandisi wa kijamii linalolenga AI ya mazungumzo. Mifumo ya awali ya AI ilikuwa mazungumzo kati ya mtumiaji mmoja na wakala mmoja wa AI. Katika bidhaa za AI za leo, mazungumzo yako yanaweza kujumuisha maudhui kutoka kwa vyanzo mbalimbali, ikiwa ni pamoja na intaneti. Wazo kwamba mhusika mwingine (ambaye si mtumiaji wala AI) anaweza kupotosha muundo kwa kuingiza maagizo hasidi katika muktadha wa mazungumzo lilisababisha neno “upenyezaji wa madokezo”.

Kwa njia ile ile ambayo barua pepe za hadaa au ulaghai kwenye wavuti hujaribu kuwahadaa watu watoe taarifa nyeti, upenyezaji wa madokezo hujaribu kuzihadaa AI kufanya jambo ambalo hukuomba.

Fikiria umeomba AI ikusaidie kufanya utafiti wa likizo mtandaoni, na inapofanya hivyo inakutana na maudhui ya kupotosha au maagizo hatari yaliyofichwa kwenye ukurasa wa wavuti, kama vile kwenye maoni ya tangazo au kwenye ukaguzi. Maudhui yanaweza kuundwa kwa uangalifu kwa lengo la kudanganya AI kupendekeza orodha isiyo sahihi, au mbaya zaidi, kuiba taarifa za kadi yako ya mkopo.

Hii ni mifano michache tu ya "upenyezaji wa madokezo"—maagizo hatari yaliyoundwa kudanganya AI ifanye jambo ambalo hulikukusudia, mara nyingi hufichwa ndani ya maudhui ya kawaida kama vile ukurasa wa wavuti, hati, au barua pepe.

Hatari hizi huongezeka kadri AI zinavyopata ufikiaji wa data nyeti zaidi na kuchukua hatua zaidi za kujitegemea na kazi za muda mrefu zaidi.

Muhtasari

Kile ulichoomba AI afanye

Kile ambacho mshambuliaji hufanya

Matokeo yanayoweza kutokea endapo shambulio litafanikiwa

Unaomba AI ifanye utafiti wa vyumba vya kupanga, na inapewa dokezo la kupendekeza tangazo ambalo si chaguo bora kwako.

Unaomba AI ifanye utafiti wa vyumba vya kupangisha kwa kutumia vigezo fulani.

Mshambuliaji amejumuisha shambulio la upenyezaji wa madokezo katika tangazo la nyumba ili kudanganya AI ifikiri kwamba tangazo lao linapaswa kuchaguliwa bila kujali mapendeleo ya mtumiaji yaliyotajwa.

Ikiwa shambulio litafanikiwa, AI inaweza kupendekeza kimakosa orodha ya nyumba za kupangisha isiyo bora kulingana na mapendeleo yako.

Unaomba wakala wa AI ajibu barua pepe zako za usiku kucha, na hatimaye inashiriki taarifa zako za benki.

Unaomba wakala wa AI ajibu barua pepe zako za usiku kucha kwa sababu una shughuli nyingi asubuhi hii.

Tazama “Inapowezekana, mpe wakala maagizo wazi” hapa chini

Mshambuliaji alikutumia barua pepe yenye taarifa potofu zinazodanganya muundo kutafuta taarifa zako za benki na kuzishiriki na mshambuliaji.

Ikiwa shambulio litafaulu, wakala anaweza kutafuta kitu chochote kama taarifa za benki kwenye barua pepe yako (ambayo uliipa ruhusa kwa ajili ya kazi) na kuzishiriki na mshambuliaji.

Mbinu yetu ya kuwalinda watumiaji

Kujilinda dhidi ya upenyezaji wa madokezo ni changamoto katika sekta nzima ya AI na ni lengo kuu katika OpenAI. Ingawa tunatarajia maadui waendelee kutengeneza mashambulizi kama haya, tunajenga mifumo ya ulinzi iliyoundwa kutekeleza kazi iliyokusudiwa na mtumiaji hata wakati mtu anajaribu kwa bidii kuwapotosha. Uwezo huo ni muhimu kwa kutambua manufaa ya AGI kwa usalama.

Ili kuwalinda watumiaji wetu, na kusaidia kuboresha miundo yetu dhidi ya mashambulizi haya, tunatumia mbinu ya tabaka nyingi, ikijumuisha yafuatayo:

Mafunzo ya usalama

Tunataka AI inayotambua upenyezaji wa madokezo na isidanganyike nayo. Hata hivyo, uimara dhidi ya mashambulizi ya kiadui ni changamoto ya muda mrefu kwa ujifunzaji wa mashine na AI, na hili ni tatizo gumu na wazi. Tumeunda utafiti unaoitwa Utaratibu wa Maagizo⁠ ili kufanya kazi kuelekea miundo inayotofautisha kati ya maagizo yanayoaminika na yasiyoaminika. Tunaendelea kuunda mbinu mpya za kufundisha miundo ili zitambue vyema upenyezaji wa madokezo ili ziweze kuipuuza au kuiripoti kwa watumiaji. Mojawapo ya mbinu tunazotumia ni kupima uwezekano wa kuathirika kiotomatiki, eneo ambalo tumekuwa tukilisoma⁠(fungua katika dirisha jipya) kwa miaka mingi, ili kuunda mashambulio mapya ya upenyezaji wa madokezo.

Ufuatiliaji

Tumeunda vichunguzi vingi vya kiotomatiki vinavyoendeshwa na AI vya ufuatiliaji⁠ ili kutambua na kuzuia mashambulio ya upenyezaji wa madokezo. Hizi zinakamilisha mbinu za mafunzo ya usalama kwa sababu zinaweza kusasishwa haraka ili kuzuia mashambulizi yoyote mapya tunayoyagundua. Vifuatiliaji hivi havisaidii tu kutambua mashambulio yanayoweza kutokea ya upenyezaji wa madokezo dhidi ya watumiaji wetu, bali pia vinaweza kutuwezesha kugundua utafiti na majaribio ya upenyezaji wa madokezo ya kiadui yanayotumia jukwaa letu, kabla ya mashambulio hayo kutekelezwa katika mazingira ya kawaida.

Ulinzi wa usalama

Tumeunda bidhaa na miundombinu yetu kwa ulinzi mbalimbali wa usalama unaoingiliana ili kusaidia kulinda data za watumiaji. Vipengele hivi, ambavyo tutachunguza kwa undani zaidi wa kiufundi katika machapisho ya baadaye, vimebinafsishwa kwa kila bidhaa. Kwa mfano, ili kukusaidia kuepuka tovuti zisizoaminika, tutakuomba uidhinishe viungo fulani katika ChatGPT, hasa kwenye tovuti zinazotuomba tusiziorodheshe⁠(fungua katika dirisha jipya), kabla ya kutembelewa. Wakati AI yetu inapotumia zana kuendesha programu au msimbo mwingine (kama ilivyo katika Canvas, au zana yetu ya maendeleo Codex), tunatumia mbinu inayoitwa sehemu ya majaribio ili kuzuia muundo kufanya mabadiliko hatari ambayo yanaweza kuwa matokeo ya upenyezaji wa madokezo.

Wape watumiaji udhibiti

Tumejumuisha vidhibiti vilivyojengewa ndani katika bidhaa zetu ili kuwasaidia watumiaji kujilinda. Kwa mfano, katika ChatGPT Atlas, unaweza kuchagua hali ya kutotumia akaunti ambayo inaruhusu wakala wa ChatGPT kuanzisha kazi bila kuingia kwenye tovuti. Wakala wa ChatGPT pia husimama na kuomba uthibitisho kabla ya kuchukua hatua nyeti kama vile kukamilisha ununuzi. Wakati wakala anapofanya kazi kwenye tovuti nyeti, tumetekeleza pia “Hali ya Kutazama” inayokuonya kuhusu hali nyeti ya tovuti na inakuhitaji uwe na kichupo kinachotumika ili kutazama wakala akifanya kazi yake. Wakala atasimama ikiwa utaondoka kwenye kichupo chenye maelezo nyeti. Hii inahakikisha unafahamu—na unadhibiti—vitendo ambavyo wakala anafanya.

kupima uwezekano wa kuathirika

Tunafanya majaribio ya kina ya kupima uwezekano wa kuathirika na timu za ndani na nje ili kujaribu na kuboresha ulinzi wetu, kuiga tabia ya washambuliaji, na kupata njia mpya za kuboresha usalama wetu. Hii inajumuisha maelfu ya saa zilizolenga hasa upenyezaji wa madokezo. Tunapogundua mbinu na mashambulizi mapya, timu zetu hushughulikia kwa haraka udhaifu wa usalama na kuboresha mikakati yetu ya kupunguza hatari za muundo.

Zawadi kwa watafiti wa usalama

Ili kuhimiza watafiti huru wa usalama wanaofanya kazi kwa nia njema kutusaidia kugundua mbinu na mashambulio mapya ya upenyezaji wa madokezo, tunatoa zawadi za kifedha chini ya mpango wetu wa zawadi kwa watafiti wa usalama⁠(fungua katika dirisha jipya) wanapoonyesha njia halisi ya shambulio ambayo inaweza kusababisha kufichuliwa kwa data ya mtumiaji bila kukusudia. Tunawahamasisha wachangiaji wa nje kufichua masuala haya haraka ili tuweze kuyatatua na kuimarisha zaidi ulinzi wetu.

Waache watumiaji waamue

Tunaelimisha watumiaji kuhusu hatari za kutumia vipengele fulani katika bidhaa ili waweze kufanya maamuzi sahihi. Kwa mfano, unapounganisha ChatGPT na programu nyingine, tunaeleza ni data gani inaweza kufikiwa, jinsi inavyoweza kutumiwa, na hatari gani zinaweza kutokea kama vile tovuti kujaribu kuiba data yako, pamoja na kiungo cha kujifunza jinsi ya kubaki salama zaidi. Pia tunawapa mashirika udhibiti wa vipengele ambavyo vinaweza kuwezeshwa au kutumiwa na watumiaji katika maeneokazi yao.

Hatua unazoweza kuchukua ili kubaki salama zaidi

Upenyezaji wa madokezo ni changamoto ya usalama wa hali ya juu ambayo tunatarajia itaendelea kubadilika kwa muda. Viwango vipya vya akili na uwezo vinahitaji teknolojia, jamii, na mkakati wa kupunguza hatari ili kubadilika pamoja. Na kama ilivyokuwa kwa virusi vya kompyuta mwanzoni mwa miaka ya 2000, tunafikiri ni muhimu kwa kila mtu kuelewa tishio la upenyezaji wa madokezo na jinsi ya kukabiliana na hatari hiyo, ili sote tuweze kujifunza kufaidika na teknolojia hii kwa usalama. Kuwa na ufahamu na tahadhari husaidia kuweka data zako salama zaidi unapotumia AI na vipengele vya mawakala vinavyoweza kutenda kwa niaba yako.

Tumia vipengele vilivyoundiwa ndani ili kupunguza ufikiaji wa data nyeti

Ikiwezekana, punguza ufikiaji wa wakala kwa data nyeti au vitambulisho vinavyohitajika tu ili kukamilisha kazi. Kwa mfano, unapotumia hali ya wakala katika ChatGPT Atlas kufanya utafiti wa likizo, ikiwa wakala anafanya utafiti tu na hahitaji kuingia, tumia hali ya “kutoka”.

Wakati wakala anaomba uthibitisho, hakikisha kwa makini kwamba anakaribia kufanya jambo sahihi

Mara nyingi tunabuni mawakala ili kupata uthibitisho wa mwisho kutoka kwako kabla ya kuchukua hatua muhimu kama vile kukamilisha ununuzi au kutuma barua pepe. Wakati wakala anapokuuliza uthibitishe kitendo, hakikisha kwa makini kwamba kitendo hicho kinaonekana kuwa sahihi na kwamba taarifa yoyote inayoshirikiwa inafaa kushirikiwa katika muktadha huo.

Wakati wakala anafanya kazi kwenye tovuti nyeti, kama vile benki yako, mtazame wakala akifanya kazi yake. Hii ni kama kufuatilia gari linalojiendesha lenyewe kwa kushikilia usukani.

Ikiwezekana, mpe wakala maagizo dhahiri

Kumpa wakala maagizo mapana kama "kagua barua pepe zangu na chukua hatua yoyote inayohitajika" kunaweza kurahisisha maudhui mabaya yaliyofichwa ili kupotosha muundo, ingawa umeundwa kuwasiliana na wewe kabla ya kuchukua hatua nyeti.

Ni salama zaidi kumwomba wakala wako afanye mambo maalum, na si kumpa uhuru mpana wa kufuata maagizo yenye madhara kutoka sehemu nyingine kama barua pepe. Ingawa hii haihakikishi kwamba hakutakuwa na mashambulizi, inafanya iwe vigumu zaidi kwa washambuliaji kufanikiwa.

Endelea kupata taarifa na ufuate mbinu bora za usalama

Kadri teknolojia ya AI inavyoendelea kubadilika, hatari na ulinzi mpya utaibuka. Fuata masasisho kutoka OpenAI na vyanzo vingine vinavyoaminika ili ujifunze kuhusu mbinu bora.

Kuangalia mbele

Upenyezaji wa madokezo bado ni mfumo wa hali ya juu, tatizo la utafiti lenye changamoto, na kama ulaghai wa kawaida kwenye wavuti, tunatarajia kazi yetu itaendelea. Ingawa bado hatujaona matumizi makubwa ya mbinu hii na washambuliaji, tunatarajia maadui watatumia muda na rasilimali kubwa kutafuta njia za kufanya AI zipatwe na mashambulizi haya. Tunaendelea kuwekeza sana katika kuhakikisha bidhaa zetu ni salama na zinafanyiwa utafiti ili kuendeleza uimara wa AI dhidi ya hatari hii. Tutatoa taarifa zaidi tunapopata habari mpya, ikiwa ni pamoja na maendeleo yanayoendelea katika kazi yetu ya usalama katika eneo hili. Kwa mfano, tunatayarisha ripoti ambayo tutachapisha hivi karibuni itakayotoa maelezo zaidi kuhusu jinsi tunavyogundua ikiwa mawasiliano ya AI yako na intaneti yatatuma taarifa kutoka kwa mazungumzo yako.

Lengo letu ni kufanya mifumo hii iwe ya kuaminika na salama kama kufanya kazi na mfanyakazi mwenzako au rafiki unayemwamini zaidi na anayejua masuala ya usalama. Tutaendelea kujifunza kutokana na matumizi ya ulimwengu halisi, kuboresha kwa usalama, na kuchapisha yale tunayojifunza kadri teknolojia inavyoendelea kusonga mbele.

Endelea kusoma

Tazama zote

OpenAI na Hugging Face washughulikia tukio la usalama

Ulinzi21 Jul 2026

Daybreak: Zana za kulinda kila shirika duniani

Ulinzi22 Jun 2026

Patch the Planet: a Daybreak initiative to support open source maintainers

Ulinzi22 Jun 2026