Հարցումների ներարկումների ըմբռնումը՝ առաջադեմ անվտանգության մարտահրավեր
ԱԲ-ի գործիքները սկսում են անել ավելին, քան պարզապես հարցերին պատասխանելը։ Այժմ նրանք կարող են զննարկել համացանցը, աջակցել հետազոտությանը, պլանավորել ուղևորություններ և աջակցել պրոդուկտներ գնելուն։ Քանի որ դրանք ավելի ունակ են դառնում՝ կարողանալով մուտք գործել ձեր տվյալներին այլ հավելվածներում և ձեր անունից գործողություններ կատարել, առաջանում են անվտանգության նոր մարտահրավերներ։ Դրանցից մեկը, որին մեծ ուշադրություն ենք դարձնում, հարցումների ներարկումն է։
Հարցումների ներարկումը սոցիալական ճարտարագիտության հարձակման տեսակ է, որը հատուկ է խոսակցական ԱԲ-ին։ Վաղ ԱԲ-ի համակարգերը ենթադրում էին զրույցներ մեկ օգտատիրոջ և մեկ ԱԲ ագենտի միջև։ Այսօր ԱԲ-ի պրոդուկտներում ձեր խոսակցությունը կարող է ներառել բովանդակություն բազմաթիվ աղբյուրներից, այդ թվում՝ ինտերնետից։ Այն գաղափարը, որ երրորդ կողմը (այսինքն՝ ոչ օգտատերը և ոչ էլ ԱԲ-ն) կարող է մոլորեցնել մոդելին՝ զրույցի համատեքստում վնասակար հրահանգներ ներարկելով, հանգեցրեց «հարցումների ներարկում» տերմինի առաջացմանը։
Նույն կերպ, ինչպես ֆիշինգային էլեկտրոնային նամակները կամ համացանցում խարդախությունները փորձում են խաբել մարդկանց՝ ստիպելով նրանց բացահայտել զգայուն տեղեկություն, հարցումների ներարկումները փորձում են խաբել ԱԲ-երին՝ ստիպելով նրանց անել այն, ինչ դուք չեք խնդրել։
Պատկերացրեք, որ խնդրել եք ԱԲ-ին օգնել արձակուրդի հետ կապված որոշ տարբերակներ առաջարկել, և մինչ այն դա անում է, այն հանդիպում է մոլորեցնող բովանդակության կամ վնասակար հրահանգների, որոնք թաքցված են կայքէջում, օրինակ՝ հայտարարության մեկնաբանության մեջ կամ կարծիքում։ Բովանդակությունը կարող է մանրակրկիտ մշակված լինել՝ փորձելով խաբել ԱԲ-ին՝ սխալ հայտարարություն առաջարկելու համար, կամ ավելի վատ՝ ձեր վարկային քարտի տվյալները գողանալու համար։
Սրանք «հարցումների ներարկման» հարձակումների ընդամենը մի քանի օրինակներ են՝ վնասակար հրահանգներ, որոնք նախատեսված են ԱԲ-ին խաբելու՝ ստիպելով անել այն, ինչ չէիք նախատեսել, հաճախ թաքցված սովորական բովանդակության մեջ, ինչպիսիք են՝ կայքէջը, փաստաթուղթը կամ էլ. նամակը։
Այս ռիսկերը մեծանում են, քանի որ ԱԲ-ները մուտք ունեն ավելի զգայուն տվյալների, ավելի շատ նախաձեռնություն են ցուցաբերում և կատարում ավելի երկարատև առաջադրանքներ։
Ամփոփագիր | Ի՞նչ եք խնդրել ԱԲ-ին անել | Ի՞նչ է անում հարձակվողը | Հնարավոր արդյունքը, եթե հարձակումը հաջողվի |
Դուք խնդրում եք ԱԲ-ին ուսումնասիրել բնակարանները, և այն հարցման միջոցով ներարկվում է՝ առաջարկելու մի հայտարարություն, որը ձեզ համար լավագույն տարբերակը չէ։ | Դուք խնդրում եք ԱԲ-ին ուսումնասիրել բնակարաններ՝ որոշակի տրված չափանիշներով։ | Հարձակվողը բնակարանի հայտարարությունում ներառել է հարցումների ներարկման հարձակում՝ ԱԲ-ին խաբելու համար, որպեսզի վերջինս մտածի, որ իր հայտարարությունը պետք է ընտրվի՝ անկախ օգտատիրոջ նշած նախընտրություններից։ | Եթե հարձակումը հաջողվի, ԱԲ-ն կարող է սխալմամբ խորհուրդ տալ ձեր նախընտրությունների հիման վրա ոչ օպտիմալ բնակարանի հայտարարություն։ |
Դուք խնդրում եք ԱԲ-ի ագենտին պատասխանել գիշերվա ընթացքում ստացված ձեր էլեկտրոնային նամակներին, իսկ արդյունքում այն կիսվում է ձեր բանկային քաղվածքներով։ | Դուք խնդրում եք ԱԲ-ի ագենտին ընդհանուր առմամբ պատասխանել ձեր գիշերվա էլեկտրոնային նամակներին, քանի որ այս առավոտ զբաղված եք։ Տես «Երբ հնարավոր է, տվեք ագենտին հստակ հրահանգներ» բաժինը ստորև | Հարձակվողը ձեզ ուղարկել է էլ․ նամակ, որը պարունակում է ապատեղեկատվություն՝ մոդելին մոլորեցնելու համար, որպեսզի գտնի ձեր բանկային քաղվածքները և կիսվի դրանցով հարձակվողի հետ։ | Եթե հարձակումը հաջողվի, ագենտը կարող է փնտրել ձեր էլ․ փոստում բանկային քաղվածքների նման որևէ բան (որին դուք մուտք եք տվել առաջադրանքի համար) և դրանք կկիսի հարձակվողի հետ։ |
Հարցումների ներարկումից պաշտպանվելը մարտահրավեր է ամբողջ ԱԲ-ի արդյունաբերության ոլորտում և OpenAI-ի հիմնական ուշադրության կենտրոնում է։ Թեև մենք ակնկալում ենք, որ հակառակորդները շարունակեն զարգացնել նման հարձակումներ, մենք ստեղծում ենք պաշտպանական միջոցներ, որոնք նախատեսված են իրականացնելու օգտատիրոջ նախատեսած առաջադրանքը նույնիսկ այն դեպքում, երբ ինչ-որ մեկը ակտիվորեն փորձում է մոլորեցնել նրան։ Այդ կարողությունը կարևոր է AGI-ի առավելությունները ապահով կերպով իրագործելու համար։
Մեր օգտատերերին պաշտպանելու և մեր մոդելները այս հարձակումներից պաշտպանելու համար մենք կիրառում ենք բազմաշերտ մոտեցում, որը ներառում է հետևյալը՝
Մենք ցանկանում ենք ԱԲ, որը ճանաչում է հարցումների ներարկումները և չի խաբվում դրանց։ Այնուամենայնիվ, հակառակորդային հարձակումների նկատմամբ կայունությունը մեքենայական ուսուցման և ԱԲ-ի համար երկարատև մարտահրավեր է, ինչը դարձնում է այն բարդ և անորոշ խնդիր։ Մենք մշակել ենք Հրահանգների հիերարխիա կոչվող հետազոտություն՝ մոդելներ մշակելու համար, որոնք տարբերակում են վստահելի և անվստահելի հրահանգները։ Մենք շարունակում ենք մշակել նոր մոտեցումներ՝ մոդելները վերապատրաստելու համար, որպեսզի դրանք ավելի լավ ճանաչեն հարցումների ներարկման օրինաչափությունները և կարողանան դրանք անտեսել կամ դրանց մասին ազդարարել օգտատերերին։ Մեր կիրառած տեխնիկաներից մեկը ավտոմատացված նախափորձարկումն է՝ մի ոլորտ, որը մենք տարիներ շարունակ ուսումնասիրել ենք(բացվում է նոր պատուհանում) ՝ նոր հարցումների ներարկում հարձակումներ մշակելու համար։
Մենք մշակել ենք մի քանի ավտոմատացված ԱԲ-ով աշխատող մոնիտորներ ՝ հարցումների ներարկման հարձակումները հայտնաբերելու և արգելափակելու համար։ Դրանք լրացնում են անվտանգության ուսուցման մոտեցումները, քանի որ դրանք կարող են արագ թարմացվել՝ արագորեն արգելափակելու մեր հայտնաբերած ցանկացած նոր հարձակում։ Այս մոնիտորները ոչ միայն օգնում են հայտնաբերել մեր օգտատերերի դեմ ուղղված հնարավոր հարցումների ներարկման հարձակումները, այլև թույլ են տալիս մեզ որսալ մեր հարթակում իրականացվող հակառակորդային հարցումների ներարկման հետազոտությունն ու թեստավորումը՝ նախքան այդ հարձակումները կիրառվեն իրական աշխարհում։
Մենք նախագծել ենք մեր պրոդուկտներն ու ենթակառուցվածքը՝ տարբեր միմյանց վրա համընկնող անվտանգության պաշտպանության միջոցներով՝ օգտատերերի տվյալների պաշտպանությունը ապահովելու համար։ Այս գործառույթները, որոնք մենք հետագա գրառումներում կքննարկենք ավելի տեխնիկական մանրամասներով, հարմարեցված են յուրաքանչյուր պրոդուկտի համար։ Օրինակ՝ անվստահելի կայքերից հեռու մնալու համար մենք կխնդրենք, որ հաստատեք որոշ հղումներ ChatGPT‑ում, հատկապես կայքէջերում, որոնք խնդրում են չդասակարգել իրենց(բացվում է նոր պատուհանում), նախքան դրանց այցելելը հնարավոր լինի։ Երբ մեր ԱԲ-ն գործիքներ է օգտագործում՝ այլ ծրագրեր կամ կոդ գործարկելու համար (օրինակ՝ Canvas-ում կամ մեր զարգացման գործիք Codex-ում), մենք օգտագործում ենք «սենդբոքս» կոչվող տեխնիկան՝ կանխելու համար մոդելի կողմից վնասակար փոփոխությունների կատարումը, որոնք կարող են լինել հարցումների ներարկման հետևանք։
Մենք մեր պրոդուկտներում ներառում ենք ներկառուցված վերահսկողության գործիքներ՝ օգնելու օգտատերերին պաշտպանել իրենց։ Օրինակ՝ ChatGPT Atlas-ում կարող եք ընտրել դուրս եկած ռեժիմը, որը թույլ է տալիս ChatGPT‑ի ագենտին սկսել առաջադրանքներ՝ առանց կայքերում մուտք գործելու։ ChatGPT‑ի ագենտը նաև դադար է տալիս և նախքան զգայուն քայլեր ձեռնարկելը, ինչպիսիք են գնումն ավարտելը, խնդրում է հաստատում։ Երբ ագենտը գործում է զգայուն կայքերում, մենք նաև ներդրել ենք «Watch Mode», որը զգուշացնում է կայքի զգայուն բնույթի մասին և պահանջում է, որ ներդիրը ակտիվ լինի՝ հետևելու համար, թե ինչպես է ագենտը կատարում իր աշխատանքը։ Ագենտը կդադարեցնի իր աշխատանքը, եթե հեռանաք զգայուն տեղեկատվություն պարունակող ներդիրից։ Սա ապահովում է, որ դուք տեղեկացված լինեք և մնաք վերահսկողության տակ այն գործողությունների վերաբերյալ, որոնք կատարում է ագենտը։
Մենք իրականացնում ենք լայնածավալ նախափորձարկում ներքին և արտաքին թիմերի հետ՝ մեր պաշտպանությունները փորձարկելու և բարելավելու, հարձակվողի վարքագիծը նմանակելու և մեր անվտանգությունը բարելավելու նոր ուղիներ գտնելու համար։ Սա ներառում է հազարավոր ժամեր, որոնք հատուկ կենտրոնացած են հարցումների ներարկման վրա։ Քանի որ մենք հայտնաբերել ենք նոր տեխնիկաներ և հարձակումներ, մեր թիմերը կանխարգելիչ կերպով լուծում են անվտանգության խոցելիությունները և բարելավում են մեր մոդելի պաշտպանական միջոցառումները։
Բարի մտադրությամբ անկախ անվտանգության հետազոտողներին խրախուսելու համար՝ օգնելու մեզ բացահայտել հարցումների ներարկման նոր տեխնիկաներ և հարձակումներ, մենք առաջարկում ենք ֆինանսական պարգևատրումներ մեր սխալների հայտնաբերման ծրագրի(բացվում է նոր պատուհանում) շրջանակներում, երբ նրանք ցույց են տալիս իրատեսական հարձակման ուղի, որը կարող է հանգեցնել օգտատերերի տվյալների ոչ կանխատեսված բացահայտման։ Մենք խրախուսում ենք արտաքին ներդրողներին արագ բացահայտել այս խնդիրները, որպեսզի կարողանանք դրանք լուծել և հետագայում ամրապնդել մեր պաշտպանությունը։
Մենք օգտատերերին տեղեկացնում ենք պրոդուկտներում որոշ գործառույթների օգտագործման ռիսկերի մասին, որպեսզի նրանք կարողանան տեղեկացված որոշումներ կայացնել։ Օրինակ՝ երբ միացնում ենք ChatGPT‑ն այլ հավելվածներին, մենք բացատրում ենք, թե ինչ տվյալների կարող է հասանելիություն լինել, ինչպես կարող են դրանք օգտագործվել, և ինչ ռիսկեր կարող են առաջանալ, օրինակ՝ կայքը կարող է փորձել գողանալ ձեր տվյալները, ինչպես նաև տրամադրում ենք հղում՝ իմանալու, թե ինչպես մնալ ավելի անվտանգ։ Մենք նաև կազմակերպություններին հնարավորություն ենք տալիս վերահսկել, թե իրենց աշխատատարածքներում որ գործառույթները կարող են միացված լինել կամ օգտագործվել օգտատերերի կողմից։
Հարցումների ներարկումը առաջադեմ անվտանգության մարտահրավեր է, որը մենք ակնկալում ենք, որ ժամանակի ընթացքում կշարունակի զարգանալ։ Բանականության և կարողությունների նոր մակարդակները պահանջում են, որ տեխնոլոգիան, հասարակությունը և ռիսկերի մեղմելուն ուղղված ռազմավարությունը համատեղ զարգանան։ Եվ ինչպես 2000-ականների սկզբի համակարգչային վիրուսների դեպքում, մենք կարևոր ենք համարում, որ բոլորը հասկանան հարցումների ներարկումների սպառնալիքը և ինչպես կողմնորոշվել ռիսկի մեջ, որպեսզի մենք բոլորս կարողանանք սովորել այս տեխնոլոգիայից անվտանգ օգտվել։ Տեղեկացված մնալը և զգուշավորությունը օգնում են ձեր տվյալներն ավելի անվտանգ պահել, երբ օգտագործում եք ԱԲ և ագենտային գործառույթներ, որոնք կարող են գործել ձեր անունից։
Հնարավորության դեպքում սահմանափակեք ագենտի մուտքը միայն այն զգայուն տվյալներին կամ լիազորություններին, որոնք անհրաժեշտ են առաջադրանքը կատարելու համար։ Օրինակ՝ երբ ChatGPT Atlas-ում արձակուրդի տարբերակների վերաբերյալ հետազոտություն կատարելու համար օգտագործում եք ագենտ ռեժիմը, եթե ագենտը միայն հետազոտություն է կատարում և մուտք գործած հասանելիության կարիք չունի, օգտագործեք «ելքի» ռեժիմը։
Մենք հաճախ նախագծում ենք ագենտներին այնպես, որ որոշակի հետևանքային գործողություններ կատարելուց առաջ, ինչպիսիք են գնումն ավարտելը կամ էլեկտրոնային նամակ ուղարկելը, ստանան ձեր վերջնական հաստատումը։ Երբ ագենտը խնդրում է ձեզ հաստատել գործողությունը, ուշադիր ստուգեք, որ գործողությունը ճիշտ լինի, և որ կիսվող ցանկացած տեղեկատվություն համապատասխան լինի տվյալ համատեքստում կիսվելու համար։
Երբ ագենտը գործում է զգայուն կայքում, օրինակ՝ ձեր բանկում, հետևեք, թե ինչպես է ագենտը կատարում իր աշխատանքը։ Սա նման է ինքնավար մեքենայի վերահսկմանը՝ ձեռքերը ղեկի վրա պահելով։
Ագենտին շատ ընդհանուր հրահանգ տալը, օրինակ՝ «վերանայիր իմ էլփոստերը և կատարիր անհրաժեշտ ցանկացած գործողություն», կարող է հեշտացնել թաքնված չարամիտ բովանդակությանը մոլորեցնել մոդելին, նույնիսկ եթե այն նախատեսված է զգայուն գործողություններ կատարելուց առաջ ձեզ հետ ճշտելու համար։
Ավելի անվտանգ է խնդրել ձեր ագենտին անել կոնկրետ բաներ և չտալ նրան լայն ազատություն՝ այլ աղբյուրներից, օրինակ՝ էլեկտրոնային նամակներից, հնարավոր վնասակար հրահանգներին հետևելու համար։ Չնայած սա չի երաշխավորում, որ հարձակումներ չեն լինի, այն հարձակվողների համար ավելի է դժվար է դարձնում հաջողության հասնելը։
Քանի որ ԱԲ-ի տեխնոլոգիան զարգանում է, ի հայտ են գալիս նոր ռիսկեր և պաշտպանական միջոցներ։ Հետևեք OpenAI-ի և այլ վստահելի աղբյուրների թարմացումներին՝ լավագույն փորձերի մասին տեղեկանալու համար։
Հարցումների ներարկումը մնում է առաջադեմ, բարդ հետազոտական խնդիր, և ինչպես ավանդական խարդախությունները համացանցում, մենք ակնկալում ենք, որ մեր աշխատանքը շարունակական բնույթ կկրի։ Թեև մենք դեռ չենք տեսել այս տեխնիկայի զգալի կիրառումը հարձակվողների կողմից, մենք ակնկալում ենք, որ հակառակորդները զգալի ժամանակ և ռեսուրսներ կծախսեն՝ գտնելու եղանակներ, որպեսզի ԱԲ-երը զոհ դառնան այս հարձակումներին։ Մենք շարունակում ենք մեծ ներդրումներ կատարել մեր պրոդուկտների անվտանգությունն ապահովելու և հետազոտությունների մեջ՝ ԱԲ-ի հուսալիությունը այս ռիսկի նկատմամբ բարձրացնելու համար։ Ավելի շատ տեղեկություններ իմանալու դեպքում մենք կշարունակենք կիսվել թարմացումներով, ներառյալ այս ոլորտում մեր անվտանգության աշխատանքի շարունակական առաջընթացը։ Օրինակ, մենք պատրաստում ենք հաշվետվություն, որը շուտով կհրապարակենք՝ ներկայացնելով ավելի մանրամասն տեղեկություններ այն մասին, թե ինչպես ենք հայտնաբերում՝ արդյոք ձեր ԱԲ-ի ինտերնետային հաղորդակցությունը կփոխանցի ձեր զրույցից տեղեկություններ։
Մեր նպատակն է այս համակարգերը դարձնել նույնքան հուսալի և անվտանգ, որքան ձեր ամենավստահելի և անվտանգության գիտակցությամբ գործընկերոջ կամ ընկերոջ հետ աշխատելը։ Մենք կշարունակենք սովորել իրական աշխարհի օգտագործումից, ապահով կերպով կատարելագործվել և հրապարակել մեր սովորածը տեխնոլոգիայի զարգացմանը զուգընթաց։


