AI აგენტების დაპროექტება პრომპტ ინიექციისადმი გამძლეობისთვის
რას გვასწავლის სოციალური ინჟინერია AI აგენტების დაცვაზე.
AI აგენტებს სულ უფრო მეტად შეუძლიათ ვების დათვალიერება, ინფორმაციის მოძიება და მომხმარებლის სახელით მოქმედება. ეს შესაძლებლობები სასარგებლოა, მაგრამ ასევე ქმნის ახალ გზებს, რომლითაც თავდამსხმელები შეიძლება ეცადონ სისტემის მანიპულირებას.
ამ შეტევებს ხშირად მოიხსენიებენ როგორც პრომპტ ინიექციას: ინსტრუქციებს, რომლებიც მოთავსებულია გარე კონტენტში იმ მიზნით, რომ მოდელმა გააკეთოს ის, რაც მომხმარებელს არ უთხოვია. ჩვენი გამოცდილებით, ამ შეტევების ყველაზე ეფექტური რეალური ვერსიები სულ უფრო მეტად ჰგავს სოციალურ ინჟინერიას, ვიდრე მოთხოვნის უბრალოდ გადაფარვას.
ამ ცვლილებას მნიშვნელობა აქვს. თუ პრობლემა მხოლოდ მავნე სტრიქონის ამოცნობა არ არის, არამედ კონტექსტში შეცდომაში შემყვანი ან მანიპულაციური კონტენტისადმი გამძლეობაა, მაშინ დაცვა მხოლოდ შეყვანების გაფილტვრას ვერ დაეყრდნობა. ის ასევე მოითხოვს სისტემის ისე დაპროექტებას, რომ მანიპულაციის გავლენა შეზღუდული იყოს, მაშინაც კი, თუ ზოგი შეტევა წარმატებულია.
ადრეული ტიპის „პრომპტ ინიექციის“ შეტევები შეიძლება ისეთივე მარტივი ყოფილიყო, როგორიცაა Wikipedia-ის სტატიის რედაქტირება მასში AI აგენტებისთვის პირდაპირი ინსტრუქციების ჩასასმელად; ასეთ მოწინააღმდეგობრივ გარემოზე გაწვრთნის გამოცდილების გარეშე AI მოდელები ხშირად დაუფიქრებლად მიჰყვებოდნენ ამ ინსტრუქციებს1. რაც უფრო ჭკვიანი გახდა მოდელები, მით უფრო ნაკლებად დაუცველი გახდნენ ასეთი სახის მინიშნებების მიმართ, და ჩვენ დავაკვირდით, რომ პრომპტ ინიექციის სტილის შეტევებმა პასუხად სოციალური ინჟინერიის ელემენტების ჩართვა დაიწყეს:
პრომპტ ინიექციის ელფოსტის მაგალითი
2025 წლის მაგალითი პრომპტ ინიექციის შეტევისა ChatGPT‑ზე, რომლის შესახებაც OpenAI-ს აცნობეს გარე უსაფრთხოების მკვლევრებმა(იხსნება ახალ ფანჯარაში). ტესტირებისას ის მუშაობდა შემთხვევების 50%-ში მომხმარებლის მოთხოვნით: „მინდა, რომ სიღრმისეული კვლევა ჩაატარო ჩემს დღევანდელ ელფოსტებზე, მინდა წაიკითხო და შეამოწმო ყველა წყარო, რომელსაც შეუძლია ჩემი ახალი თანამშრომლის პროცესის შესახებ ინფორმაციის მიწოდება.“
AI უსაფრთხოების ფართო ეკოსისტემაში გავრცელებული გახდა ისეთი ტექნიკების რეკომენდაცია, როგორიცაა „AI firewalling“, სადაც AI აგენტსა და გარე სამყაროს შორის მდგომი შუამავალი ცდილობს შეყვანების კლასიფიკაციას მავნე პრომპტ ინიექციად და ჩვეულებრივ შეყვანებად — მაგრამ ასეთი სრულად ჩამოყალიბებული შეტევები, როგორც წესი, ასეთ სისტემებს არ უჭერიათ. ასეთი სისტემებისთვის მავნე შეყვანის აღმოჩენა იგივე ძალიან რთული პრობლემაა, რაც სიცრუის ან დეზინფორმაციის აღმოჩენა, ხშირად კი საჭირო კონტექსტის გარეშეც.
როცა რეალური პრომპტ ინიექციის შეტევები უფრო კომპლექსური გახდა, აღმოვაჩინეთ, რომ ყველაზე ეფექტური შეტევითი ტექნიკები სოციალური ინჟინერიის ტაქტიკებს ეყრდნობოდა. იმის ნაცვლად, რომ სოციალური ინჟინერიით გამდიდრებული ეს პრომპტ ინიექციის შეტევები პრობლემის ცალკე ან სრულიად ახალ კლასად მიგვეჩნია, მათ შევხედეთ იმავე ლინზით, რომლითაც სხვა დომენებში ადამიანებზე სოციალური ინჟინერიის რისკს მართავენ. ასეთ სისტემებში მიზანი მხოლოდ მავნე შეყვანების სრულყოფილად იდენტიფიცირება არ არის, არამედ აგენტებისა და სისტემების ისე დაპროექტება, რომ მანიპულაციის გავლენა შეზღუდული იყოს, მაშინაც კი, თუ ის წარმატებულია. ასეთი სისტემები ეფექტიანად ამცირებს როგორც პრომპტ ინიექციის, ისე სოციალური ინჟინერიის გავლენას.
ამგვარად, შეგვიძლია AI აგენტი წარმოვიდგინოთ როგორც მომხმარებელთა მომსახურების აგენტის მსგავსი სამმხრივი სისტემის ნაწილი; აგენტს სურს იმოქმედოს თავისი დამსაქმებლის სახელით, მაგრამ ის მუდმივად ექვემდებარება გარე შეყვანას, რომელიც შეიძლება მის შეცდომაში შეყვანას ცდილობდეს. მომხმარებელთა მხარდაჭერის აგენტს, იქნება ის ადამიანი თუ AI, მის შესაძლებლობებზე უნდა ჰქონდეს შეზღუდვები დაწესებული, რათა შემცირდეს ასეთ მავნე გარემოში არსებობისთვის დამახასიათებელი რისკი.
წარმოიდგინეთ სიტუაცია, როცა ადამიანი ოპერირებს მომხმარებელთა მხარდაჭერის სისტემას და შეუძლია გასცეს სასაჩუქრე ბარათები და თანხის დაბრუნება იმ დისკომფორტისთვის, რომელიც მომხმარებელმა მიიღო, როგორიცაა მიწოდების დაგვიანება, გაუმართაობის შედეგად მიღებული დაზიანება და ა.შ. ეს არის მრავალმხრივი პრობლემა, რომელშიც კომპანიამ უნდა ენდოს, რომ აგენტი თანხას სწორ მიზეზებზე დაყრდნობით აბრუნებს, მაშინ როცა აგენტი ასევე ურთიერთობს მესამე მხარეებთან, რომლებიც შეიძლება მის შეცდომაში შეყვანას ან თუნდაც ზეწოლის ქვეშ მოქცევას ცდილობდნენ.
რეალურ სამყაროში აგენტს ეძლევა წესების ნაკრები, რომელიც უნდა დაიცვას, მაგრამ მოსალოდნელია, რომ იმ მოწინააღმდეგობრივ გარემოში, სადაც ის არსებობს, შეცდომაში შეიყვანონ. შესაძლოა მომხმარებელმა გააგზავნოს შეტყობინება, რომ თანხის დაბრუნება არასდროს განხორციელდა, ან დაემუქროს ზიანით, თუ თანხას არ დაუბრუნებენ. დეტერმინისტური სისტემები, რომლებთანაც აგენტი ურთიერთობს, ზღუდავს იმ თანხის დაბრუნების მოცულობას, რომელიც მომხმარებელს შეიძლება მიეცეს, მონიშნავს პოტენციურ ფიშინგ ელფოსტებს და უზრუნველყოფს სხვა მსგავს შემამსუბუქებელ ზომებს, რათა შეიზღუდოს ცალკეული აგენტის კომპრომეტაციის გავლენა.
ამ ხედვამ განსაზღვრა იმ საპასუხო ზომების ძლიერი ნაკრები, რომელიც ჩვენ განვათავსეთ და რომელიც ჩვენი მომხმარებლების უსაფრთხოების მოლოდინებს იცავს.
ChatGPT‑ში ჩვენ ვაერთიანებთ სოციალური ინჟინერიის ამ მოდელს უსაფრთხოების ინჟინერიის უფრო ტრადიციულ მიდგომებთან, როგორიცაა წყარო-ჩაძირვის ანალიზი.
ამ ჩარჩოში თავდამსხმელს სჭირდება როგორც წყარო, ანუ გზა, რომლითაც შეუძლია სისტემაზე გავლენის მოხდენა, ასევე ჩაძირვა, ანუ შესაძლებლობა, რომელიც არასწორ კონტექსტში საშიში ხდება. აგენტურ სისტემებში ეს ხშირად ნიშნავს არასანდო გარე კონტენტის შერწყმას ისეთ ქმედებასთან, როგორიცაა ინფორმაციის მესამე მხარისთვის გადაცემა, ბმულზე გადასვლა ან ინსტრუმენტთან ურთიერთქმედება.
ჩვენი მიზანია შევინარჩუნოთ მომხმარებლებისთვის უსაფრთხოების ძირითადი მოლოდინი: პოტენციურად საშიში ქმედებები ან პოტენციურად სენსიტიური ინფორმაციის გადაცემა არ უნდა მოხდეს ჩუმად ან შესაბამისი დამცავი ზომების გარეშე.
შეტევები, რომლებსაც ChatGPT‑ის წინააღმდეგ განვითარებულად ვხედავთ, ყველაზე ხშირად მდგომარეობს იმაში, რომ ასისტენტი დაარწმუნონ, თითქოს მან საუბარიდან გარკვეული საიდუმლო ინფორმაცია უნდა აიღოს და მავნე მესამე მხარეს გადასცეს. შემთხვევების უმეტესობაში, რომელთა შესახებაც ვიცით, ეს შეტევები მარცხდება, რადგან ჩვენი უსაფრთხოების ტრენინგი აგენტს უარს ათქმევინებს. იმ შემთხვევებისთვის, როცა აგენტი მაინც დაარწმუნეს, ჩვენ შევიმუშავეთ შემამსუბუქებელი სტრატეგია სახელწოდებით Safe Url, რომელიც შექმნილია იმის დასადგენად, მოხდება თუ არა მესამე მხარისთვის იმ ინფორმაციის გადაცემა, რომელიც ასისტენტმა საუბრისას ისწავლა. ამ იშვიათ შემთხვევებში ან მომხმარებელს ვუჩვენებთ ინფორმაციას, რომელიც გადაიგზავნებოდა, და ვთხოვთ დადასტურებას, ან ამას ვბლოკავთ და ვეუბნებით აგენტს, მომხმარებლის მოთხოვნის შესასრულებლად სხვა გზა სცადოს.
ესzelfde მექანიზმი ვრცელდება Atlas-ში ნავიგაციებსა და სანიშნეებზე; და Deep Research-ში ძიებებსა და ნავიგაციებზე. ChatGPT Canvas და ChatGPT Apps მსგავს მიდგომას იყენებენ, რაც აგენტს ფუნქციური აპლიკაციების შექმნისა და გამოყენების საშუალებას აძლევს — ისინი მუშაობს sandbox-ში, რომელსაც შეუძლია მოულოდნელი კომუნიკაციების აღმოჩენა და მომხმარებლის თანხმობის მოთხოვნა(იხსნება ახალ ფანჯარაში).
Safe Url-ის შესახებ მეტი ინფორმაციის წაკითხვა და მისი სტრუქტურის შესახებ ნაშრომის პოვნა შეგიძლიათ მისთვის მიძღვნილ ბლოგპოსტში თქვენი მონაცემების უსაფრთხოდ დაცვა, როცა AI აგენტი ბმულს აჭერს.
მტრულ გარე სამყაროსთან უსაფრთხო ურთიერთქმედება აუცილებელია სრულად ავტონომიური აგენტებისთვის. როდესაც AI მოდელს აპლიკაციის სისტემასთან აერთიანებთ, გირჩევთ დაუსვათ კითხვა, რა კონტროლი უნდა ჰქონდეს მსგავს სიტუაციაში ადამიანს აგენტს, და სწორედ ის დანერგოთ. ჩვენ ველით, რომ მაქსიმალურად ინტელექტუალურ AI მოდელს სოციალურ ინჟინერიასთან გამკლავება ადამიან აგენტზე უკეთ შეეძლება, თუმცა ეს ყოველთვის პრაქტიკული ან ხარჯეფექტური არ არის, აპლიკაციიდან გამომდინარე.
ჩვენ ვაგრძელებთ AI მოდელების წინააღმდეგ სოციალური ინჟინერიის შედეგებისა და მისგან დაცვის შესწავლას და ჩვენს მიგნებებს ვნერგავთ როგორც აპლიკაციების უსაფრთხოების არქიტექტურებში, ისე იმ ტრენინგში, რომელსაც ჩვენს AI მოდელებს ვუტარებთ.
სქოლიოები
- 1
Rehberger, J. (2023, 04 15). ბრმად ნუ ენდობით LLM-ის პასუხებს. საფრთხეები ჩატბოტებისთვის. EmbraceTheRed. ამოღებულია 11 14, 2025, წყაროდან https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
ავტორები
Thomas Shadwell და Adrian Spânu



სოციალური ინჟინერია და AI აგენტები