გადადით მთავარ შინაარსზე
OpenAI

7 ნოემბერი, 2025

უსაფრთხოება

პრომპტ ინიექციების გაგება: მოწინავე უსაფრთხოების გამოწვევა

AI ინსტრუმენტები უკვე მხოლოდ კითხვებზე პასუხით აღარ შემოიფარგლება. მათ ახლა შეუძლიათ ვების დათვალიერება, კვლევაში დახმარება, მოგზაურობის დაგეგმვა და პროდუქტების ყიდვაშიც დახმარება. რაც უფრო შესაძლებლობიანი ხდებიან ისინი, სხვა აპებში თქვენს მონაცემებზე წვდომისა და თქვენი სახელით ქმედებების შესრულების უნართან ერთად, ჩნდება უსაფრთხოების ახალი გამოწვევები. ერთ-ერთი, რომელზეც განსაკუთრებით ვართ კონცენტრირებული, არის პრომპტ ინიექცია.

დიაგრამა, რომელიც აჩვენებს, როგორ მუშაობს პრომპტ ინიექციის შეტევა. მარცხნივ მომღიმარი მომხმარებლის ხატულაა წარწერით „მომხმარებელი AI-ს ამოცანაში დახმარებას სთხოვს.“ ისარი მიუთითებს ცენტრისკენ, სადაც კომპიუტერის ეკრანის ხატულაა წარწერით „AI ხედავს ვებსაიტს შეტევით“, ხოლო მის ზემოთ ქუდიანი და ცინიკური გამომეტყველების პატარა ფიგურაა წარწერით „თავდამსხმელმა ჩასვა პრომპტ ინიექცია.“ კიდევ ერთი ისარი მიდის მარჯვნივ, სადაც დოკუმენტის ხატულაა გამაფრთხილებელი სამკუთხედით და წარწერით „AI მოტყუვდა და არასასურველი ქმედება შეასრულა.“ ეს ნაკადი აჩვენებს, როგორ შეუძლია თავდამსხმელს, ჩასმული პრომპტების მეშვეობით AI-ით მანიპულირება.

რა არის პრომპტ ინიექცია?

პრომპტ ინიექცია სოციალური ინჟინერიის შეტევის ტიპია, რომელიც სასაუბრო AI-სთვის არის სპეციფიკური. ადრეული AI სისტემები ერთი მომხმარებლისა და ერთი AI აგენტის შორის მიმდინარე საუბრები იყო. დღევანდელ AI პროდუქტებში თქვენი საუბარი შეიძლება ბევრ წყაროდან, მათ შორის ინტერნეტიდან, მიღებულ კონტენტსაც მოიცავდეს. იდეამ, რომ მესამე მხარემ (ანუ არა მომხმარებელმა და არა AI-მ) შეიძლება საუბრის კონტექსტში მავნე ინსტრუქციების ჩასმით მოდელი შეცდომაში შეიყვანოს, წარმოშვა ტერმინი „პრომპტ ინიექცია“.

ისევე როგორც ფიშინგ ელწერილები ან თაღლითობები ვებში ცდილობს, ადამიანები მოატყუოს და მგრძნობიარე ინფორმაცია დაათმობინოს, პრომპტ ინიექციებიც ცდილობს, AI-ები აიძულოს გააკეთონ ის, რაც თქვენ არ გითხოვიათ.

წარმოიდგინეთ, რომ AI-ს სთხოვეთ ონლაინ დასვენებასთან დაკავშირებულ კვლევაში დახმარება და ამ პროცესში ის აწყდება შეცდომაში შემყვან კონტენტს ან მავნე ინსტრუქციებს, რომლებიც ვებგვერდზეა დამალული — მაგალითად, განცხადების კომენტარში ან მიმოხილვაში. ეს კონტენტი შეიძლება საგანგებოდ იყოს შექმნილი, რათა AI მოატყუოს და არასწორი განცხადების რეკომენდაცია გააკეთებინოს, ან უარესიც — მოიპაროს თქვენი საკრედიტო ბარათის ინფორმაცია.

ეს მხოლოდ რამდენიმე მაგალითია „პრომპტ ინიექციის“ შეტევებისა — მავნე ინსტრუქციებისა, რომლებიც შექმნილია იმისთვის, რომ AI მოატყუოს და გააკეთებინოს ის, რაც თქვენ არ გიგულისხმიათ, და რომლებიც ხშირად ჩვეულებრივ კონტენტშია დამალული, როგორიცაა ვებგვერდი, დოკუმენტი ან ელწერილი.

ეს რისკები იზრდება, რადგან AI-ებს უფრო მგრძნობიარე მონაცემებზე აქვთ წვდომა და მეტ ინიციატივასა და უფრო ხანგრძლივ ამოცანებს იღებენ საკუთარ თავზე.

შეჯამება

რა სთხოვეთ AI-ს გაეკეთებინა

რას აკეთებს თავდამსხმელი

შესაძლო შედეგი, თუ შეტევა წარმატებულია

თქვენ AI-ს სთხოვთ, მოიძიოს ბინები, და მას პრომპტ ინიექციის გავლენით ისეთი განცხადების რეკომენდაცია მიეცემა, რომელიც თქვენთვის საუკეთესო ვარიანტი არ არის.

თქვენ AI-ს სთხოვთ, მოცემული კრიტერიუმებით მოიძიოს ბინები.

თავდამსხმელმა ბინის განცხადებაში ჩასვა პრომპტ ინიექციის შეტევა, რათა AI მოატყუოს და აფიქრებინოს, რომ სწორედ მისი განცხადება უნდა შეირჩეს მომხმარებლის მითითებული პრეფერენციების მიუხედავად.

თუ შეტევა წარმატებულია, AI-მ შესაძლოა შეცდომით გირჩიოთ თქვენი პრეფერენციებისთვის არასაუკეთესო ბინის განცხადება.

თქვენ AI აგენტს სთხოვთ, ღამით მოსული ელწერილებისთვის გიპასუხოთ, და საბოლოოდ ის თქვენს საბანკო ამონაწერებს აზიარებს.

თქვენ AI აგენტს სთხოვთ, ზოგადად უპასუხოს ღამით მოსულ ელწერილებს, რადგან ამ დილით დაკავებული ხართ.

იხილეთ ქვემოთ „როცა შესაძლებელია, აგენტს მიეცით მკაფიო ინსტრუქციები“


თავდამსხმელმა გამოგიგზავნათ ელწერილი, რომელიც შეიცავს მცდარ ინფორმაციას და მოდელს ატყუებს, რომ მოძებნოს თქვენი საბანკო ამონაწერები და თავდამსხმელს გაუზიაროს.

თუ შეტევა წარმატებულია, აგენტმა შესაძლოა თქვენს ელფოსტაში მოძებნოს საბანკო ამონაწერების მსგავსი ყველაფერი (რაზეც ამ დავალებისთვის წვდომა მიეცით) და თავდამსხმელს გაუზიაროს.

ჩვენი მიდგომა მომხმარებლების დაცვისთვის

პრომპტ ინიექციისგან დაცვა გამოწვევაა მთელ AI ინდუსტრიაში და OpenAI-ის ერთ-ერთი მთავარი ფოკუსია. მიუხედავად იმისა, რომ ველით, მოწინააღმდეგეები ასეთი შეტევების განვითარებას გააგრძელებენ, ჩვენ ვქმნით დაცვის მექანიზმებს, რომლებიც შექმნილია იმისთვის, რომ მომხმარებლის მიერ ჩანაფიქრი ამოცანა შესრულდეს მაშინაც კი, როცა ვიღაც აქტიურად ცდილობს მათ შეცდომაში შეყვანას. ეს შესაძლებლობა აუცილებელია, რათა უსაფრთხოდ განხორციელდეს AGI-ის სარგებელი.

ჩვენი მომხმარებლების დასაცავად და ამ შეტევების წინააღმდეგ ჩვენი მოდელების გასაუმჯობესებლად, მრავალშრიან მიდგომას ვიყენებთ, მათ შორის შემდეგს:

უსაფრთხოების ტრენინგი

ჩვენ გვინდა ისეთი AI, რომელიც ამოიცნობს პრომპტ ინიექციებს და მათზე არ წამოეგება. თუმცა მოწინააღმდეგის შეტევებისადმი მდგრადობა მანქანური სწავლებისა და AI-ისთვის დიდი ხნის გამოწვევაა, რაც ამ საკითხს რთულ, ღია პრობლემად აქცევს. ჩვენ შევიმუშავეთ კვლევა სახელწოდებით Instruction Hierarchy, რათა წავწიოთ წინ მუშაობა იმ მიმართულებით, რომ მოდელებმა გაარჩიონ სანდო და არასანდო ინსტრუქციები. ჩვენ ვაგრძელებთ ახალი მიდგომების შემუშავებას, რათა მოდელები უკეთ ამოიცნობდნენ პრომპტ ინიექციის ნიმუშებს და შეძლონ მათი იგნორირება ან მომხმარებლებისთვის მონიშვნა. ერთ-ერთი ტექნიკა, რომელსაც ვიყენებთ, არის ავტომატიზებული red-teaming — სფერო, რომელსაც წლებია ვიკვლევთ(იხსნება ახალ ფანჯარაში) — ახალი პრომპტ ინიექციის შეტევების შესამუშავებლად.

მონიტორინგი

ჩვენ შევიმუშავეთ AI-ზე დაფუძნებული მრავალი ავტომატური მონიტორი, რათა პრომპტ ინიექციის შეტევები გამოვავლინოთ და დავბლოკოთ. ისინი უსაფრთხოების ტრენინგის მიდგომებს ავსებს, რადგან შეიძლება სწრაფად განახლდეს და სწრაფადვე დაბლოკოს ნებისმიერი ახალი შეტევა, რომელსაც აღმოვაჩენთ. ეს მონიტორები არა მხოლოდ გვეხმარება ჩვენი მომხმარებლების წინააღმდეგ შესაძლო პრომპტ ინიექციის შეტევების გამოვლენაში, არამედ საშუალებასაც გვაძლევს, ჩვენს პლატფორმაზე მოწინააღმდეგის პრომპტ ინიექციის კვლევა და ტესტირება მაშინვე აღმოვაჩინოთ, სანამ ეს შეტევები რეალურ გარემოში დაინერგება.

უსაფრთხოების დაცვები

ჩვენ ჩვენი პროდუქტები და ინფრასტრუქტურა სხვადასხვა, ერთმანეთზე გადაფარული უსაფრთხოების მექანიზმებით შევქმნით, რათა მომხმარებლის მონაცემები დავიცვათ. ეს ფუნქციები, რომლებსაც მომავალ პოსტებში უფრო ტექნიკურად განვიხილავთ, თითოეული პროდუქტის მიხედვით არის მორგებული. მაგალითად, არასანდო საიტების თავიდან ასარიდებლად, ChatGPT‑ში მოგთხოვთ გარკვეული ბმულების დადასტურებას, განსაკუთრებით ვებსაიტებზე, რომლებიც გვთხოვენ, რომ ისინი არ დავაკატალოგოთ(იხსნება ახალ ფანჯარაში), სანამ მათ მონახულება იქნება შესაძლებელი. როდესაც ჩვენი AI ინსტრუმენტებს იყენებს სხვა პროგრამების ან კოდის გასაშვებად (როგორც canvas-ში ან ჩვენს დეველოპერულ ინსტრუმენტ Codex-ში), ვიყენებთ ტექნიკას, რომელსაც sandboxing ეწოდება, რათა მოდელმა ვერ შეიტანოს მავნე ცვლილებები, რომლებიც შეიძლება პრომპტ ინიექციის შედეგი იყოს.

მომხმარებლებს მიეცით კონტროლი

ჩვენ ჩვენს პროდუქტებში ჩავაშენეთ კონტროლის მექანიზმები, რათა მომხმარებლებს საკუთარი თავის დაცვაში დავეხმაროთ. მაგალითად, ChatGPT Atlas-ში შეგიძლიათ აირჩიოთ logged-out რეჟიმი, რომელიც ChatGPT აგენტს ამოცანების დაწყების საშუალებას აძლევს საიტებზე შესვლის გარეშე. ChatGPT აგენტი ასევე ჩერდება და დადასტურებას გთხოვთ მგრძნობიარე ნაბიჯების შესრულებამდე, მაგალითად, ყიდვის დასრულებამდე. როცა აგენტი მგრძნობიარე საიტებზე მუშაობს, ჩვენ ასევე განვახორციელეთ „Watch Mode“, რომელიც გაფრთხილებთ საიტის მგრძნობიარე ბუნების შესახებ და მოითხოვს, რომ ჩანართი აქტიური გქონდეთ, რათა უყუროთ, როგორ ასრულებს აგენტი სამუშაოს. აგენტი შეჩერდება, თუ მგრძნობიარე ინფორმაციის მქონე ჩანართიდან გახვალთ. ეს უზრუნველყოფს, რომ დარჩეთ ინფორმირებული — და აკონტროლებდეთ — თუ რა მოქმედებებს ასრულებს აგენტი.

Red-teaming

ჩვენ ვატარებთ ფართომასშტაბიან red-teaming-ს შიდა და გარე გუნდებთან ერთად, რათა შევამოწმოთ და გავაუმჯობესოთ ჩვენი დაცვები, მოვახდინოთ თავდამსხმელის ქცევის ემულაცია და ვიპოვოთ ჩვენი უსაფრთხოების გაუმჯობესების ახალი გზები. ეს მოიცავს ათასობით საათს, რომლებიც კონკრეტულად პრომპტ ინიექციაზეა ფოკუსირებული. როდესაც ახალ ტექნიკებსა და შეტევებს ვპოულობთ, ჩვენი გუნდები პროაქტიულად აგვარებენ უსაფრთხოების სისუსტეებს და აუმჯობესებენ ჩვენი მოდელის შემამსუბუქებელ მექანიზმებს.

Bug bounty

იმისათვის, რომ კეთილსინდისიერი დამოუკიდებელი უსაფრთხოების მკვლევრები წავახალისოთ და დაგვეხმარონ ახალი პრომპტ ინიექციის ტექნიკებისა და შეტევების აღმოჩენაში, ჩვენ ფინანსურ ჯილდოებს ვთავაზობთ ჩვენი bug bounty program(იხსნება ახალ ფანჯარაში)-ის ფარგლებში, როცა ისინი აჩვენებენ რეალისტურ შეტევის გზას, რომელმაც შეიძლება გამოიწვიოს მომხმარებლის მონაცემების უნებლიე გამჟღავნება. ჩვენ გარე კონტრიბუტორებს ვაძლევთ სტიმულს, რომ ეს საკითხები სწრაფად წამოწიონ, რათა შევძლოთ მათი მოგვარება და ჩვენი დაცვის მექანიზმების კიდევ უფრო გაძლიერება.

მომხმარებლებს გადაწყვეტილების მიღების საშუალება მიეცით

ჩვენ მომხმარებლებს ვაცნობიერებთ პროდუქტში ზოგიერთი ფუნქციის გამოყენების რისკებს, რათა ინფორმირებული გადაწყვეტილებების მიღება შეძლონ. მაგალითად, როცა ChatGPT‑ს სხვა აპებს უკავშირებთ, განვმარტავთ, რომელ მონაცემებზე შეიძლება მოხდეს წვდომა, როგორ შეიძლება მათი გამოყენება და რა რისკები შეიძლება წარმოიშვას — მაგალითად, საიტი რომ ცდილობდეს თქვენი მონაცემების მოპარვას — და თან ვამატებთ ბმულს, სადაც შეგიძლიათ გაიგოთ, როგორ იყოთ უფრო დაცულად. ჩვენ ასევე ორგანიზაციებს ვაძლევთ კონტროლს იმაზე, რომელი ფუნქციები შეიძლება იყოს ჩართული ან გამოყენებული მათი სამუშაო სივრცეებში მომხმარებლების მიერ.

ნაბიჯები, რომლებიც შეგიძლიათ გადადგათ უფრო უსაფრთხოდ ყოფნისთვის

პრომპტ ინიექცია მოწინავე უსაფრთხოების გამოწვევაა, რომელიც, ჩვენი მოლოდინით, დროთა განმავლობაში განვითარებას გააგრძელებს. ინტელექტისა და შესაძლებლობების ახალი დონეები მოითხოვს, რომ ტექნოლოგია, საზოგადოება და რისკების შემცირების სტრატეგია ერთად ვითარდებოდეს. და როგორც 2000-იანი წლების დასაწყისში კომპიუტერული ვირუსების შემთხვევაში, ვფიქრობთ, მნიშვნელოვანია ყველამ გაიგოს პრომპტ ინიექციების საფრთხე და ის, როგორ უნდა გაუმკლავდეს ამ რისკს, რათა ყველამ უსაფრთხოდ ვისწავლოთ ამ ტექნოლოგიით სარგებლობა. ინფორმირებულობა და სიფრთხილე გეხმარებათ, რომ თქვენი მონაცემები უფრო დაცული იყოს AI-ისა და აგენტული ფუნქციების გამოყენებისას, რომლებსაც თქვენი სახელით მოქმედება შეუძლიათ.

გამოიყენეთ ჩაშენებული ფუნქციები მგრძნობიარე მონაცემებზე წვდომის შესაზღუდად

სადაც შესაძლებელია, აგენტის წვდომა მხოლოდ იმ მგრძნობიარე მონაცემებით ან ავტორიზაციის მონაცემებით შეზღუდეთ, რომლებიც ამოცანის შესასრულებლად სჭირდება. მაგალითად, თუ ChatGPT Atlas-ში აგენტის რეჟიმს დასვენებასთან დაკავშირებული კვლევისთვის იყენებთ და აგენტს მხოლოდ კვლევა სჭირდება, ხოლო შესვლით წვდომა არა, გამოიყენეთ „logged out“ რეჟიმი.

როცა აგენტი დადასტურებას გთხოვთ, ყურადღებით გადაამოწმეთ, რომ სწორ ქმედებას აპირებს

ჩვენ ხშირად ისე ვქმნით აგენტებს, რომ თქვენგან საბოლოო დადასტურება მიიღონ, სანამ გარკვეულ მნიშვნელოვან ქმედებებს შეასრულებენ, როგორიცაა ყიდვის დასრულება ან ელწერილის გაგზავნა. როცა აგენტი ქმედების დადასტურებას გთხოვთ, ყურადღებით შეამოწმეთ, რომ ქმედება სწორად გამოიყურება და რომ გაზიარებული ინფორმაცია ამ კონტექსტში გასაზიარებლად შესაბამისია.

როცა აგენტი მგრძნობიარე საიტზე მუშაობს, მაგალითად თქვენს ბანკში, უყურეთ, როგორ ასრულებს ის თავის საქმეს. ეს ჰგავს ავტოპილოტიანი მანქანის კონტროლს, როცა ხელები საჭეზე გიჭირავთ.

როცა შესაძლებელია, აგენტს მიეცით მკაფიო ინსტრუქციები

აგენტისთვის ძალიან ფართო ინსტრუქციის მიცემა, როგორიცაა "გადახედე ჩემს ელწერილებს და გააკეთე ყველაფერი, რაც საჭიროა", შეიძლება მოდელის შეცდომაში შეყვანა გაუადვილოს დამალულ მავნე კონტენტს, მიუხედავად იმისა, რომ ის შექმნილია ისე, რომ მგრძნობიარე ქმედებების შესრულებამდე თქვენთან გადაამოწმოს.

უფრო უსაფრთხოა, აგენტს კონკრეტული საქმეების გაკეთება სთხოვოთ და არ მისცეთ ფართო თავისუფლება, რომ სხვა ადგილებიდან, მაგალითად ელწერილებიდან, მიღებულ მავნე ინსტრუქციებს პოტენციურად გაჰყვეს. მიუხედავად იმისა, რომ ეს არ იძლევა გარანტიას, რომ შეტევები არ იქნება, თავდამსხმელებისთვის წარმატების მიღწევას უფრო ართულებს.

იყავით ინფორმირებული და დაიცავით უსაფრთხოების საუკეთესო პრაქტიკები

AI ტექნოლოგიის განვითარებასთან ერთად ახალი რისკები და დაცვის მექანიზმები გაჩნდება. მიჰყევით OpenAI-ისა და სხვა სანდო წყაროების განახლებებს, რათა გაიგოთ საუკეთესო პრაქტიკების შესახებ.

მომავლისკენ ხედვა

პრომპტ ინიექცია კვლავაც მოწინავე, რთულ კვლევით პრობლემად რჩება და, ისევე როგორც ვებში ტრადიციული თაღლითობები, ველით, რომ ჩვენი მუშაობა გაგრძელდება. მიუხედავად იმისა, რომ ჯერ ამ ტექნიკის თავდამსხმელების მიერ მნიშვნელოვანი გავრცელება არ გვინახავს, ველით, რომ მოწინააღმდეგეები დიდ დროსა და რესურსებს დახარჯავენ, რათა იპოვონ გზები, როგორ აიძულონ AI-ები ამ შეტევებზე წამოეგონ. ჩვენ ვაგრძელებთ დიდი მასშტაბით ინვესტირებას ჩვენი პროდუქტების უსაფრთხოებაში და კვლევაში, რათა AI-ის მდგრადობა ამ რისკის მიმართ გავაძლიეროთ. როგორც მეტს ვისწავლით, გაგიზიარებთ განახლებებს, მათ შორის ამ მიმართულებით ჩვენი უსაფრთხოების სამუშაოს მიმდინარე პროგრესს. მაგალითად, ჩვენ ვამზადებთ ანგარიშს, რომელსაც მალე გამოვაქვეყნებთ და სადაც უფრო მეტ დეტალს გაგიზიარებთ იმის შესახებ, როგორ ვადგენთ, გადასცემდა თუ არა თქვენი AI-ის კომუნიკაცია ინტერნეტთან ინფორმაციას თქვენი საუბრიდან.

ჩვენი მიზანია, ეს სისტემები ისეთივე სანდო და უსაფრთხო გავხადოთ, როგორც თქვენს ყველაზე სანდო და უსაფრთხოებაზე გათვითცნობიერებულ კოლეგასთან ან მეგობართან მუშაობა. ჩვენ გავაგრძელებთ სწავლას რეალური გამოყენებიდან, უსაფრთხო იტერირებას და იმის გამოქვეყნებას, რასაც ვისწავლით, ტექნოლოგიის განვითარებასთან ერთად.