Submitted: 2 თებერვალი, 2024

პასუხი NIST-ის აღმასრულებელ ბრძანებაზე AI-ის შესახებ

სტანდარტებისა და ტექნოლოგიების ეროვნული ინსტიტუტის (NIST) ინფორმაციის მოთხოვნა, რომელიც ეხება მის დავალებებს ხელოვნური ინტელექტის შესახებ აღმასრულებელი ბრძანების 4.1, 4.5 და 11-ე სექციების ფარგლებში.

OpenAI 2015 წელს არაკომერციული ორგანიზაციის სახით შეიქმნა, რათა უზრუნველეყო, რომ ზოგადი ხელოვნური ინტელექტი — მოკლედ, AI, რომელიც სულ მცირე ადამიანის დონეზე ჭკვიანია — სარგებელს მთელ კაცობრიობას მოუტანდეს. ჩვენ ვიკვლევთ, ვავითარებთ და ვაქვეყნებთ მოწინავე AI ტექნოლოგიას, ასევე AI-ის უსაფრთხოების, შესაბამისობისა და მართვის ინსტრუმენტებსა და საუკეთესო პრაქტიკებს. მივესალმებით ამ შესაძლებლობას, წვლილი შევიტანოთ NIST-ის მიმდინარე და კრიტიკულად მნიშვნელოვან მუშაობაში AI-ზე.

აქ ყურადღებას ვამახვილებთ RFI-ში წამოჭრილ სამ თემაზე: (1) AI შესაძლებლობების შეფასება და აუდიტი, (2) უსაფრთხო, დაცული და სანდო სისტემების დანერგვისთვის შეტევითი ტესტირების ჩატარება და (3) სინთეტიკური მედია და წარმომავლობა.

AI სისტემებში სახიფათო შესაძლებლობების შეფასება

მივესალმებით NIST-ის ფოკუსს „შესაძლებლობების შეფასების სახელმძღვანელოებისა და ბენჩმარკების შექმნაზე... რომელთა საშუალებითაც AI-ს შეუძლია ზიანი გამოიწვიოს.“ OpenAI ერთგულია მზაობის ჩარჩოს⁠(იხსნება ახალ ფანჯარაში), რაც წარმოადგენს ყოვლისმომცველ მიდგომას მიმდინარე და მომავალი AI მოდელებიდან მომდინარე კატასტროფულად საშიში რისკების შეფასების, თვალთვალისა და შემცირებისთვის. მზაობის ჩარჩო ამჟამად რისკის ოთხ საწყის სფეროს აკვირდება: კიბერუსაფრთხოებას; ქიმიურ, ბიოლოგიურ, ბირთვულ და რადიოლოგიურ საფრთხეებს (CBRN); დარწმუნებას; და მოდელის ავტონომიას. ჩარჩო ასევე გვავალდებულებს მუდმივი სიფხიზლის შენარჩუნებას იმ „უცნობი უცნობების“ მიმართ, რომლებიც ჯერ კიდევ არ არის იდენტიფიცირებული. ამ სამუშაოს ფარგლებში OpenAI-მ ცოტა ხნის წინ გააზიარა⁠ CBRN-ის ერთი მასშტაბური შეფასება: GPT‑4‑ის უნარის შეფასება, რამდენად შეუძლია მან მავნე აქტორებს არსებული რესურსების (ანუ ინტერნეტის) საბაზისო დონესთან შედარებით მნიშვნელოვნად გაუზარდოს ბიოლოგიური საფრთხის შექმნის შესახებ სახიფათო ინფორმაციაზე წვდომა. ამ ტიპის ყველაზე მასშტაბურ შეფასებაში, რომელშიც მონაწილეობდნენ როგორც ბიოლოგიის ექსპერტები, ისე სტუდენტები, დავადგინეთ, რომ GPT‑4 ბიოლოგიური საფრთხის შექმნის ინფორმაციაში მაქსიმუმ მხოლოდ მცირე ზრდას უზრუნველყოფს. მიუხედავად იმისა, რომ ეს ზრდა საკმარისად დიდი არ არის საბოლოო დასკვნებისათვის, ვიმედოვნებთ, რომ ეს მიგნება გახდება საწყისი წერტილი შემდგომი კვლევისა და საზოგადოებრივი მსჯელობისთვის, რომელსაც, ჩვენი იმედით, NIST და ახალი AI Safety Institute წარუძღვებიან. ამ სამუშაომ გაზარდა ჩვენი რწმენა რამდენიმე ძირითადი პრინციპის მიმართ, რომლებიც AI სისტემებიდან მომდინარე რისკების შეფასებას ეხება:

AI სისტემების წვლილი რისკებში უნდა გაიზომოს შესაბამის საბაზისო დონესთან მიმართებით ცვლილების მიხედვით.ბევრი რისკი, რომელიც მიმდინარე და მომავალ AI სისტემებს შეიძლება გაეზარდოს (მაგალითად, კიბერუსაფრთხოებასა თუ ბიოუსაფრთხოებაში), გარკვეულ დონეზე AI-ის გარეშეც არსებობს. მაგალითად, ინტერნეტში ძიება უკვე იძლევა ბიოუსაფრთხოებასთან დაკავშირებულ ინფორმაციაზე საკმაოდ ფართო წვდომას. AI სისტემების წვლილის შეფასებისას მნიშვნელოვანი საუკეთესო პრაქტიკაა იმის ტესტირება, ზრდის თუ არა AI რისკს არსებული რესურსების მიღმა. ჩვენს ბიორისკების ბოლო კვლევაში ეს ასე განვახორციელეთ: მონაწილეთა ნახევარი შემთხვევითად მოვათავსეთ საკონტროლო ჯგუფში, რომელსაც მხოლოდ არა-AI ცოდნის წყაროების გამოყენება შეეძლო (მათ შორის ონლაინ მონაცემთა ბაზები, სტატიები და ინტერნეტ-საძიებო სისტემები, ასევე მათი წინარე ცოდნა), ხოლო მეორე ნახევარი მოვათავსეთ საცდელ ჯგუფში, რომელსაც სრული წვდომა ჰქონდა როგორც ამ რესურსებზე, ისე GPT‑4 მოდელზე.
დომენის ექსპერტებთან მუშაობა რისკების გასაგებად გადამწყვეტია.ნებისმიერი ერთი ორგანიზაციისთვის რთულია მსოფლიო დონის ექსპერტების დაქირავება ყველა იმ მრავალფეროვან თემაზე, რომლებიც AI უსაფრთხოებისთვის მნიშვნელოვანია. ოქროს სტანდარტის ექსპერტიზაზე წვდომისთვის სასარგებლოა თანამშრომლობა მესამე მხარეებთან, რომლებიც სახიფათო შესაძლებლობების შეფასებებისთვის შესაბამის სფეროებში დომენის ექსპერტებს ასაქმებენ. გარდა ამისა, კვლევების შეფასების პროცესში დომენის ექსპერტების ჩართვა დამატებით გარანტიას ქმნის, რომ შეფასებები ობიექტურად ტარდება. მაგალითად, ბიორისკების შეფასების შემუშავებისა და ჩატარებისას მჭიდროდ ვთანამშრომლობდით მესამე მხარის ბიოუსაფრთხოების ექსპერტებთან კვლევითი დავალებების დიზაინზე, მონაწილეთა უსაფრთხოების ტრენინგების ჩატარებაზე და დასრულებული დავალებების შეფასებაზე. AI უსაფრთხოების ინტერესებში იქნება ამ ეკოსისტემის გაფართოება და მრავალფეროვნების გაზრდა.
სრულყოფილი შეფასება ასევე მოითხოვს AI ექსპერტებთან მუშაობას, რათა ეფექტიანად გამოვლინდეს მოდელის შესაძლებლობების სრული სპექტრი.AI მოდელებიდან მომდინარე რისკების სრული სპექტრის გასაგებად, შეფასებისას აუცილებელია, სადაც კი შესაძლებელია, მოდელის სრული შესაძლებლობების გამოვლენა. ეს მოითხოვს ღრმა გაგებას, თუ როგორ მუშაობს საფუძვლად მდებარე AI სისტემები და როგორ შეიძლება მათი ეფექტიანად გამოყენება. გირჩევთ, შეფასებები AI ექსპერტებთან მჭიდრო თანამშრომლობით შეიქმნას. ჩვენს ბიორისკების კვლევაში ეს მოიცავდა ადამიან მონაწილეთათვის ტრენინგის მიწოდებას, თუ როგორ მიეღოთ უკეთესი შედეგები ენობრივი მოდელის შესაძლებლობების გამოვლენის საუკეთესო პრაქტიკების გამოყენებით, ასევე სპეციალიზებულ ტექნიკურ მიდგომებს, რათა უკეთ გამოგვეკვლია და გამოგვეცადა მოდელების შესაძლებლობები.
საჭიროა მეტი კვლევა იმის შესახებ, როგორ განიმარტოს რისკების შეფასების შედეგები.მაგალითად, AI მოდელების მიერ ბიორისკის შესახებ ინფორმაციაზე წვდომის ზრდის შეფასების შემთხვევაში, ჯერ კიდევ გაურკვეველია, ინფორმაციის წვდომის ზრდის რა დონე გადაიქცევა ბიორისკის მნიშვნელოვნად გაზრდაში. AI სისტემების გავლენა ბიორისკზე შეიძლება შეიცვალოს ახალი ტექნოლოგიების გაჩენასთან ერთად, რომლებიც ონლაინ ინფორმაციას ფიზიკურ ბიოსაფრთხეებად გარდაქმნის. რადგან ვაგრძელებთ ჩვენი მზაობის ჩარჩოს ოპერაციულ დანერგვას, გვინდა NIST-თან და AI Safety Institute-თან თანამშრომლობა, რათა რისკებისა და რისკის მეტრიკების უფრო ძლიერი გაგება ჩამოვაყალიბოთ.
ოქროს სტანდარტის ადამიან მონაწილეებზე დაფუძნებული შეფასებები ძვირია.ენობრივი მოდელების ადამიანური შეფასებების ჩატარება მნიშვნელოვან ბიუჯეტს მოითხოვს მონაწილეთა ანაზღაურების, პროგრამული უზრუნველყოფისა და უსაფრთხოების უზრუნველსაყოფად. ჩვენს ბიორისკების კვლევაში ამ ხარჯების შემცირების სხვადასხვა გზები გამოვიკვლიეთ, მაგრამ ამ ხარჯების უმეტესობა აუცილებელი იყო ან (1) შეუთანხმებელი უსაფრთხოების მოთხოვნებიდან გამომდინარე, ან (2) საჭირო მონაწილეთა რაოდენობისა და თითოეული მონაწილის მიერ საფუძვლიანი შემოწმებისთვის საჭირო დროის გამო. სტანდარტების შემუშავებისას ეს უნდა იყოს გათვალისწინებული.

დამატებითი ინფორმაცია ხელმისაწვდომია ჩვენი ბლოგპოსტში ბოლო ბიორისკების კვლევის შესახებ: ადრეული გაფრთხილების სისტემის შექმნა LLM-ის დახმარებით ბიოლოგიური საფრთხის შექმნისთვის⁠.

შეტევითი ტესტირება უსაფრთხო AI სისტემების დანერგვისთვის

რა არის შეტევითი ტესტირება?

OpenAI შეტევით ტესტირებას განმარტავს როგორც „AI სისტემებისა და პროდუქტების სტრუქტურირებულ შემოწმების პროცესს მავნე შესაძლებლობების, შედეგების ან ინფრასტრუქტურული საფრთხეების გამოსავლენად.“^A
შეტევითი ტესტირების ქოლგის ქვეშ ვითარდება რამდენიმე შესაძლო მეთოდი, მათ შორის შიდა შეტევითი ტესტირება (რომელსაც ლაბორატორიის ან კომპანიის შიდა, სპეციალიზებული გუნდები ატარებენ), გარე შეტევითი ტესტირება (რომელსაც გარე დაინტერესებული მხარეები ლაბორატორიასთან ან კომპანიასთან თანამშრომლობით ატარებენ) და ავტომატიზებული შეტევითი ტესტირება (როცა ავტომატიზებული შეტევების შესაქმნელად AI მოდელები გამოიყენება და შედეგები კლასიფიცირდება). ამ დოკუმენტის კონტექსტში ძირითადად ვგულისხმობთ გარე შეტევითი ტესტირების ძალისხმევებს, რაც გულისხმობს OpenAI-ის თანამშრომლობას გარე დომენის ექსპერტებთან AI მოდელის ან სისტემის შესაძლებლობებისა და რისკების შესაფასებლად.

OpenAI-ის მიდგომა შეტევითი ტესტირების მიმართ არ განიხილავს მოწინააღმდეგის ტიპის შეტევებს ან მოდელის შედეგებს იზოლირებულად. პირიქით, ეს არის მეთოდი, რომელიც დომენის ექსპერტებთან თანამშრომლობით რისკების კონტექსტუალიზებულ და ჰოლისტურ გამოვლენას ემსახურება.^B მავნე გამოყენებისა და უსაფრთხოების შემარბილებელი ზომების გვერდის ავლის მეთოდების გარდა, შეტევითი ტესტირება სხვა რისკებსაც ითვალისწინებს: უვნებელ ან მოსალოდნელ შეყვანებს, რომლებიც მავნე ან სარისკო შედეგებამდე მივყავართ; შესაძლებლობების ახალ გაუმჯობესებებს, რომლებმაც შეიძლება რისკების ლანდშაფტი შეცვალოს; და იმას, თუ როგორ შეიძლება თავად სისტემის მიღმა არსებულმა ფაქტორებმა მოდელის შედეგებთან ურთიერთქმედებით რისკები ან ზიანი გამოიწვიოს. ამ სფეროების შეფასება ხშირად სარგებელს იღებს ადამიანის ჩართულობით, რათა შეიქმნას პოტენციური მაგალითები და მიღებული შედეგები დადასტურდეს კონკრეტული შეტევითი ტესტერის ექსპერტიზის კონტექსტში.

რისთვის არის სასარგებლო შეტევითი ტესტირება?

AI-ის შეტევითი ტესტირება გვეხმარება გავიგოთ ახალ მოდელებსა და სისტემებთან დაკავშირებული პოტენციური რისკები, რომლებიც:

მოითხოვს ურთიერთქმედების ისეთ ფორმებს, რომლებიც შეიძლება განსხვავდებოდეს წინა AI სისტემებისგან ან ტექნოლოგიებისგან და პროგრამული შეფასებებით კარგად არ იფარებოდეს (მაგ., DALL·E-ში inpainting, GPTs).
აქვთ მნიშვნელოვნად გაუმჯობესებული შესაძლებლობები, რომლებმაც შეიძლება ახალი რისკები შემოიტანოს, რომლებიც ჯერ არ შეფასებულა (მაგ., სამეცნიერო სფეროები, დარწმუნება ან მსჯელობა).
ტესტირებისა და ვერიფიკაციისთვის მოითხოვს კონტექსტურ ან დომენის სპეციფიკურ ცოდნას (მაგ., რეგიონისთვის სპეციფიკური პოლიტიკური კონტენტი, კულტურული მიკერძოებები, სამეცნიერო ან პროფესიული სფეროები, როგორიცაა სამართალი და მედიცინა).
მოითხოვს მომხმარებლის ნაკადის ან კონკრეტული გამოყენების შემთხვევების გაგებას, მათ შორის ფაქტორების, რომლებიც შეიძლება თავად სისტემის გარეთ იყოს (მაგ., GPT‑4(V)‑ის ტესტირება დაბალი მხედველობის მქონე პირებისთვის).

OpenAI შეტევით ტესტირებას განიხილავს როგორც ინსტრუმენტს, რომლითაც ფასდება როგორც მოდელის, ისე სისტემის დონეზე არსებული რისკები. სისტემის ფუნქციები შეიძლება მოიცავდეს: კლასიფიკატორებს, მოთხოვნის ფილტრებს / დაბლოკვის სიებს, მომხმარებლის ინტერფეისის დონეზე ჩარევებს, მონიტორინგისა და შეფასების პრაქტიკებს და პოლიტიკის აღსრულების სხვა მექანიზმებს. ზოგჯერ შეტევით ტესტირებას ახალ პროდუქტზეც ვატარებთ მაშინაც კი, როცა ახალი მოდელი ჩართული არ არის. მაგალითად, მიუხედავად იმისა, რომ GPTs⁠-ს ახალი საბაზისო მოდელი არ შემოუტანია, მან მაინც შემოიტანა ახალი სისტემები იმისთვის, თუ როგორ ურთიერთობენ მომხმარებლები მოდელთან.

OpenAI ჩვენს შეტევითი ტესტირების ძალისხმევებს განიხილავს როგორც დამატებას უფრო სპეციფიკური დომენური შეტევითი ტესტირებისადმი, რომელიც უნდა ჩაატარონ დეველოპერებმა, რომლებიც ჩვენს ტექნოლოგიაზე აშენებენ. მაგალითად, მიუხედავად იმისა, რომ ჩვენი მოდელები და სისტემები კონკრეტულ მომენტებში და განსაზღვრულ პირობებში შეტევით ტესტირებას გადის, დეველოპერებმა, რომლებიც ჩვენს API-ზე აშენებენ, უნდა გაითვალისწინონ ეს მიგნებები და დამატებითი შეტევითი ტესტირება ჩაატარონ იმ სისტემისა და კონტექსტური პირობების მიხედვით, რომლებშიც მუშაობას ელიან. სწორედ ეს არის ერთ-ერთი მიზეზი, რის გამოც OpenAI შეტევითი ტესტირების ძირითადი მიგნებებს სისტემურ ბარათებში (და საჯაროდ ხელმისაწვდომი დოკუმენტაციის სხვა ფორმებში) აქვეყნებს, რათა სხვებმა ისწავლონ და მათზე ააშენონ.

იტერაციული შეტევითი ტესტირება OpenAI-ში

ჩვენ დავაფიქსირეთ ჩვენი შეტევითი ტესტირების რამდენიმე ძალისხმევა მოწინავე მოდელების გამოშვებისთვის სისტემურ ბარათებში:

OpenAI-მ ექსპერტ შეტევით ტესტერებს მისცა წვდომა წინასწარ გაწვრთნილ მოდელებზე, fine-tuning-ისა და post-training-ის სხვადასხვა დონეებით, ასევე უსაფრთხოების შემარბილებელი ზომების სიმწიფის სხვადასხვა დონით.

ამის მიზნები შემდეგია:

შეტევითი ტესტირების მიგნებებმა შეიძლება ინფორმირება გაუწიოს post-training დონის შემარბილებელი ზომების, სისტემის დონის შემარბილებელი ზომების, პოლიტიკებისა და შეფასებების განვითარებას.
შეტევითი ტესტირების მიგნებები შეიძლება დაეხმაროს ლიდერობას გადაწყვეტილებების მიღებაში იმის შესახებ, გამოვუშვათ თუ არა გარკვეული ფუნქციები, როგორ დავნერგოთ გამოშვება ეტაპობრივად და რამდენად ეფექტიანია უსაფრთხოების შემარბილებელი ზომები.
შეტევითი ტესტირების შედეგები შეიძლება გაზიარდეს საჯარო გამოშვების მასალებთან ერთად (მაგალითად, სისტემურ ბარათებში ან სხვა ფორმატებში), რათა პოტენციურ მომხმარებლებსა და სხვა დაინტერესებულ მხარეებს მიეწოდოს ინფორმაცია შემცირებული რისკების, ნარჩენი რისკებისა და შესაძლო მომავალი რისკების შესახებ.

ჩვენ შეტევით ტესტერებს განვითარების პროცესში რაც შეიძლება ადრე ვრთავთ, რათა შეტევითი ტესტირების მიგნებები პირდაპირ აისახოს უსაფრთხოების ძალისხმევასა და გადაწყვეტილებების მიღებაზე. ასევე მნიშვნელოვანია, გავიგოთ მოდელის საბაზისო შესაძლებლობები მანამდე, სანამ რაიმე დამატებითი უსაფრთხოების შემარბილებელი ზომები დაემატება, რათა მოდელის დეველოპერებმა ინფორმირებული გადაწყვეტილებები მიიღონ მოდელის საბაზისო დონის რისკების შესახებ და საზოგადოებას უკეთ ესმოდეს მზარდად ძლიერი სისტემების რისკების ლანდშაფტი.

მას შემდეგ, რაც უსაფრთხოების შემარბილებელი ზომები ამოქმედდება, შეტევითი ტესტირების ძალისხმევა შეიძლება ფოკუსირდეს შეტევითი ტესტირების დამატებით რაუნდებზე, რომლებიც გამოავლენს იმ ხარვეზებსა და ნარჩენ რისკებს, რომლებსაც ეს ზომები ვერ ფარავს, ასევე შეაფასებს ამ ზომების გამძლეობას.

საბოლოოდ, მიუხედავად იმისა, რომ უსაფრთხოების მნიშვნელოვანი თვისებები არსებობს, რომლებიც მოდელის განვითარების პროცესზე უფრო ადრეულ ეტაპებზე დამატებით განხილვას საჭიროებს, შეტევითი ტესტირების მიზანია მაქსიმალურად მიუახლოვდეს იმ გამოცდილების სიმულაციას, რასაც მოდელების დეველოპერები საზოგადოებას აწვდიან.

შეტევითი ტესტირების შეზღუდვები

შეტევითი ტესტირება თავისთავად არ არის რისკის საკმარისი გაზომვის სავარჯიშო. დამოუკიდებლად, შეტევითი ტესტირება ვერ დაადგენს მოდელის მიერ მავნე კონტენტის წარმოქმნის ალბათობას ან მიდრეკილებას, ან AI სისტემის გამოყენებასთან დაკავშირებულ რისკებს. შეტევითი ტესტირება ასევე არ იძლევა საკმარის ინფორმაციას გამოვლენილი რისკის ან ზიანის სიმძიმის შესაფასებლად.

მიუხედავად იმისა, რომ OpenAI-ის ექსპერტული შეტევითი ტესტირების ძალისხმევის უმეტესი ნაწილი ხდება მოდელის ან პროდუქტის მნიშვნელოვან დანერგვამდე, მოდელები და სისტემები წარმოებაში საკმაოდ ხშირად ვითარდება, ამიტომ შეტევითი ტესტირების მიგნებების კონტექსტუალიზაციისას ამის გათვალისწინება მნიშვნელოვანია. მსგავსად, დეველოპერებმა, რომლებიც კონკრეტული გამოყენების შემთხვევებისთვის მოდელებზე აშენებენ, შეიძლება მიიღონ ისეთი დიზაინის გადაწყვეტილებები, რომლებიც შეცვლის მოდელის ან სისტემის უსაფრთხოების პროფილს, თუ ეს თავად მოდელისთვის ან სისტემისთვის თანდაყოლილი (ან უცვლელი) არ არის.

შეტევითი ტესტირება ქმნის საფუძველს შემდგომი ტესტირებისა და შეფასების გარკვეული ტიპებისთვის და გვაწვდის გარკვეულ მითითებებს იმ შეტევის ვექტორების ან საკითხების შესახებ, რომელთა მიმართაც უსაფრთხოების შემარბილებელი ზომები გამძლე უნდა იყოს.

საკითხის მრავალი მაგალითისა და ვარიაციის განხილვა შეიძლება დაეხმაროს კონკრეტული რისკის სფეროს გაზომვისადმი ნდობის ჩამოყალიბებას. ექსპერტული შეტევითი ტესტირება დიზაინით ორიენტირებულია რისკის სფეროების სიგანის, და არა სიღრმის, დაფარვაზე, ამიტომ დამოუკიდებლად ის აუცილებლად ვერ შექმნის კონკრეტული რისკების გასაზომად საკმარის შეფასებას. ამის ნაცვლად, შეტევით ტესტირებას შეუძლია გენერიროს მონაცემთა ნაკრებები, რომლებიც უფრო საფუძვლიანი შეფასებისთვის „თესლებად“ შეიძლება ჩაითვალოს. იქიდან შედეგები შეიძლება გამოყენებულ იქნას გამოვლენილი კონკრეტული პრობლემური სფეროს მეტი მაგალითის შესაქმნელად, ხოლო მარკირებული მაგალითების „ოქროს ნაკრები“ (ჩვეულებრივ, დომენის ექსპერტების მიერ) შეიძლება გამოყენებულ იქნას მომავალ მოდელებში გამოვლენილი პრობლემური სფეროს შესაფასებლად.

შეტევითი გუნდების შემადგენლობა და სფეროების პრიორიტეტიზაცია

ზოგადი დანიშნულების AI სისტემები, რომლებიც გამოყენებული იქნება მრავალი მოსალოდნელი და მოულოდნელი გამოყენების შემთხვევისთვის და მსოფლიოს მრავალ სხვადასხვა კონტექსტში, მოითხოვს თემატური სფეროების ფართო სპექტრის მოცვას, ასევე ადამიანების ჩართულობას, რომლებიც წარმოადგენენ მრავალფეროვან პერსპექტივებსა და მსოფლმხედველობებს.

OpenAI მიიჩნევს, რომ ჩვენი მოდელების შეტევითი ტესტირებისთვის ექსპერტების ფართო სპექტრი უნდა მოვიზიდოთ. გასულ წელს გამოვაცხადეთ აპლიკანტების მიღება შეტევითი ტესტირების ქსელში. შერჩევის კრიტერიუმები მოიცავდა:

დემონსტრირებულ ექსპერტიზას ან გამოცდილებას კონკრეტულ სფეროში, რომელიც შეტევით ტესტირებასთან არის დაკავშირებული
AI უსაფრთხოების გაუმჯობესებისადმი ინტერესს
ინტერესთა კონფლიქტის არარსებობას
მრავალფეროვან გამოცდილებას და ტრადიციულად ნაკლებად წარმომადგენლობით ჯგუფებს
გეოგრაფიულ მრავალფეროვნებას
ერთზე მეტ ენაზე ფლობას
ტექნიკურ უნარებს (სასარგებლოა, მაგრამ სავალდებულო არაა)

სფეროების პრიორიტეტიზაცია შეიძლება ეფუძნებოდეს შემდეგს: AI სისტემების ან მოდელის მოსალოდნელ გამოყენებებს, განსაკუთრებით უფრო მაღალი ბუნდოვანების ან შესაძლო რისკების მქონე კონტექსტებში; მოდელების ადრეულ შეფასებას, როცა მოდელების დეველოპერები შესაძლებლობების ზრდას მოელიან; წარსულში ცნობილი კონტენტ-პოლიტიკის პრობლემურ სფეროებს; და შესაბამის სოციალურ-პოლიტიკურ კონტექსტებს (მაგ., 2024 წელი მსოფლიოს ბევრ ადგილას მნიშვნელოვანი საარჩევნო წელია). მნიშვნელოვანია აღინიშნოს, რომ თითოეულ მოდელს ან სისტემას შეიძლება სხვადასხვა ტიპის ექსპერტიზა სჭირდებოდეს, ხოლო ახალი სფეროები შეიძლება განიხილებოდეს მოდელების ან სისტემების განვითარებადი შესაძლებლობებისა და ახალი გამოყენების შემთხვევების მიხედვით. შესაბამისად, შეტევითი ტესტირების გუნდების ოპტიმალური შემადგენლობა დროთა განმავლობაში შეიცვლება.

სინთეტიკური მედია და წარმომავლობა

ვოთერმარკინგი: ამ მიდგომის ფარგლებში გენერირებული აუდიოვიზუალური მედია თავად შეიცავს სიგნალს თავისი წარმომავლობის შესახებ — დახვეწილ შაბლონს, რომელიც მაყურებლისთვის ან მსმენელისთვის შესამჩნევი არ არის, მაგრამ პროგრამული უზრუნველყოფით შეიძლება გამოვლინდეს. ეს შეიძლება იყოს სიგნალი, რომლის აღმოჩენაც მხოლოდ საიდუმლო გასაღების დახმარებით არის შესაძლებელი, ან ალტერნატიულად, ვოთერმარკის აღმომჩენი პროგრამული უზრუნველყოფა შეიძლება საჯაროდ ხელმისაწვდომი იყოს. ამის გამო, თუ OpenAI ჩვენს შედეგებს ვოთერმარკს დაამატებდა, AI ღირებულების ჯაჭვში თანამშრომლობა აუცილებელი იქნებოდა, რათა სხვა მონაწილეებსაც, მაგალითად სოციალური მედიის პლატფორმებს, რომლებიც კონტენტს ავრცელებენ, შეეძლოთ ვოთერმარკის მომხმარებლებისთვის ხილული და სასარგებლო გახდება. თუ აღმოჩენის პროცესი თავად საჯარო არ არის, მაშინ ამ პროცესზე წვდომა კომპლექსური პოლიტიკის საკითხია. არსებობს ტექნიკური გამოწვევებიც. მიუხედავად იმისა, რომ ვოთერმარკების წაშლა შესაძლოა წარმომავლობის სხვა მეთოდებზე რთული იყოს, მონიშნულმა მედიამ მაინც შეიძლება დაკარგოს ვოთერმარკი, თუ ის ჩამოიჭრება, ზომა შეეცვლება ან სხვაგვარად შეიცვლება. ამ მიზეზების გამო, ვოთერმარკების თავიდან არიდება მაინც შესაძლებელია, განსაკუთრებით მოტივირებული მოწინააღმდეგე აქტორებისთვის. გარდა ამისა, ვოთერმარკინგის გავლენა შეიძლება შეზღუდული იყოს, რადგან ცუდ აქტორებს შეუძლიათ ისეთ მოდელებზე წვდომა, რომლებიც თავიანთ შედეგებს ვოთერმარკს არ უმატებენ.
კლასიფიკატორები (გაწვრთნილი მოდელები, რომლებიც AI-ის მიერ გენერირებულ შედეგს სხვა მედიისგან განასხვავებს და შეიძლება ასევე დაადგინოს, რომელმა მოდელმა ან სერვისმა შექმნა კონკრეტული შედეგი): როცა ისინი ეფექტიანია, ეს მიდგომები ძალიან მიმზიდველია, რადგან არ არის დამოკიდებული არც იმ ადამიანთან თანამშრომლობაზე, ვინც სურათს ავრცელებს, და არც სხვაზე. თუმცა მათ შეუძლიათ შეცდომების დაშვება — როგორც ცრუ დადებითი, ისე ცრუ უარყოფითი შედეგების — და მასშტაბურად დანერგვისთვის შესაძლოა გამოთვლითი თვალსაზრისით მძიმე იყოს. მაგალითად, ცრუ დადებითმა შედეგებმა შეიძლება ადამიანის მხატვრის ნამუშევარი შეცდომით აღწეროს, როგორც AI-ის შედეგი. ცრუ უარყოფითმა შედეგებმა კი შეიძლება სურათი არასწორად მონიშნოს, როგორც არა-AI-გენერირებული, მაშინ როცა სინამდვილეში ის ასეთია.
მეტამონაცემებზე დაფუძნებული მიდგომები(როგორიცააC2PA⁠(იხსნება ახალ ფანჯარაში)-ის მიმდინარე სტანდარტი): ამ მიდგომებში გარკვეულ მედიასთან დაკავშირებული მეტამონაცემები კრიპტოგრაფიულად არის ხელმოწერილი, რათა მედიის წარმომავლობა დამოწმდეს.ეს შეიძლება ძალა შესძინოს ადამიანებს, რომელთაც მედიის წარმომავლობის დამტკიცება სურთ, იქნება ის AI-ის მიერ გენერირებული თუ არა. მაგალითად, C2PA-ს შეუძლია ახალი ამბების გამომცემელს მისცეს საშუალება, აჩვენოს, და მაყურებლებს — დაადასტურონ, რომ კონკრეტული სურათი ან ვიდეო მართლაც ამ გამომცემელმა გამოაქვეყნა და ის ამ სურათის ან ვიდეოს სიზუსტეს ადასტურებს. ანალოგიურად, თუ ეს გენერაციულ AI სისტემაში განხორციელდება, ეს ტექნიკა მხატვარს დაეხმარება აჩვენოს, რომ მან შექმნა კონკრეტული სინთეტიკური სურათი ან ვიდეო. ამ მიდგომების აშკარა უპირატესობა ისაა, რომ მომხმარებლებსა და საზოგადოებას კონტენტის წარმომავლობის ხილვადობას აძლევს. დამატებით, მათი დანერგვა მნიშვნელოვანი რესურსების გარეშეა შესაძლებელი.თუმცა, მეტამონაცემების წაშლა საბაზისო სურათიდან ან ვიდეოდან მარტივად შეიძლება, ამიტომ ეს ტექნიკა არ ქმნის მნიშვნელოვან ბარიერს ცუდი აქტორებისთვის (მაგალითად, მათთვის, ვინც დეზინფორმაციის კამპანიებშია ჩართული), რომელთაც შეიძლება გენერირებული კონტენტის რეალურად გასაღება სურდეთ.იმისთვის, რომ მეტამონაცემებზე დაფუძნებულმა მიდგომებმა ფართოდ მოუტანოს სარგებელი საზოგადოებას, ბრაუზერებსა და გამავრცელებელ პლატფორმებს, როგორიცაა სოციალური მედიის პლატფორმები, ამ მეტამონაცემების აღმოჩენა და ჩვენება დასჭირდებათ. შესაბამისად, მეტამონაცემებზე დაფუძნებული მიდგომების წარმატებული დანერგვა მთელი ღირებულების ჯაჭვის მასშტაბით თანამშრომლობას მოითხოვს: საკმარისი არ არის, რომ აუდიოვიზუალურ მასალებს მეტამონაცემები კრიპტოგრაფიულად ჰქონდეს ხელმოწერილი; გამავრცელებელ პლატფორმებს უნდა შეეძლოთ შესაბამისი მეტამონაცემების აღმოჩენა და მისი ჩვენება, რათა საბოლოო მომხმარებელმა მედიის წარმომავლობა გადაამოწმოს.

OpenAI-ის მიდგომები წარმომავლობის მიმართ

რადგან წარმომავლობის თითოეულ მეთოდს თავისი უპირატესობები და შეზღუდვები ახლავს, OpenAI იკვლევს AI-ის მიერ გენერირებული აუდიოვიზუალური მედიის წარმომავლობის მიმართ სხვადასხვა მიდგომას.

C2PA მეტამონაცემები DALL·E 3-ის სურათებისთვის

ამ წლის 15 იანვარს OpenAI-მ გამოაცხადა, რომ C2PA მეტამონაცემების მიდგომას დანერგავს ჩვენი ტექსტიდან-სურათში მოდელის DALL·E 3-ის გამოყენებით გენერირებული სურათებისთვის. C2PA სპეციფიკაციები არის ღია ტექნიკური სტანდარტი, რომელიც გამომცემლებს, შემქმნელებსა და მომხმარებლებს სხვადასხვა ტიპის მედიის წარმომავლობის კვალის დადგენის შესაძლებლობას აძლევს.

ეს სპეციფიკაციები ფაილზე მეტამონაცემების მიმაგრების საშუალებას იძლევა. ეს მეტამონაცემები მოიცავს ინფორმაციას სურათის წყაროს შესახებ (ჩვენს შემთხვევაში, რომ სურათი DALL·E-დან მოვიდა) და შექმნის დროს. საზოგადოების წევრებს შეუძლიათ ეს მეტამონაცემები შეამოწმონ და, თუ ისინი არსებობს, დაადასტურონ, რომ სურათი DALL·E 3-ის მიერ არის გენერირებული.

ეს დაგვეხმარება, რომ მომხმარებლებს მივცეთ შესაძლებლობა მიუთითონ იმ სურათების წარმომავლობა, რომლებიც DALL·E 3-ის გამოყენებით შექმნეს. თუმცა, ამ მეტამონაცემების წაშლა საკმაოდ მარტივია: მოტივირებულ ცუდ აქტორს შეუძლია ნებისმიერი სურათის თანმხლები C2PA მეტამონაცემები წაშალოს. გარდა ამისა, სურათების გაზიარების გავრცელებული პლატფორმები, მაგალითად სოციალური მედიის პლატფორმები, ამ მონაცემებს ამჟამად ნაგულისხმევად შლიან, ნაცვლად იმისა, რომ ისინი აღმოაჩინონ და მომხმარებლებს უჩვენონ. იმის გათვალისწინებით, თუ რამდენად მარტივად შეიძლება C2PA-ს წაშლა, საზოგადოების წევრებმა ვერ უნდა ივარაუდონ, რომ ყველა DALL·E სურათს, რომელსაც ნახავენ, აუცილებლად ექნება ასეთი მონაცემები.

თუმცა, C2PA მხოლოდ AI სურათებისთვის არ არის და უფრო ფართო დანერგვის შემთხვევაში მას შეიძლება მნიშვნელოვანი სარგებელი ჰქონდეს. მას ასევე ნერგავენ კამერების მწარმოებლები, ახალი ამბების ორგანიზაციები და სხვები, რათა დაადასტურონ, საიდან მოდის სურათები. გვჯერა, რომ გამჟღავნების მეთოდების უფრო ფართო დანერგვა და მომხმარებლების წახალისება, რომ ამ სიგნალებს ეძებონ, მნიშვნელოვანი ნაბიჯებია ციფრული ინფორმაციის სანდოობის გაზრდისკენ.

ექსპერიმენტული კლასიფიკატორი DALL·E 3-ის სურათებისთვის

2023 წლის 19 ოქტომბერს ჩვენ გამოვაცხადეთ ჩვენი მიმდინარე მუშაობის შესახებ წარმომავლობის კლასიფიკატორზე — ახალ შიდა ინსტრუმენტზე, რომელიც ჩვენი DALL·E 3 სისტემის მიერ გენერირებული სურათების გამოსავლენად არის შექმნილი. კლასიფიკატორის სიზუსტეს შიდა ბენჩმარკებით ვზომავთ, რომლებმაც იმედისმომცემი შედეგები აჩვენა, მათ შორის მაშინაც, როცა სურათები გავრცელებულ ტიპის მოდიფიკაციებს დაექვემდებარა, როგორიცაა ჩამოჭრა, ზომის შეცვლა, JPEG შეკუმშვა, ან როცა რეალური სურათებიდან აღებული ტექსტი ან ფრაგმენტები გენერირებული სურათის მცირე ნაწილებზეა ზედდებული. შიდა ტესტირებაში ამ ძლიერი შედეგების მიუხედავად, კლასიფიკატორი მხოლოდ იმას გვეუბნება, რომ სურათი, სავარაუდოდ, DALL·E-ის მიერ არის გენერირებული, და ჯერ არ გვაძლევს საბოლოო დასკვნების გაკეთების შესაძლებლობას.

ჩვენ ვაგრძელებთ ჩვენი კლასიფიკატორის გამძლეობის ტესტირებას და 2024 წლის პირველ კვარტალში ვგეგმავთ, რომ ის გარე პარტნიორებისთვის უკუკავშირის მისაღებად ხელმისაწვდომი გავხადოთ. მომდევნო წლის განმავლობაში ველით, რომ სურათების კლასიფიკატორზე ჩვენს ექსპერიმენტებს გავაფართოებთ და შერჩეულ გარე მხარეებს მოვიწვევთ, რათა მის მუშაობასა და სარგებლიანობასთან დაკავშირებულ შეფასებაში შემოგვიერთდნენ.

კლასიფიკატორი მორგებულია ამ მოდელზე და მხოლოდ იმის კლასიფიცირება შეუძლია, იყო თუ არა სურათი, სავარაუდოდ, DALL·E-ის მიერ გენერირებული; ამიტომ, თუნდაც მის კლასიფიკაციებში სრულიად ზუსტი იყოს, მისი გამოყენება ვერ მოხდება იმის დასადგენად, იყო თუ არა სურათი სხვა გენერაციული ინსტრუმენტის მიერ შექმნილი.

მივესალმებით შესაძლებლობას, ვითანამშრომლოთ თქვენთან, სანამ ამ სფეროში თქვენი საქმიანობა გრძელდება.

პატივისცემით,

ანა ადეოლა მაკანჯუ
გლობალური ურთიერთობების ვიცე-პრეზიდენტი
OpenAI

სქოლიოები

A
იხილეთ Frontier Model Forum-ის შეტევითი ტესტირების განმარტება⁠(იხსნება ახალ ფანჯარაში).
B
ტერმინს „ექსპერტი“ ვიყენებთ იმ ექსპერტიზის აღსანიშნავად, რომელიც ინფორმირებულია დომენური ცოდნისა და ცხოვრებისეული გამოცდილების სხვადასხვა წყაროებით.