Published: 26 ოქტომბერი, 2023

OpenAI-ის მიდგომა მოწინავე რისკისადმი

განახლება გაერთიანებული სამეფოს AI Safety Summit-ისთვის

იტვირთება…

2023 წლის 21 ივლისს OpenAI შეუერთდა სხვა წამყვან AI ლაბორატორიებს ნებაყოფლობითი ვალდებულებების ნაკრების აღებაში, რათა AI-ში უსაფრთხოება, დაცულობა და ნდობა გაეძლიერებინა. ეს ვალდებულებები მოიცავდა რისკების არაერთ სფეროს, მათ შორის ცენტრალურად იმ მოწინავე რისკებს, რომლებიც მომავალი AI Safety Summit-ის ყურადღების ცენტრშია.

ამ განახლებაში ჩვენ აღვწერთ ამ ნებაყოფლობით ვალდებულებებთან დაკავშირებით ჩვენს პროგრესს და დამატებით ვაკონკრეტებთ ჩვენს განვითარებად მიდგომას მოწინავე მოდელებთან დაკავშირებული რისკის შემცირების მიმართ, მათ შორის ჩვენს მიმდინარე მუშაობას მზაობის ჩარჩოს შესაქმნელად.

2023 წლის 3 ოქტომბერს ჩვენ საჯაროდ გამოვაქვეყნეთ სისტემური ბარათი⁠ ჩვენი ტექსტიდან სურათზე მოდელისთვის DALL-E 3⁠, რაც იყო ახალი მოწინავე მოდელის პირველი მნიშვნელოვანი საჯარო გამოშვება ჩვენი ნებაყოფლობითი ვალდებულებების ფარგლებში. როგორც ჩვენს მისიას, ისე ნებაყოფლობით ვალდებულებებს შეესაბამებოდა ის, რომ ჩავატარეთ კრიტიკულად მნიშვნელოვანი უსაფრთხოების სამუშაოები, მათ შორის დანერგვამდელი უსაფრთხოების შეფასება და შეტევითი ტესტირება. გარდა ამისა, ჩვენ ვმუშაობთ ახალ მეთოდებზე, რათა ადამიანებს შევაძლებინოთ AI-ის მიერ გენერირებული მედიის წარმომავლობის კვალის დადგენა, და გავაგრძელეთ პასუხისმგებლიან პრაქტიკაში ინვესტირება ChatGPT‑ში ხმისა და სურათის ანალიზის შესაძლებლობების დანერგვის გზით.

ჩვენ ასევე შევასრულეთ ჩვენი ნებაყოფლობითი ვალდებულება⁠, რომ „შევქმნათ ან შევუერთდეთ ფორუმს ან მექანიზმს, რომლის მეშვეობითაც [ჩვენ] შევძლებთ მოწინავე AI-ის უსაფრთხოებისთვის საერთო სტანდარტებისა და საუკეთესო პრაქტიკების განვითარებას, წინ წაწევას და მიღებას“, Frontier Model Forum-ის თანადაფუძნებით. ეს ახალი ინდუსტრიული გაერთიანება, რომელიც Microsoft-თან, Google Deepmind-თან და Anthropic-თან ერთად ერთობლივად შეიქმნა, არის სივრცე მოწინავე AI სისტემებისთვის უსაფრთხოების კვლევის წინ წასაწევად და პასუხისმგებლიანი განვითარების პრაქტიკის წასახალისებლად.

მზაობის ჩარჩო

მოწინავე AI მოდელებს აქვთ პოტენციალი, სარგებელი მოუტანონ მთელ კაცობრიობას, მაგრამ ასევე ქმნიან სულ უფრო სერიოზულ რისკებს. ამ რისკების სამართავად, მაშინ როცა AI მოდელები აგრძელებენ გაუმჯობესებას, ჩვენ ვქმნით მზაობის ჩარჩოს, რომელიც აღრმავებს ჩვენს პროაქტიულ, რისკებზე დაფუძნებულ მიდგომას პასუხისმგებლიანი მოწინავე მოდელების განვითარებისადმი, განსაკუთრებით კატასტროფულ რისკებთან მიმართებით.

მზაობის ჩარჩო დეტალურად აღწერს ჩვენს მიდგომას მოწინავე მოდელების შესაძლებლობების მკაცრი შეფასებისა და მონიტორინგის შემუშავების მიმართ, ასევე განვითარების მთელ პროცესში ანგარიშვალდებულებისა და ზედამხედველობისთვის მმართველობითი სტრუქტურის შექმნას. რისკები, რომელთა თვალთვალსაც ამ პოლიტიკის ფარგლებში ვგეგმავთ, მოიცავს მრავალ კატეგორიას, მათ შორის კიბერუსაფრთხოებას, დარწმუნებას, ქიმიურ და ბიოლოგიურ საფრთხეებს და ავტონომიას.

მზაობის ჩარჩო ასევე განსაზღვრავს მოქმედებათა სპექტრს კატასტროფული შედეგებისგან დასაცავად. კატასტროფული რისკის ემპირიული გაგება ჯერ საწყის ეტაპზეა და სწრაფად ვითარდება. ამიტომ ჩვენ დინამიკურად განვაახლებთ მოწინავე მოდელებთან დაკავშირებული რისკის მიმდინარე დონეების ჩვენს შეფასებას, რათა ასახავდეს ჩვენს უახლეს შეფასებითა და მონიტორინგით მიღებულ გაგებას. ჩვენ ვაყალიბებთ სპეციალიზებულ გუნდს (Preparedness), რომელიც ამ ძალისხმევას წარმართავს, მათ შორის აუცილებელი კვლევისა და მონიტორინგის შესრულებით.

მზაობის ჩარჩო შექმნილია ჩვენი არსებული რისკების შემცირების სამუშაოს შესავსებად და გასაფართოებლად, რაც ხელს უწყობს ახალი, მაღალი შესაძლებლობების მქონე სისტემების უსაფრთხოებასა და ადამიანურ მიზნებთან თანხვედრას როგორც დანერგვამდე, ისე დანერგვის შემდეგ. ეს არსებული ძალისხმევები მოიცავს ჩვენი Safety Systems გუნდის მუშაობას, რომელიც ატარებს კვლევას და აშენებს სისტემურ გადაწყვეტებს, რათა უზრუნველყოს, რომ ჩვენი საუკეთესო მოდელები უსაფრთხოდ დაინერგოს, და ჩვენი Superalignment გუნდის მუშაობას, რომელიც ფოკუსირებულია მანქანური სწავლების გამოწვევებზე სუპერინტელექტუალური AI სისტემების ადამიანის განზრახვასთან თანხვედრაში მოსაყვანად.

ისინი ასევე მოიცავს Microsoft-თან ერთობლივ Deployment Safety Board-ს (DSB), რომელიც ამტკიცებს ნებისმიერი მხარის გადაწყვეტილებებს, განახორციელოს იმ მოდელების დანერგვა, რომლებიც გარკვეულ შესაძლებლობის ზღვარს აღემატება. DSB განსაკუთრებულად ფოკუსირდება დანერგვის გადაწყვეტილებებზე და არა უფრო ადრეულ ნაბიჯებზე, როგორიცაა იმის გადაწყვეტა, უნდა იწვრთნებოდეს თუ არა გარკვეული მასშტაბის ან შესაძლებლობის დონის მოდელები. მას აქვს ზოგიერთი მახასიათებელი, რომლებიც ხშირად განიხილება პასუხისმგებლიანი მასშტაბირების პოლიტიკის კონტექსტში, როგორიცაა ფოკუსი ყველაზე შესაძლებლობიან სისტემებზე, ძლიერი აქცენტი შეტევითი ტესტირებაზე და თანხვედრის აშკარა გათვალისწინება. ჩვენ მივიღეთ მნიშვნელოვანი გაკვეთილები GPT‑4‑ის DSB-ის მიმოხილვიდან, რომელიც პირველი შესაბამისი დანერგვა იყო, და ამ გაკვეთილებს გამოვიყენებთ მზაობის ჩარჩოს დიზაინისა და დანერგვის ინფორმირებისთვის. როგორც DSB, ისე მზაობის ჩარჩო და მათი შესაბამისი როლები, შესაძლოა დროთა განმავლობაში განვითარდეს, რადგან მეტს ვსწავლობთ რისკებისა და მათი შემცირების გზების შესახებ.

შენიშვნა: ჩვენ ჩვენს პოლიტიკას მზაობის ჩარჩოს ვუწოდებთ და არა პასუხისმგებლიანი მასშტაბირების პოლიტიკას, რადგან შესაძლებლობების მკვეთრი ზრდა შეიძლება მნიშვნელოვანი მასშტაბის ზრდის გარეშე მივიღოთ, მაგალითად, ალგორითმული გაუმჯობესებების გზით. მზაობის ჩარჩო არეგულირებს ჩვენი სულ უფრო შესაძლებლობიანი მოწინავე მოდელების განვითარებას იმის მიუხედავად, ეს მზარდი შესაძლებლობები მოდის მასშტაბიდან, ალგორითმული გაუმჯობესებებიდან თუ სხვა ოპტიმიზაციებიდან.

პრიორიტეტული კვლევა და ინვესტიცია საზოგადოებრივ, უსაფრთხოებისა და დაცულობის რისკებზე

ჩვენ გვჭირდება სამეცნიერო გარღვევები, საზოგადოების მზაობა და მოწინავე უსაფრთხოების სისტემები, რათა ჩვენზე ბევრად ჭკვიანი AI სისტემები ვაკონტროლოთ და ინტეგრირება გავუკეთოთ. ამ გარღვევებში ინვესტირებას ვახორციელებთ ორი ახალი გუნდის შექმნით: Superalignment და Preparedness, ასევე ჩვენი უსაფრთხოების სისტემებში დამატებითი ინვესტირებით.

AI-ის ადამიანურ მიზნებთან თანხვედრაში მოსაყვანად ჩვენი მიმდინარე ტექნიკები, როგორიცაა ადამიანის უკუკავშირის საფუძველზე განმამტკიცებელი სწავლება, ეყრდნობა ადამიანის უნარს, ზედამხედველობა გაუწიოს AI-ს. მაგრამ ეს ტექნიკები სუპერინტელექტისთვის არ იმუშავებს, რადგან ადამიანები ვერ შეძლებენ ჩვენზე ბევრად ჭკვიანი AI სისტემების საიმედოდ ზედამხედველობას. ჩვენ დავისახეთ მიზნად, ეს პრობლემა ოთხ წელიწადში გადავჭრათ ახალ გუნდში, სახელად Superalignment⁠, ინვესტირებით, რომელსაც ერთობლივად ხელმძღვანელობენ ილია სუცკევერი (OpenAI-ის თანადამფუძნებელი და მთავარი მეცნიერი) და იან ლაიკე (Alignment-ის ხელმძღვანელი). ჩვენი მიზანია ავაშენოთ ადამიანის დონესთან მიახლოებული ავტომატიზებული კვლევითი სისტემა თანხვედრისთვის და დიდი რაოდენობის გამოთვლითი რესურსი გამოვიყენოთ სუპერინტელექტის თანხვედრაში მოსაყვანად ჩვენი ძალისხმევის გასაზრდელად. ვგეგმავთ, ამ ძალისხმევას მივუძღვნათ იმ გამოთვლითი რესურსის 20%, რომელიც 2023 წლის ივნისისთვის გვქონდა უზრუნველყოფილი. გუნდი შედეგებს ფართოდ გააზიარებს, რათა წვლილი შეიტანოს არა-OpenAI მოდელების თანხვედრასა და უსაფრთხოებაშიც.

სუპერინტელექტის თანხვედრის გამოწვევის გარდა, ჩვენ გვჯერა, რომ სულ უფრო სერიოზული რისკები შეიძლება წარმოიშვას სულ უფრო შესაძლებლობიანი მოწინავე მოდელების შესაძლო ბოროტად გამოყენებიდან. ჩვენ ვქმნით ახალ სპეციალიზებულ გუნდს, სახელად Preparedness, რათა ეს რისკები გამოვავლინოთ, ვადევნოთ თვალი და მოვემზადოთ მათთვის. ჩვენი განზრახვაა ვაკონტროლოთ მოწინავე რისკები, მათ შორის კიბერუსაფრთხოება, CBRN, დარწმუნება და ავტონომიური რეპლიკაცია და ადაპტაცია, და გავაზიაროთ ქმედებები კატასტროფული რისკის ზემოქმედებისგან დასაცავად. რადგან კატასტროფული რისკის ემპირიული გაგება ჯერ საწყის ეტაპზეა, ჩვენ იტერაციულად განვაახლებთ მოწინავე მოდელებთან დაკავშირებული რისკის მიმდინარე დონეების ჩვენს შეფასებას, რათა ასახავდეს ჩვენს უახლეს შეფასებითა და მონიტორინგით მიღებულ გაგებას.

ჩვენ ვაგრძელებთ ინვესტირებას კიბერუსაფრთხოებასა და შიდა საფრთხეებისგან დამცავ მექანიზმებში, რათა დავიცვათ საკუთრებაში არსებული და ჯერ არ გამოშვებული მოდელის წონები. ჩვენ დავიწყეთ Cybersecurity Grant Program და OpenAI Bug Bounty პროგრამა, რათა კოორდინაცია გავუწიოთ თანამოაზრე მკვლევრებს, რომლებიც ჩვენი საერთო უსაფრთხოებისთვის მუშაობენ. Cybersecurity Grant Program არის $1M ინიციატივა, რომელიც მიზნად ისახავს AI-ით გაძლიერებული კიბერუსაფრთხოების შესაძლებლობების გაძლიერებასა და რაოდენობრივ შეფასებას და მაღალი დონის AI და კიბერუსაფრთხოების დისკურსის ხელშეწყობას. ასევე საზოგადოებას მოვუწოდებთ, შეგვატყობინონ ჩვენს სისტემებში აღმოჩენილი სისუსტეების, შეცდომების ან უსაფრთხოების ხარვეზების შესახებ. OpenAI Bug Bounty პროგრამა გვაძლევს საშუალებას ვაღიაროთ და დავაჯილდოოთ იმ ადამიანების მნიშვნელოვანი ხედვები, რომლებიც ხელს უწყობენ ჩვენი ტექნოლოგიისა და კომპანიის უსაფრთხოებას.

მოდელის შეფასებები და შეტევითი ტესტირება

უსაფრთხოების თვალსაზრისით ვაფასებთ თითოეულ ახალ ძირითად გამოშვებულ მოდელს, მათ შორის შეტევითი ტესტირების გამოყენებით. მაგალითად, GPT‑4‑ის საჯაროდ გამოშვებამდე გარე შეტევითი ტესტირების სპეციალისტებმა მოდელი გამოსცადეს შემდეგ მოწინავე რისკებზე: (1) ბირთვული, რადიოლოგიური, ბიოლოგიური და ქიმიური იარაღის (CBRN) შემუშავების ხელშეწყობა, (2) კიბერ რისკის ზრდა, (3) ხელსაწყოების გამოყენებიდან მომდინარე რისკები და (4) თვითრეპლიკაციის შესაძლებლობები. DALL-E 3-ის შეტევითი ტესტირების ფარგლებში, ჩვენი ნებაყოფლობითი ვალდებულებების ფარგლებში, ჩვენ შევამოწმეთ მოდელის უნარი მიეწოდებინა CBRN-ის შემუშავებისთვის, შეძენისთვის ან გავრცელებისთვის საჭირო ვიზუალური ინფორმაცია.

ჩვენ ასევე გამოვაქვეყნეთ ღია მოწოდება OpenAI Red Teaming Network⁠-ისთვის, რათა საჯაროდ მოვიწვიოთ დარგის ექსპერტები, რომლებიც დაინტერესებული არიან OpenAI-ის მოდელების უსაფრთხოების გაუმჯობესებით, ჩვენს შეტევითი ტესტირების ძალისხმევაში შესაერთებლად.

CBRN. LLM-ის ზოგიერთ შესაძლებლობას შეიძლება ჰქონდეს ორმაგი გამოყენების პოტენციალი, რაც ნიშნავს, რომ მოდელები შეიძლება გამოყენებულ იქნას როგორც კომერციული, ისე სამხედრო ან გავრცელებასთან დაკავშირებული მიზნებისთვის. GPT‑4 ოთხ ორმაგი გამოყენების სფეროში დავუქვემდებარეთ სტრეს-ტესტირებას, საზღვრული პირობების ტესტირებას და შეტევით ტესტირებას, რათა გამოგვეკვლია, შეძლებდნენ თუ არა ჩვენი მოდელები მიეწოდებინათ საჭირო ინფორმაცია იმ პირებისთვის, რომლებიც CBRN-ის შემუშავებას, შეძენას ან გავრცელებას ცდილობენ. აღმოვაჩინეთ, რომ თავისთავად GPT‑4‑ზე წვდომა გავრცელებისთვის საკმარისი პირობა არ არის, თუმცა მას შეუძლია შეცვალოს გავრცელებით დაინტერესებული პირებისთვის ხელმისაწვდომი ინფორმაცია, განსაკუთრებით ტრადიციულ საძიებო ხელსაწყოებთან შედარებით. შეტევითი ტესტირების სპეციალისტებმა შეარჩიეს შეკითხვების ნაკრები, რათა მოთხოვნები მიეცათ როგორც GPT‑4‑ისთვის, ისე ტრადიციული საძიებო სისტემებისთვის, და დაადგინეს, რომ GPT‑4‑ის გამოყენებისას კვლევის დასრულებისთვის საჭირო დრო შემცირდა. ზოგ შემთხვევაში კვლევის პროცესი რამდენიმე საათით შემცირდა ინფორმაციის სიზუსტის შეწირვის გარეშე. ამიტომ დავასკვნეთ, რომ რისკის მნიშვნელოვანი მამოძრავებელი ფაქტორია GPT‑4‑ის უნარი, გენერიროს საჯაროდ ხელმისაწვდომი, მაგრამ ძნელად მოსაძებნი ინფორმაცია, შეამციროს მომხმარებლის მიერ კვლევაზე დახარჯული დრო და ეს ინფორმაცია ისე დაალაგოს, რომ არაექსპერტი მომხმარებლისთვის გასაგები იყოს. DALL-E 3-ის გამოშვებამდე ჩვენ შევაფასეთ, როგორ ცვლიდა ტექსტიდან სურათის გენერირება რისკის პროფილს, მოდელის იმ უნარის ტესტირებით, რომ CBRN რისკებთან დაკავშირებული ინფორმაციის წარმოებისა და მოპოვებისთვის დიაგრამები და ვიზუალური ინსტრუქციები შეექმნა. GPT‑4‑ის მსგავსად, DALL-E 3-ზეც ჩავატარეთ შიდა და გარე ტესტირება, სადაც მოდელი შიგნით შევამოწმეთ რისკებზე და ადრეული წვდომა მივეცით სხვადასხვა ინდუსტრიის გარე ექსპერტებს, რათა დახმარებოდნენ სისტემების გამოკვლევას რისკების რუკირებისა და შეფასებისთვის. DALL·E 3 ოთხ ორმაგი გამოყენების სფეროში დავუქვემდებარეთ შეტევით ტესტირებას, რათა გამოგვეკვლია, შეეძლო თუ არა მას CBRN-ის შემუშავებისთვის, შეძენისთვის ან გავრცელებისთვის საჭირო ინფორმაციის მიწოდება. შეტევითი ტესტირების სპეციალისტებმა ამ სფეროებში მინიმალური რისკი აღმოაჩინეს ამ თემატურ სფეროებზე უზუსტობის, უარის თქმის და წარმატებული გავრცელებისთვის საჭირო დამატებითი წვდომისა და „ინგრედიენტების“ უფრო ფართო საჭიროების ერთობლიობის გამო.

კიბერშესაძლებლობები. ჩვენ ასევე შევაფასეთ GPT‑4‑ის გამოყენებადობა სისუსტეების აღმოჩენისა და ექსპლუატაციისთვის, ასევე სოციალური ინჟინერიისთვის. იმის შესამოწმებლად, თუ რამდენად შეეძლო მოდელს დახმარებოდა კომპიუტერული სისუსტეების აღმოჩენას, შეფასებასა და ექსპლუატაციას, კონტრაქტი გავუფორმეთ გარე კიბერუსაფრთხოების ექსპერტებს, რომლებმაც აღმოაჩინეს, რომ GPT‑4‑ს შეეძლო ზოგიერთი სისუსტის ახსნა, თუ საწყისი კოდი საკმარისად მცირე იყო და თავსდებოდა მოდელის კონტექსტის ფანჯარაში, მაგრამ GPT‑4 სუსტად მუშაობდა აღმოჩენილი სისუსტეებისთვის ექსპლოიტების აგებაში. სოციალური ინჟინერიის შესაძლებლობების შესამოწმებლად, ექსპერტმა შეტევითი ტესტირების სპეციალისტებმა გამოცადეს, წარმოადგენდა თუ არა GPT‑4 გაუმჯობესებას მიმდინარე ხელსაწყოებთან შედარებით ისეთ ამოცანებში, როგორიცაა სამიზნეების იდენტიფიკაცია, მიზანმიმართული ფიშინგი და bait-and-switch ფიშინგი. მათ დაადგინეს, რომ მოდელი არ იყო მიმდინარე სოციალური ინჟინერიის შესაძლებლობების მზა გაუმჯობესება, რადგან უჭირდა ფაქტობრივ ამოცანებთან გამკლავება, როგორიცაა სამიზნეების ჩამოთვლა და უახლესი ინფორმაციის გამოყენება უფრო ეფექტური ფიშინგ-შინაარსის შესაქმნელად. თუმცა, სამიზნის შესახებ შესაბამისი საბაზისო ცოდნის პირობებში, GPT‑4 ეფექტური იყო რეალისტური სოციალური ინჟინერიის შინაარსის შედგენაში. ამ დასკვნებზე დაყრდნობით, ჩვენ GPT‑4 წვრთნისშემდგომად მოვამზადეთ ისე, რომ მავნე კიბერუსაფრთხოების მოთხოვნებზე უარი თქვას, და გავაფართოვეთ ჩვენი შიდა უსაფრთხოების სისტემები, მათ შორის მონიტორინგში, გამოვლენასა და რეაგირებაში.

თვითრეპლიკაცია. GPT‑4‑ის გამოშვებამდე ჩვენ ასევე ხელი შევუწყვეთ მოდელის შესაძლებლობების წინასწარ შეფასებას Alignment Research Center-ის (ARC) მიერ იმის შესახებ, შეეძლო თუ არა ავტონომიურად რეპლიკაციისა და რესურსების მოპოვების ქმედებების განხორციელება. ჩვენი შეტევითი ტესტირების ფარგლებში ARC-ს მოდელებზე ადრეული წვდომა მივეცით, რათა მათ გუნდს ძალაუფლებისკენ სწრაფვის ქცევიდან მომდინარე რისკები შეეფასებინა. ძალაუფლებისკენ სწრაფვის ის კონკრეტული ფორმა, რომელიც ARC-მა შეაფასა, იყო მოდელის უნარი, ავტონომიურად გამრავლებულიყო და მოეპოვებინა რესურსები. ARC-მა დაადგინა, რომ GPT‑4‑ის ადრეული ვერსიები მათ მიერ ჩატარებულ წინასწარ ექსპერიმენტებში ავტონომიური რეპლიკაციის ამოცანაში არაეფექტიანი იყო. ამიტომ მათ დაასკვნეს, რომ ნაკლებად სავარაუდო იყო, მოდელს ავტონომიურად გაემრავლებინა საკუთარი თავი.

მოდელის ანგარიშგება და ინფორმაციის გაზიარება

გამჭვირვალობა ანგარიშვალდებული AI სისტემების შექმნის მნიშვნელოვანი ელემენტია. ანგარიშვალდებულებისადმი ჩვენი მიდგომის საკვანძო ნაწილია იმ დოკუმენტის გამოქვეყნება, რომელსაც ამჟამად სისტემურ ბარათს ვუწოდებთ, იმ ახალი AI სისტემებისთვის, რომლებსაც ვნერგავთ. ჩვენი სისტემური ბარათები მიზნად ისახავს მკითხველის ინფორმირებას იმ საკვანძო ფაქტორებზე, რომლებიც გავლენას ახდენს სისტემის ქცევაზე, განსაკუთრებით პასუხისმგებლიანი გამოყენებისთვის მნიშვნელოვან სფეროებში, და შთაგონებულია მოდელისა და სისტემური ბარათების შესახებ წინა კვლევითი ნაშრომებით. ნებაყოფლობითი ვალდებულებების აღებამდე OpenAI-ს გამოქვეყნებული ჰქონდა ორი სისტემური ბარათი: GPT‑4 System Card და DALL-E 2 System Card. მას შემდეგ ჩვენ გამოვაქვეყნეთ სისტემური ბარათი DALL-E 3-ის ChatGPT‑ში გამოშვებამდე, რაც ჩვენი ნებაყოფლობითი ვალდებულებების ხელმოწერის შემდეგ ახალი მოდელის პირველი მნიშვნელოვანი საჯარო გამოშვება იყო. ჩვენი ტექნოლოგიის პასუხისმგებლიანად გამოშვების უწყვეტი ძალისხმევის ფარგლებში, ChatGPT‑ში მის ხელმისაწვდომობამდე ჩვენ ასევე გამოვაქვეყნეთ სისტემური ბარათი GPT‑4‑ის ხედვის შესაძლებლობებისთვის.

მოდელის გამოშვების შემდეგ აღმოჩენილი სისუსტეების ანგარიშგების სტრუქტურა

ნებაყოფლობითი ვალდებულებების აღების შემდეგ, ჩვენ Frontier Model Forum-ის ფარგლებში დავიწყეთ სამუშაო ჯგუფი, რათა AI ლაბორატორიებს შორის საშიში შესაძლებლობების პასუხისმგებლიანი გამჟღავნების მექანიზმი შევქმნათ. ამ მექანიზმის მიზანი იქნება მოწინავე მოდელებში გამოვლენილი მნიშვნელოვანი რისკების კონფიდენციალური გამჟღავნება მოწინავე ლაბორატორიებსა და სხვა AI ლაბორატორიებს შორის. ჩვენი საწყისი ფოკუსი მოიცავს ეროვნულ უსაფრთხოებასთან დაკავშირებულ სფეროებს, როგორიცაა ქიმიური, ბიოლოგიური, რადიოლოგიური და ბირთვული (CBRN) შესაძლებლობები, ასევე სხვა საშიშ შესაძლებლობებს, როგორიცაა თვითრეპლიკაცია, მოტყუება და მანიპულაცია. გამჟღავნების მეთოდები მოიცავს შეფასებებს, შეტევითი ტესტირების სავარჯიშოებიდან მიღებულ ხედვებს და სხვა მტკიცებულებებს წევრ ლაბორატორიებს შორის საერთო საფრთხეების შესახებ იმ სფეროებში, სადაც უფრო ფართო გამჟღავნება მნიშვნელოვან რისკებს შექმნიდა.

ჩვენ ასევე გამოვაცხადეთ OpenAI-ის Bug Bounty პროგრამა, როგორც გზა იმ ადამიანების აღიარებისა და დაჯილდოებისთვის, რომლებიც ჩვენს სისტემებში უსაფრთხოების სისუსტეებს გვატყობინებენ. ჩვენი ჯილდოები მერყეობს $200-დან დაბალი სიმძიმის აღმოჩენებისთვის $20,000-მდე გამორჩეული აღმოჩენებისთვის. ჩვენ ვითანამშრომლეთ Bugcrowd-თან, წამყვან bug bounty პლატფორმასთან, რათა შეგვექმნა წარდგენისა და დაჯილდოების პროცესი, რომელიც ხელმისაწვდომია Bug Bounty პროგრამის გვერდზე⁠(იხსნება ახალ ფანჯარაში).

დანერგვის შემდეგ ბოროტად გამოყენების შაბლონების მონიტორინგი

ჩვენ ბევრს ვმუშაობთ იმისთვის, რომ განჭვრეტადი რისკები დანერგვამდე თავიდან ავიცილოთ. თუმცა, არსებობს ზღვარი იმასაც, თუ რისი სწავლა შეუძლია ნებისმიერს ლაბორატორიაში. ფართო კვლევისა და ტესტირების შემდეგაც კი, ჩვენ ვერ ვიწინასწარმეტყველებთ ყველა სასიკეთო გზას, რომლითაც ადამიანები ჩვენს ტექნოლოგიას გამოიყენებენ, და ვერც ყველა გზას, რომლითაც მას ბოროტად გამოიყენებენ. ჩვენთვის მაღალი პრიორიტეტია ისეთი შესაძლებლობების შექმნა, რომლებიც გაუთვალისწინებელი რისკების სწრაფ გამოვლენასა და მათზე რეაგირებას უზრუნველყოფს, რადგან ეს შესაძლებლობები კრიტიკულად მნიშვნელოვანი დამცავი მექანიზმია მოწინავე სისტემებისთვის, სადაც ყველა რისკის სრულად წინასწარ განჭვრეტა შეუძლებელია. ჩვენ ვქმნით შიდა ზომებს, რომლებიც მოულოდნელი ტიპის ბოროტად გამოყენების გამოსავლენად არის განკუთვნილი, გვაქვს მათზე რეაგირების პროცესები და მიღებულ გამოცდილებას ვიყენებთ ჩვენი გამოყენების პოლიტიკების, უსაფრთხოების სისტემებისა და მოდელის შედეგების გასაუმჯობესებლად. სისტემის გამოშვების შემდეგ, ბოროტად გამოყენებისა და გაუთვალისწინებელი რისკების გამოსავლენად პროაქტიულად ვატარებთ გამოძიებას, მონიტორინგსა და შემოსული ანგარიშების გადამოწმებას. შემდეგ კი ვცდილობთ, გამოვლენილი საკითხები სწრაფად და იტერაციულად მოვაგვაროთ პოლიტიკისა და ტექნიკური გადაწყვეტების საშუალებით. ჩვენ ვაგრძელებთ ჩვენი ოპერაციების მასშტაბირებას და რეაგირების დროის შემცირებას.

უსაფრთხოების კონტროლები, მათ შორის მოდელის წონების დაცვა

ჩვენ მნიშვნელოვან რესურსებს ვუთმობთ OpenAI-ის ტექნოლოგიის, ინტელექტუალური საკუთრებისა და მონაცემების დაცვას.

ჩვენ ჩვენს ყველაზე ძლიერ AI მოდელებს სერვისების სახით ვნერგავთ. ასეთი მოდელების წონებს არ ვავრცელებთ OpenAI-ისა და ჩვენი ტექნოლოგიური პარტნიორი Microsoft-ის ფარგლებს გარეთ, ხოლო ჩვენი ყველაზე შესაძლებლობიანი მოდელებზე მესამე მხარის წვდომას API-ის საშუალებით ვაძლევთ, რათა მოდელის წონები, საწყისი კოდი და სხვა სენსიტიური ინფორმაცია კონტროლის ქვეშ დარჩეს.

ჩვენ ასევე ვახორციელებთ კომერციულად გონივრულ ტექნიკურ, ადმინისტრაციულ და ორგანიზაციულ ზომებს, რომლებიც შექმნილია პირადი ინფორმაციის დაკარგვის, ბოროტად გამოყენებისა და არაავტორიზებული წვდომის თავიდან ასაცილებლად. ეს მოიცავს ჩვენი უსაფრთხოების პროგრამის მესამე მხარის აუდიტების გავლას, მათ შორის SOC 2 Type 2-ს. ჩვენ ასევე დავიწყეთ Bug Bounty პროგრამა, რომელიც დამოუკიდებელ მკვლევრებს მოუწოდებს, ჩვენს სისტემებში აღმოჩენილი სისუსტეები ფულადი ჯილდოს სანაცვლოდ შეატყობინონ. ჩვენი ნდობის პორტალი მომხმარებლებსა და სხვა დაინტერესებულ მხარეებს საშუალებას აძლევს გაეცნონ ჩვენს უსაფრთხოების კონტროლებსა და აუდიტის ანგარიშებს. ჩვენი კიბერუსაფრთხოების ძალისხმევის ფარგლებში, ჩვენ რეგულარულად ვატარებთ შიდა და მესამე მხარის პენეტრაციულ ტესტირებას და ვამოწმებთ ჩვენი უსაფრთხოების კონტროლების შესაბამისობასა და ეფექტიანობას.

AI-ის მიერ გენერირებული მასალის იდენტიფიკატორები

ჩვენ ვმუშაობთ წარმომავლობის ტექნიკურ მიდგომაზე, რათა დავეხმაროთ ჩვენი მოდელებით შექმნილი აუდიოვიზუალური შინაარსის იდენტიფიცირებას. როგორც კი ეს მიდგომა შემუშავდება, მას ფართოდ დავნერგავთ ჩვენს ახალ მოწინავე სისტემებში. ჩვენ ვაფასებთ წარმომავლობის სხვადასხვა ტექნიკას, თითოეულს თავისი განსხვავებული პლუსებითა და მინუსებით, რომლებიც ფართოდ სამ კატეგორიად იყოფა: ვოთერმარკინგი, კლასიფიკატორები და მეტამონაცემებზე დაფუძნებული მიდგომები.

მას შემდეგ, რაც ჩვენი ნებაყოფლობითი ვალდებულებები ავიღეთ, ჩვენ ვიკვლევთ და ვტესტავთ წარმომავლობის კლასიფიკატორს, რომელიც დაგვეხმარება განვსაზღვროთ, შეიქმნა თუ არა სურათი DALL·E 3-ის მიერ. ამჟამად ამას შიდა დონეზე ვაფასებთ და საჯარო განახლებაც გამოვაქვეყნეთ DALL·E 3-ის გამოშვების ფარგლებში.

მონაცემთა შეყვანის კონტროლი და აუდიტი

OpenAI-ის დიდი ენობრივი მოდელები, მათ შორის მოდელები, რომლებიც ChatGPT‑ს ამუშავებს, ვითარდება ინფორმაციის სამი ძირითადი წყაროს გამოყენებით: (1) ინტერნეტში საჯაროდ ხელმისაწვდომი ინფორმაცია, (2) ინფორმაცია, რომელსაც მესამე მხარეებისგან ვლიცენზირებთ, და (3) ინფორმაცია, რომელსაც ჩვენი მომხმარებლები ან ჩვენი ადამიანური ტრენერები გვაწვდიან.

ჩვენი საწვრთნელი მონაცემების უდიდესი ნაწილი მოდის საჯაროდ ხელმისაწვდომი ინფორმაციისგან, რომელიც თავისუფლად და ღიად არის ხელმისაწვდომი ინტერნეტში — მაგალითად, ჩვენ არ ვეძებთ ინფორმაციას paywall-ების მიღმა ან „deep web“-იდან. ჩვენ ვიყენებთ ფილტრებს და ვშლით გარკვეულ მონაცემებს, რომელთაგანაც არ გვინდა, რომ ჩვენმა მოდელებმა ისწავლონ ან გამოიტანონ, როგორიცაა სიძულვილის ენა, ზრდასრულთა შინაარსი, საიტები, რომლებიც ძირითადად პირად ინფორმაციას აგროვებენ, და სპამი.

ჩვენ ასევე დავნერგეთ ზომები, რათა შემოქმედებს, უფლებების მფლობელებსა და ვებსაიტების ოპერატორებს შევაძლებინოთ გამოხატონ თავიანთი პრეფერენციები AI წვრთნასთან დაკავშირებით მათ კუთვნილ ან მათ მიერ კონტროლირებად შინაარსზე. მაგალითად, OpenAI-მ დანერგა მარტივი საშუალება, რომლითაც ვებსაიტების ოპერატორებს შეუძლიათ გამორიცხონ თავიანთ შინაარსზე OpenAI-ის “GPTBot” ვებ-ქროულერის წვდომა robots.txt ვებ-სტანდარტზე დაყრდნობით. ანალოგიურად, OpenAI-მ დაადასტურა user-agent-string (“ChatGPT‑user”), რომელსაც ChatGPT და ChatGPT პლაგინები ვებსაიტებზე წვდომისთვის იყენებენ, რათა საიტის ოპერატორებმა ამ მიზნებისთვისაც შეძლონ წვდომის დაბლოკვა. ჩვენ ონლაინ ვაწვდით ინსტრუქციებს, თუ როგორ აიკრძალოს რომელიმე ბოტისთვის საიტებზე წვდომა. ასევე ვთავაზობთ თვითმომსახურების ფორმას⁠(იხსნება ახალ ფანჯარაში), რათა სურათების შემქმნელებმა თავიანთი შინაარსი ჩვენი მომავალი DALL-E სურათის გენერირების მოდელების წვრთნიდან გამორიცხონ.