9 დეკემბერი, 2024

Sora-ს სისტემური ბარათი

იტვირთება…

შესავალი

Sora-ს მიმოხილვა

Sora არის OpenAI-ის ვიდეოგენერაციის მოდელი, რომელიც შექმნილია ტექსტური, გამოსახულების და ვიდეოს შეყვანის მისაღებად და შედეგად ახალი ვიდეოს შესაქმნელად. მომხმარებლებს შეუძლიათ შექმნან 1080p-მდე გარჩევადობის ვიდეოები (მაქსიმუმ 20 წამი) სხვადასხვა ფორმატში, შექმნან ახალი კონტენტი ტექსტიდან ან გააუმჯობესონ, გადაამუშაონ და შეაზავონ საკუთარი მასალები. მომხმარებლებს შეეძლებათ Featured და Recent არხების დათვალიერება, სადაც ნაჩვენებია საზოგადოების ნამუშევრები და ახალი იდეებისთვის შთაგონებაა შეთავაზებული. Sora ეფუძნება DALL·E-ისა და GPT მოდელებიდან მიღებულ გამოცდილებას და შექმნილია იმისთვის, რომ ადამიანებს სთორითელინგისა და შემოქმედებითი გამოხატვისთვის გაფართოებული ხელსაწყოები მისცეს.

Sora არის დიფუზიური მოდელი, რომელიც ვიდეოს ქმნის იმით, რომ იწყებს საბაზისო ვიდეოდან, რომელიც ჰგავს სტატიკურ ხმაურს, და შემდეგ თანდათან გარდაქმნის მას ხმაურის მრავალ ეტაპზე მოცილებით. იმით, რომ მოდელს ერთდროულად მრავალი კადრის წინასწარ დანახვის შესაძლებლობა მივეცით, გადავჭერით რთული პრობლემა — როგორ შევინარჩუნოთ ობიექტი უცვლელად მაშინაც კი, როცა ის დროებით კადრიდან ქრება. GPT მოდელების მსგავსად, Sora იყენებს ტრანსფორმერის არქიტექტურას, რაც უფრო მაღალი მასშტაბირების შესაძლებლობებს ხსნის.

Sora იყენებს DALL·E 3-ისგან აღებულ recaptioning ტექნიკას, რაც ვიზუალური სასწავლო მონაცემებისთვის მეტად აღწერითი წარწერების გენერირებას გულისხმობს. შედეგად, მოდელს შეუძლია გენერირებულ ვიდეოში უფრო ზუსტად მიჰყვეს მომხმარებლის ტექსტურ ინსტრუქციებს.

გარდა იმისა, რომ მხოლოდ ტექსტური ინსტრუქციებიდან შეუძლია ვიდეოს გენერირება, მოდელს ასევე შეუძლია მიიღოს არსებული სტატიკური გამოსახულება და მისგან შექმნას ვიდეო, სურათის შიგთავსის ანიმაცია გააკეთოს სიზუსტითა და მცირე დეტალებისადმი ყურადღებით. მოდელს ასევე შეუძლია მიიღოს არსებული ვიდეო და გააგრძელოს ის ან შეავსოს გამოტოვებული კადრები⁠. Sora წარმოადგენს საფუძველს იმ მოდელებისთვის, რომლებსაც რეალური სამყაროს გაგება და სიმულაცია შეუძლიათ — შესაძლებლობა, რომელიც, ჩვენი აზრით, AGI-ის მიღწევის მნიშვნელოვანი ეტაპი იქნება.

Sora-ს შესაძლებლობებმა შესაძლოა ახალი რისკებიც წარმოშვას, მაგალითად, მსგავსების ბოროტად გამოყენების ან შეცდომაში შემყვანი თუ აშკარა ვიდეოკონტენტის გენერირების პოტენციალი. იმისათვის, რომ Sora უსაფრთხოდ დავნერგოთ პროდუქტში, გამოვიყენეთ DALL·E-ის ChatGPT‑სა და API-ში დანერგვიდან მიღებული გამოცდილება და სხვა OpenAI პროდუქტების, მათ შორის ChatGPT‑ის, უსაფრთხოების შემარბილებელი ზომები. ეს სისტემური ბარათი აღწერს მიღებულ შემარბილებელი ზომების სტეკს, გარე შეტევითი ტესტირების ძალისხმევას, ევალუაციებს და მიმდინარე კვლევას, რომელიც ამ დამცავი მექანიზმების შემდგომ დახვეწას ისახავს მიზნად.

მოდელის მონაცემები

როგორც აღწერილია ჩვენს 2024 წლის თებერვლის ტექნიკურ ანგარიშში⁠¹, Sora შთაგონებას იღებს დიდი ენობრივი მოდელებისგან, რომლებიც ზოგად შესაძლებლობებს ინტერნეტის მასშტაბის მონაცემებზე სწავლებით იძენენ. LLM პარადიგმის წარმატება ნაწილობრივ განპირობებულია token-ების გამოყენებით, რომლებიც ელეგანტურად აერთიანებს ტექსტის მრავალფეროვან მოდალობებს — კოდს, მათემატიკას და სხვადასხვა ბუნებრივ ენას. Sora-ს შემთხვევაში, განვიხილეთ, როგორ შეიძლება ვიზუალური მონაცემების გენერაციულმა მოდელებმა ასეთი უპირატესობები დაიმკვიდრონ. მაშინ როცა LLM-ებს აქვთ ტექსტური token-ები, Sora-ს აქვს ვიზუალური პატჩები. უკვე ნაჩვენებია, რომ პატჩები ვიზუალური მონაცემების მოდელებისთვის ეფექტიანი რეპრეზენტაციაა. ჩვენ დავადგინეთ, რომ პატჩები უაღრესად მასშტაბირებადი და ეფექტიანი რეპრეზენტაციაა მრავალფეროვან ვიდეოებსა და გამოსახულებებზე გენერაციული მოდელების სასწავლებლად. მაღალ დონეზე, ვიდეოებს პატჩებად ვაქცევთ იმით, რომ ჯერ ვიდეოებს ვკუმშავთ ქვედა განზომილების სივრცე-ში, შემდეგ კი ამ რეპრეზენტაციას სივრცე-დროის პატჩებად ვშლით.

Sora სხვადასხვა მონაცემთა ნაკრებზე ისწავლა, მათ შორის საჯაროდ ხელმისაწვდომი მონაცემების, პარტნიორობებით მიღებული საკუთრების მონაცემებისა და შინაგანად შემუშავებული საბაჟო მონაცემთა ნაკრებების ნაზავზე. ეს მოიცავს:

შერჩეულ საჯაროდ ხელმისაწვდომ მონაცემებს, რომლებიც უმეტესად შეგროვებულია ინდუსტრიის სტანდარტულ მანქანური სწავლების მონაცემთა ნაკრებებიდან და ვებ-ქროულებიდან.
პარტნიორული შეთანხმებებიდან მიღებულ საკუთრების მონაცემებს. ჩვენ ვქმნით პარტნიორობებს არასაჯაროდ ხელმისაწვდომ მონაცემებზე წვდომის მისაღებად. მაგალითად, AI-გენერირებული გამოსახულებების შექმნასა და მიწოდებაზე ვთანამშრომლობდით Shutterstock⁠ Pond5-თან. ასევე ვთანამშრომლობთ მონაცემთა ნაკრებების შეკვეთასა და შექმნაზე, რომლებიც ჩვენს საჭიროებებს შეესაბამება.
ადამიანური მონაცემები: AI ტრენერების, შეტევითი ტესტირების მონაწილეებისა და თანამშრომლების უკუკავშირი.

წინასწარი სწავლების ფილტრაცია და მონაცემთა წინასწარი დამუშავება

წინასწარი სწავლების ეტაპის შემდეგ დანერგილი შემარბილებელი ზომების გარდა, წინასწარი სწავლების ფილტრაციის შემარბილებელ ზომებს შეუძლიათ დაცვის დამატებითი ფენის უზრუნველყოფა, რაც სხვა უსაფრთხოების შემარბილებელ ზომებთან ერთად ხელს უწყობს არასასურველი და მავნე მონაცემების ჩვენი მონაცემთა ნაკრებებიდან გამორიცხვას. ამიტომ, სწავლების დაწყებამდე ყველა მონაცემთა ნაკრები გადის ამ ფილტრაციის პროცესს, რომლის დროსაც იშლება ყველაზე აშკარა, ძალადობრივი ან სხვაგვარად მგრძნობიარე კონტენტი (მაგალითად, სიძულვილის ზოგიერთი სიმბოლო), რაც წარმოადგენს იმ მეთოდების გაგრძელებას, რომლებითაც ვფილტრავდით მონაცემებს, რომლებზეც სხვა მოდელები, მათ შორის DALL·E 2 და DALL·E 3, ვასწავლეთ.

რისკების იდენტიფიცირება და დანერგვისთვის მზადება

ჩვენ გავიარეთ სიღრმისეული პროცესი, რათა გაგვეგო როგორც პოტენციური ბოროტად გამოყენება, ისე რეალურ სამყაროში შემოქმედებითი გამოყენებები, რაც Sora-ს დიზაინისა და უსაფრთხოების შემარბილებელი ზომების განსაზღვრაში დაგვეხმარა. 2024 წლის თებერვალში Sora-ს ანონსის შემდეგ, 60-ზე მეტი ქვეყნიდან ასობით ვიზუალურ არტისტთან, დიზაინერთან და კინომწარმოებელთან ვიმუშავეთ, რათა მიგვეღო უკუკავშირი იმაზე, თუ როგორ განგვევითარებინა მოდელი ისე, რომ ის შემოქმედებითი პროფესიონალებისთვის ყველაზე სასარგებლო ყოფილიყო. ჩვენ ასევე შევიმუშავეთ არაერთი ევალუაცია შიგნით და გარე შეტევითი ტესტირების მონაწილეებთან ერთად, რათა აღმოგვეჩინა და შეგვეფასებინა რისკები და იტერაციულად გაგვეუმჯობესებინა უსაფრთხოებისა და რისკების შემარბილებელი ზომები.

Sora-სთვის ჩვენი უსაფრთხოების სტეკი ეფუძნება ამ ცოდნას და ასევე იმ უკვე არსებულ უსაფრთხოების შემარბილებელ ზომებს, რომლებსაც ვიყენებთ სხვა მოდელებსა და პროდუქტებში, როგორიცაა DALL·E და ChatGPT, ასევე ჩვენს ვიდეოპროდუქტზე მორგებულ სპეციალურად შექმნილ შემარბილებელ ზომებს. რადგან ეს ძლიერი ინსტრუმენტია, უსაფრთხოებისადმი იტერაციულ მიდგომას ვიყენებთ, განსაკუთრებით იქ, სადაც კონტექსტი მნიშვნელოვანია ან ვიდეოსთან დაკავშირებულ ახალ რისკებს ველით. ჩვენი იტერაციული მიდგომის მაგალითებია 18 წლის ან უფროსი ასაკის მომხმარებლებისთვის წვდომის ასაკობრივი შეზღუდვა, მსგავსების/სახის ატვირთვების გამოყენების შეზღუდვა და გაშვებისას არასრულწლოვანთა მოთხოვნებსა და ატვირთვებზე უფრო კონსერვატიული მოდერაციის ზღვრები. გვსურს განვაგრძოთ სწავლა იმის შესახებ, თუ როგორ იყენებენ ადამიანები Sora-ს, და იტერაციულად ვიპოვოთ საუკეთესო ბალანსი უსაფრთხოებასა და მომხმარებლებისთვის შემოქმედებითი პოტენციალის მაქსიმიზებას შორის.

გარე შეტევითი ტესტირება

OpenAI თანამშრომლობდა ცხრა სხვადასხვა ქვეყანაში მყოფ გარე შეტევითი ტესტირების მონაწილეებთან, რათა დაეტესტა Sora, გამოევლინა უსაფრთხოების შემარბილებელი ზომების სისუსტეები და მიეღო უკუკავშირი Sora-ს ახალი პროდუქტის შესაძლებლობებთან დაკავშირებულ რისკებზე. შეტევითი ტესტირების მონაწილეებს სექტემბრიდან 2024 წლის დეკემბრამდე ჰქონდათ წვდომა Sora პროდუქტზე უსაფრთხოების შემარბილებელი ზომებისა და სისტემის სიმწიფის სხვადასხვა იტერაციით და შეამოწმეს 15,000-ზე მეტი გენერაცია. შეტევითი ტესტირების ეს ძალისხმევა ეყრდნობა 2024 წლის დასაწყისში ჩატარებულ სამუშაოს, როდესაც ტესტირდებოდა Sora-ს მოდელი წარმოებისთვის განკუთვნილი შემარბილებელი ზომების გარეშე.

შეტევითი ტესტირების მონაწილეებმა გამოიკვლიეს Sora-ს მოდელისა და პროდუქტის ხელსაწყოების პოტენციური ახალი რისკები და უსაფრთხოების შემარბილებელი ზომები მათი შემუშავებისა და გაუმჯობესების პროცესში გამოცადეს. შეტევითი ტესტირების ეს კამპანიები მოიცავდა დამრღვევი და აკრძალული კონტენტის სხვადასხვა ტიპს (სექსუალური და ეროტიკული კონტენტი, ძალადობა და სისხლიანი სცენები, თვითდაზიანება, უკანონო კონტენტი, mis/disinformation და სხვ.), ადვერსარიულ ტაქტიკებს (როგორც მოთხოვნების ფორმულირებაში, ისე ხელსაწყოებისა/ფუნქციების გამოყენებაში) უსაფრთხოების შემარბილებელი ზომების თავიდან ასარიდებლად, ასევე იმასაც, თუ როგორ შეიძლებოდა ამ ხელსაწყოების გამოყენება მოდერაციის ინსტრუმენტებისა და დამცავი მექანიზმების ეტაპობრივად დასასუსტებლად. შეტევითი ტესტირების მონაწილეებმა ასევე მოგვაწოდეს უკუკავშირი Sora-ს შესახებ თავიანთ აღქმებზე, მათ შორის მიკერძოებასა და ზოგად წარმადობაზე.

ჩვენ გამოვიკვლიეთ ტექსტიდან ვიდეოს გენერირება როგორც პირდაპირი მოთხოვნებით, ისე ადვერსარიული მოთხოვნების ტაქტიკებით ზემოთ ჩამოთვლილ ყველა კატეგორიაში. მედიის ატვირთვის შესაძლებლობა გამოიცადა გამოსახულებებისა და ვიდეოების დიდი მრავალფეროვნებით, მათ შორის საჯარო პირებით, და კონტენტის ფართო კატეგორიებით, რათა შეგვეფასებინა დამრღვევი კონტენტის გენერირების უნარი. ჩვენ ასევე გამოვცადეთ მოდიფიკაციის ხელსაწყოების (storyboards, recut, remix და blend) სხვადასხვა გამოყენება და კომბინაცია, რათა შეგვეფასებინა მათი შესაძლებლობა აკრძალული კონტენტის შესაქმნელად.

შეტევითი ტესტირების მონაწილეებმა გამოავლინეს მნიშვნელოვანი დაკვირვებები როგორც აკრძალული კონტენტის კონკრეტულ ტიპებზე, ისე ზოგად ადვერსარიულ ტაქტიკებზე. მაგალითად, მათ დაადგინეს, რომ ტექსტური მოთხოვნების გამოყენება სამედიცინო სიტუაციებთან ან სამეცნიერო ფანტასტიკის / ფენტეზის გარემოებებთან ერთად ასუსტებდა ეროტიკული და სექსუალური კონტენტის გენერირებისგან დაცვის მექანიზმებს, სანამ დამატებითი შემარბილებელი ზომები არ შეიქმნა. მათ გამოიყენეს ადვერსარიული ტაქტიკები უსაფრთხოების სტეკის ელემენტების ასარიდებლად, მათ შორის მიმანიშნებელი მოთხოვნები და მეტაფორები, რათა მოდელის დასკვნის გამოტანის უნარი გამოეყენებინათ. მრავალ მცდელობაზე მათ შეძლეს იმ მოთხოვნებისა და სიტყვების ტენდენციების იდენტიფიცირება, რომლებიც დამცავ მექანიზმებს ააქტიურებდა, და სხვადასხვა ფორმულირებისა და სიტყვების გამოცდა უარყოფების ასარიდებლად. საბოლოოდ, შეტევითი ტესტირების მონაწილეები ყველაზე შემაშფოთებელ გენერაციას არჩევდნენ, რათა ის საწყის მედიად გამოეყენებინათ და შემდგომ განევითარებინათ ისეთ დამრღვევ კონტენტად, რომლის შექმნაც ერთჯერადი მოთხოვნის ტექნიკებით შეუძლებელი იყო. Jailbreak ტექნიკებიც ზოგჯერ ეფექტიანი აღმოჩნდა უსაფრთხოების პოლიტიკების დასასუსტებლად, რამაც ამ დაცვითი ზომების დახვეწის საშუალებაც მოგვცა.

შეტევითი ტესტირების მონაწილეებმა ასევე გამოსცადეს მედიის ატვირთვები და Sora-ს ხელსაწყოები (storyboards, recut, remix და blend) როგორც საჯაროდ ხელმისაწვდომი სურათებით, ისე AI-ის მიერ გენერირებული მედიით. ამან Sora-ს გამოშვებამდე გაამჟღავნა შეყვანისა და შედეგის ფილტრაციის ხარვეზები, რომელთა გაძლიერებაც საჭირო იყო, და დაგვეხმარა მედიის ატვირთვებისთვის, მათ შორის ადამიანების გამოსახულებებისთვის, დაცვის მექანიზმების დახვეწაში. ტესტირებამ ასევე აჩვენა, რომ უფრო ძლიერი კლასიფიკატორული ფილტრაცია იყო საჭირო, რათა შემცირებულიყო რისკი, რომ არდამრღვევი მედიაატვირთვები გარდაიქმნებოდა აკრძალულ ეროტიკულ, ძალადობრივ ან deepfake კონტენტად.

შეტევითი ტესტირების მონაწილეების მიერ გენერირებულმა უკუკავშირმა და მონაცემებმა შესაძლებელი გახადა უსაფრთხოების შემარბილებელი ზომების დამატებითი ფენების შექმნა და არსებული უსაფრთხოების ევალუაციების გაუმჯობესება, რაც აღწერილია კონკრეტული რისკების სფეროებისა და შემარბილებელი ზომების⁠ სექციებში. ამ ძალისხმევამ დამატებით დაგვეხმარა ჩვენი მოთხოვნების ფილტრაციის, ბლოკლისტებისა და კლასიფიკატორების ზღვრების მორგებაში, რათა უზრუნველყოფილი ყოფილიყო მოდელის შესაბამისობა უსაფრთხოების მიზნებთან.

ადრეული არტისტული წვდომიდან მიღებული გამოცდილება

ბოლო ცხრა თვის განმავლობაში, დავაკვირდით მომხმარებელთა უკუკავშირს 60-ზე მეტი ქვეყნიდან 300-ზე მეტი მომხმარებლის 500,000+-ზე მეტ მოდელის მოთხოვნაში. ამ მონაცემებმა ხელი შეუწყო მოდელის ქცევისა და უსაფრთხოების პროტოკოლებთან შესაბამისობის გაუმჯობესებას. მაგალითად, არტისტების უკუკავშირმა დაგვანახვა, რა შეზღუდვები აქვს ხილულ წყლის ნიშანს მათ სამუშაო პროცესებზე, რამაც გავლენა მოახდინა ჩვენს გადაწყვეტილებაზე, რომ ფასიანი მომხმარებლებისთვის ვიდეოფაილების ჩამოტვირთვა ხილული წყლის ნიშნის გარეშე დაგვეშვა, ამავდროულად კი C2PA მონაცემების ჩაშენება შეგვენარჩუნებინა.

ადრეული წვდომის ამ პროგრამამ ასევე გვასწავლა, რომ თუ Sora სთორითელინგისა და შემოქმედებითი გამოხატვის გაფართოებულ ინსტრუმენტად უნდა გამოგვდგომოდა, საჭირო იქნებოდა, არტისტებისთვის მეტი მოქნილობა შემოგვეთავაზებინა ზოგიერთ მგრძნობიარე სფეროში, რომელსაც განსხვავებულად მოვექცეოდით ისეთი ზოგადი დანიშნულების ინსტრუმენტში, როგორიცაა ChatGPT. ველით, რომ არტისტები, დამოუკიდებელი კინემატოგრაფისტები, სტუდიები და გასართობი ინდუსტრიის სხვა ორგანიზაციები Sora-ს თავიანთი განვითარების პროცესების მნიშვნელოვან ნაწილად გამოიყენებენ. ამავდროულად, როგორც დადებითი გამოყენების შემთხვევების, ისე პოტენციური ბოროტად გამოყენების იდენტიფიცირებამ საშუალება მოგვცა განგვესაზღვრა ის სფეროები, სადაც ზიანის ან ბოროტად გამოყენების რისკის შესამცირებლად პროდუქტის დონეზე უფრო მკაცრი შემარბილებელი ზომები იყო საჭირო.

ევალუაციები

ჩვენ შევიმუშავეთ შიდა ევალუაციები, რომლებიც მიზნად ისახავდა ძირითად სფეროებს, მათ შორის სიშიშვლეს, არჩევნებთან დაკავშირებულ შეცდომაში შემყვან კონტენტს, თვითდაზიანებასა და ძალადობას. ეს ევალუაციები შეიქმნა იმისთვის, რომ მხარდაჭერა გაეწია შემარბილებელი ზომების დახვეწისთვის და დახმარებოდა ჩვენი მოდერაციის ზღვრების განსაზღვრას. ევალუაციის ჩარჩო აერთიანებს ვიდეოგენერაციის მოდელისთვის მიწოდებულ მოთხოვნებს, აგრეთვე შეყვანისა და შედეგის კლასიფიკატორებს, რომლებიც გამოიყენება ან გარდაქმნილ მოთხოვნებზე, ან საბოლოოდ შექმნილ ვიდეოებზე.

ამ ევალუაციებისთვის შეყვანის მოთხოვნები მიღებული იყო სამი ძირითადი არხიდან: ადრეული alpha ფაზის განმავლობაში შეგროვებული მონაცემები (როგორც აღწერილია 3.2 სექციაში), შეტევითი ტესტირების მონაწილეების მიერ მოწოდებული ადვერსარიული მაგალითები (მითითებულია 3.1 სექციაში) და GPT‑4‑ის გამოყენებით გენერირებული სინთეზური მონაცემები. Alpha ფაზის მონაცემებმა რეალურ სამყაროში გამოყენების სცენარების შესახებ წარმოდგენა მოგვცა, შეტევითი ტესტირების მონაწილეთა წვლილმა კი დაგვეხმარა ადვერსარიული და საზღვრული შემთხვევების კონტენტის გამოვლენაში, ხოლო სინთეზურმა მონაცემებმა შესაძლებელი გახადა ევალუაციის ნაკრებების გაფართოება ისეთ სფეროებში, როგორიცაა უნებლიე პროვოკაციული კონტენტი, სადაც ბუნებრივად წარმოქმნილი მაგალითები იშვიათია.

მზადყოფნა

მზადყოფნის ჩარჩო შექმნილია იმის შესაფასებლად, იწვევს თუ არა მოწინავე მოდელის შესაძლებლობები მნიშვნელოვან რისკებს ოთხ დაკვირვებად კატეგორიაში: დარწმუნება, კიბერუსაფრთხოება, CBRN (ქიმიური, ბიოლოგიური, რადიოლოგიური და ბირთვული) და მოდელის ავტონომია. ჩვენ არ გვაქვს მტკიცებულება, რომ Sora მნიშვნელოვან რისკს ქმნის კიბერუსაფრთხოების, CBRN-ის ან მოდელის ავტონომიის მხრივ. ეს რისკები მჭიდროდ არის დაკავშირებული მოდელებთან, რომლებიც ურთიერთქმედებენ კომპიუტერულ სისტემებთან, სამეცნიერო ცოდნასთან ან ავტონომიურ გადაწყვეტილების მიღებასთან, რაც ამ ეტაპზე Sora-ს, როგორც ვიდეოგენერაციის ხელსაწყოს, ფარგლებს სცდება.

Sora-ს ვიდეოგენერაციის შესაძლებლობებმა შეიძლება დარწმუნებასთან დაკავშირებული პოტენციური რისკები წარმოშვას, მაგალითად, სხვისად ქცევის, დეზინფორმაციის ან სოციალური ინჟინერიის რისკები. ამ რისკების საპასუხოდ, შევიმუშავეთ შემარბილებელი ზომების ნაკრები, რომლებიც ქვემოთ მოცემულ სექციებშია აღწერილი. ეს მოიცავს ისეთ ზომებსაც, რომლებიც მიზნად ისახავს ცნობილი საჯარო ფიგურების მსგავსების გენერირების თავიდან აცილებას. გარდა ამისა, იმის გათვალისწინებით, რომ ვიდეოს რეალურად თუ AI-ის მიერ გენერირებულად აღქმის კონტექსტი და ცოდნა შეიძლება გადამწყვეტი იყოს გენერირებული ვიდეოს დამაჯერებლობის განსაზღვრაში, ყურადღება გავამახვილეთ მრავალშრიანი წარმოშობის მიდგომის შექმნაზე, მათ შორის მეტამონაცემებზე, წყლის ნიშნებსა და თითის ანაბეჭდებზე.

Sora-ს შემარბილებელი ზომების სტეკი

ქვემოთ იდენტიფიცირებული კონკრეტული რისკებისა და შემარბილებელი ზომების გარდა, Sora-ს სწავლების, პროდუქტის დიზაინისა და პოლიტიკების ფარგლებში მიღებული გადაწყვეტილებები ზოგადად ხელს უწყობს მავნე ან არასასურველი შედეგების რისკის შემცირებას. ეს ფართოდ შეიძლება დაიყოს სისტემისა და მოდელის დონის ტექნიკურ შემარბილებელ ზომებად, ასევე პროდუქტის პოლიტიკებად და მომხმარებლის განათლებად.

სისტემისა და მოდელის შემარბილებელი ზომები

ქვემოთ დეტალურად აღვწერთ უსაფრთხოების შემარბილებელი ზომების ძირითად ფორმებს, რომლებიც მოქმედებს მანამ, სანამ მომხმარებელს მის მიერ მოთხოვნილი შედეგი ეჩვენება:

ტექსტისა და გამოსახულების მოდერაცია მულტიმოდალური მოდერაციის კლასიფიკატორით

ჩვენი გარე Moderation API-ის საფუძველში არსებული მულტიმოდალური მოდერაციის კლასიფიკატორი გამოიყენება იმ ტექსტური, გამოსახულებითი ან ვიდეო მოთხოვნების გამოსავლენად, რომლებმაც შესაძლოა დაარღვიონ ჩვენი გამოყენების პოლიტიკები, როგორც შეყვანაზე, ისე შედეგებზე. სისტემის მიერ აღმოჩენილი დამრღვევი მოთხოვნები გამოიწვევს უარყოფას. მეტი ჩვენი მულტიმოდალური მოდერაციის API-ის შესახებ აქ გაიგეთ⁠.²

მორგებული LLM ფილტრაცია

ვიდეოგენერაციის ტექნოლოგიის ერთ-ერთი უპირატესობაა ის, რომ შესაძლებელია ასინქრონული მოდერაციის შემოწმებების ჩატარება ისე, რომ საერთო მომხმარებლურ გამოცდილებას შეყოვნება არ დაემატოს. რადგან ვიდეოგენერაციას დამუშავებისთვის ბუნებრივად რამდენიმე წამი სჭირდება, დროის ეს ფანჯარა შეიძლება გამოყენებულ იქნას მაღალი სიზუსტით მიზანმიმართული მოდერაციის შემოწმებების გასაშვებად. ზოგიერთ კონკრეტულ თემაზე, მათ შორის მესამე მხარის კონტენტისა და შეცდომაში შემყვანი კონტენტის იდენტიფიცირებისთვის, მოდერაციაში მაღალი სიზუსტის მისაღწევად საკუთარი GPT მოვარგეთ.

ფილტრები მულტიმოდალურია: თითოეული LLM გამოძახების კონტექსტში შედის როგორც გამოსახულების/ვიდეოს ატვირთვები, ისე ტექსტური მოთხოვნები და შედეგები. ეს საშუალებას გვაძლევს გამოვავლინოთ დამრღვევი კომბინაციები გამოსახულებასა და ტექსტს შორის.

გამოსახულების შედეგის კლასიფიკატორები

პირდაპირ შედეგებში პოტენციურად მავნე კონტენტის აღმოსაფხვრელად, Sora იყენებს შედეგის კლასიფიკატორებს, მათ შორის სპეციალიზებულ ფილტრებს NSFW კონტენტისთვის, არასრულწლოვნებისთვის, ძალადობისთვის და მსგავსების შესაძლო ბოროტად გამოყენებისთვის. ამ კლასიფიკატორების ამოქმედების შემთხვევაში Sora-მ შეიძლება ვიდეოები დაბლოკოს მანამ, სანამ ისინი მომხმარებელს გაუზიარდება.

ბლოკლისტები

ჩვენ ვინარჩუნებთ ტექსტურ ბლოკლისტებს სხვადასხვა კატეგორიაში, რომლებიც ეყრდნობა DALL·E 2-სა და DALL·E 3-ზე ჩვენს წინა მუშაობას, რისკების პროაქტიულ აღმოჩენას და ადრეული მომხმარებლების შედეგებს.

პროდუქტის პოლიტიკები

გარდა იმ დაცვის მექანიზმებისა, რომლებიც მოდელსა და სისტემაში ჩავაშენეთ დამრღვევი კონტენტის გენერირების თავიდან ასაცილებლად, ასევე ვდგამთ დამატებით ნაბიჯებს ბოროტად გამოყენების რისკის შესამცირებლად. ამჟამად Sora-ს მხოლოდ 18 წლის ან უფროსი ასაკის მომხმარებლებს ვთავაზობთ და მოდერაციის ფილტრებს ვიყენებთ იმ კონტენტზე, რომელიც Explore და Featured არხებში ჩანს.

ჩვენ ასევე მკაფიოდ ვუზიარებთ პოლიტიკის მითითებებს პროდუქტში ჩაშენებული და საჯაროდ ხელმისაწვდომი საგანმანათლებლო მასალებით შემდეგ საკითხებზე:

სხვა ადამიანის მსგავსების გამოყენება მისი ნებართვის გარეშე და რეალური არასრულწლოვნების ასახვის აკრძალვა;
უკანონო კონტენტის ან ისეთი კონტენტის შექმნა, რომელიც ინტელექტუალური საკუთრების უფლებებს არღვევს;
აშკარა და მავნე კონტენტის გენერირება, როგორიცაა არაკონსენსუალური ინტიმური გამოსახულებები, კონტენტი, რომელიც გამოიყენება დასაშინებლად, შევიწროებისთვის ან ცილისწამებისთვის, ან კონტენტი, რომელიც ძალადობის, სიძულვილის ან სხვების ტანჯვის წახალისებას ისახავს მიზნად; და
კონტენტის შექმნა და გავრცელება, რომელიც გამოიყენება თაღლითობისთვის, მოტყუებისთვის ან სხვების შეცდომაში შესაყვანად.

ბოროტად გამოყენების ამ ფორმებიდან ზოგიერთი ჩვენი მოდელისა და სისტემის შემარბილებელი ზომებით წყდება, თუმცა სხვები უფრო კონტექსტურია — საპროტესტო სცენა შეიძლება სრულიად ლეგიტიმური შემოქმედებითი მიზნებისთვის იყოს გამოყენებული, მაგრამ იგივე სცენა, თუ რეალურ მიმდინარე მოვლენად იქნება წარმოდგენილი და სხვა მტკიცებებთან ერთად გავრცელდება, ასევე შეიძლება დეზინფორმაციად იქცეს.

Sora შექმნილია იმისთვის, რომ ადამიანებს სხვადასხვა შემოქმედებითი იდეისა და შეხედულების გამოხატვის შესაძლებლობა მისცეს. კონტექსტურად პრობლემური კონტენტის ყველა ფორმის თავიდან აცილება არც პრაქტიკულია და არც მიზანშეწონილი.

ადამიანებს ვაძლევთ შესაძლებლობას შეატყობინონ⁠ იმ Sora ვიდეოების შესახებ, რომლებიც, მათი აზრით, შეიძლება ჩვენს წესებს არღვევდეს, ამასთან ვიყენებთ ავტომატიზაციასა და ადამიანურ მიმოხილვას გამოყენების ნიმუშების აქტიური მონიტორინგისთვის. ჩამოყალიბებული გვაქვს აღსრულების მექანიზმები დამრღვევი ვიდეოების წასაშლელად და მომხმარებლების დასასანქცირებლად. როდესაც მომხმარებლები ჩვენს წესებს არღვევენ, მათ შევატყობინებთ და მივცემთ შესაძლებლობას გვითხრან, რას მიიჩნევენ სამართლიანად. ვაპირებთ, დროთა განმავლობაში ვადევნოთ თვალი ამ შემარბილებელი ზომების ეფექტიანობას და კიდევ უფრო დავხვეწოთ ისინი.

კონკრეტული რისკის სფეროები და შემარბილებელი ზომები

ზემოთ აღწერილი ზოგადი უსაფრთხოების ზომების მიღმა, ადრეულმა ტესტირებამ და ევალუაციამ გამოავლინა უსაფრთხოების განსაკუთრებული ყურადღების რამდენიმე სფერო.

ბავშვთა უსაფრთხოება

OpenAI ღრმად არის ერთგული⁠³ ბავშვთა უსაფრთხოების რისკებთან გამკლავების მიმართ, და ჩვენ პრიორიტეტს ვანიჭებთ ბავშვთა სექსუალური ძალადობის ამსახველი მასალა⁠(იხსნება ახალ ფანჯარაში) (CSAM) ტიპის კონტენტის პრევენციას, გამოვლენასა და შეტყობინებას ჩვენს ყველა პროდუქტში, მათ შორის Sora-ში. ბავშვთა უსაფრთხოების სფეროში OpenAI-ის ძალისხმევა მოიცავს ჩვენი მონაცემთა ნაკრებების პასუხისმგებლიან მოპოვებას მათი CSAM-ისგან დასაცავად, თანამშრომლობას National Center for Missing & Exploited Children (NCMEC)-თან ბავშვთა სექსუალური ძალადობის თავიდან ასაცილებლად და ბავშვების დასაცავად, Thorn-ის რეკომენდაციების შესაბამისად და სამართლებრივი შეზღუდვების დაცვით შეტევით ტესტირებას, აგრეთვე CSAM-ის მასშტაბურ სკანირებას ყველა შეყვანასა და შედეგზე. ეს მოიცავს როგორც პირველი მხარის, ისე მესამე მხარის მომხმარებლების (API და Enterprise) სკანირებას, თუ მომხმარებლები არ აკმაყოფილებენ მკაცრ კრიტერიუმებს CSAM სკანირების მოხსნისთვის. CSAM-ის გენერირების თავიდან ასაცილებლად, შევქმენით ძლიერი უსაფრთხოების სტეკი, რომელიც ეყრდნობა სისტემურ შემარბილებელ ზომებს, რომლებსაც სხვა პროდუქტებშიც ვიყენებთ, როგორიცაა ChatGPT და DALL·E⁴ , ასევე ზოგიერთ დამატებით ბერკეტს, რომლებიც სპეციალურად Sora-სთვის შევქმენით.

შეყვანის კლასიფიკატორები

ბავშვთა უსაფრთხოებისთვის ჩვენ ვიყენებთ 3 სხვადასხვა შეყვანის შემარბილებელ ზომას ტექსტის, გამოსახულებისა და ვიდეოს შეყვანაზე:

ყველა გამოსახულებისა და ვიდეოს ატვირთვისთვის ინტეგრირებული გვაქვს Thorn-ის მიერ შექმნილი Safer, რათა გამოვავლინოთ ცნობილი CSAM-თან დამთხვევები. დადასტურებული დამთხვევები უარყოფილია და NCMEC-ს ეცნობება. დამატებით, ვიყენებთ Thorn-ის CSAM კლასიფიკატორს პოტენციურად ახალი, ჯერ დაუჰეშავი CSAM კონტენტის გამოსავლენად.
ჩვენ ვიყენებთ მულტიმოდალური მოდერაციის კლასიფიკატორს, რათა აღმოვაჩინოთ და დავამოდერიროთ ნებისმიერი სექსუალური კონტენტი, რომელიც არასრულწლოვნებს ეხება, ტექსტური, ვიზუალური და ვიდეო შეყვანის საშუალებით.
Sora-სთვის შევიმუშავეთ კლასიფიკატორი, რომელიც აანალიზებს ტექსტსა და გამოსახულებებს, რათა იწინასწარმეტყველოს, არის თუ არა გამოსახული 18 წლამდე პირი ან ეხება თუ არა თანდართული წარწერა არასრულწლოვანს. ჩვენ უარვყოფთ იმ მოთხოვნებს, რომლებიც გამოსახულებიდან ვიდეოზე გადასაყვანად 18 წლამდე პირებს შეიცავს. თუ ტექსტიდან ვიდეოზე მოთხოვნა 18 წლამდე ასაკს მიეკუთვნება, სექსუალურ, ძალადობრივ ან თვითდაზიანებასთან დაკავშირებულ კონტენტზე ბევრად უფრო მკაცრ მოდერაციის ზღვრებს ვამოქმედებთ.

ქვემოთ მოცემულია ჩვენი ევალუაცია ადამიანებისთვის განკუთვნილი 18 წლამდე ასაკის კლასიფიკატორისთვის. ვაფასებთ ჩვენს კლასიფიკატორს რეალისტური 18 წლამდე პირების უარყოფისთვის მონაცემთა ნაკრებზე, რომელიც თითქმის 5000 გამოსახულებას შეიცავს [child | adult] და [realistic | fictitious] კატეგორიებში. ჩვენი პოლიტიკის პოზიციაა რეალისტური ბავშვების უარყოფა, ხოლო გამოგონილი გამოსახულებების, მათ შორის ანიმაციური, მულტფილმის ან ესკიზის სტილის, დაშვება იმ პირობით, რომ ისინი არასექსუალურია. არასრულწლოვანებთან დაკავშირებული კონტენტის მიმართ ფრთხილი მიდგომა ავირჩიეთ და გავაგრძელებთ ჩვენი მიდგომის შეფასებას, რადგან პროდუქტის გამოყენებით უფრო მეტს ვისწავლით და ვიპოვით სწორ ბალანსს შემოქმედებითი გამოხატვისა და უსაფრთხოების შორის.

ამჟამად ჩვენი კლასიფიკატორები ძალიან ზუსტია, თუმცა ზოგჯერ შეიძლება შეცდომით მონიშნოს ზრდასრული პირები ან ბავშვების არარეალისტური გამოსახულებები. გარდა ამისა, ვაღიარებთ, რომ კვლევები და არსებული ლიტერატურა მიუთითებს ასაკის პროგნოზირების მოდელებში რასობრივი მიკერძოების პოტენციალზე. მაგალითად, ამ მოდელებმა შესაძლოა სისტემატურად შეაფასონ გარკვეული რასობრივი ჯგუფების წარმომადგენელთა ასაკი რეალურზე ნაკლებად.⁵ ჩვენ ერთგულები ვართ ჩვენი კლასიფიკატორის წარმადობის გაუმჯობესების, ცრუ დადებითი შემთხვევების შემცირებისა და მომდევნო თვეებში პოტენციური მიკერძოებების უფრო ღრმა გაგების მიმართ.

	Expected outcome	n_samples	count (is_child)	count (not_child)	Evaluated metrics
Realistic Child	Classify images as “is child”	1589	1555	34	Accuracy: 97.86%
Realistic Adult	Classify images as “not child”	1370	36	1334	Accuracy: 99.28%
Fictitious Adult	Classify images as “not child”	965	7	958	Accuracy: 97.37%
Fictitious Child	Classify images as “not child”	1050	323	727	Accuracy: 69.24%
Total		4974	1921	3053	Precision: 80.95% Recall: 97.86%

Note: precision is calculated as the % of is_child classifications that are realistic children, and recall is calculated as the % of realistic child images that are classified as is_child

შედეგი

როგორც ზემოთ აღვნიშნეთ, როდესაც 18 წლამდე ასაკის კლასიფიკატორით ტექსტურ შეყვანაში არასრულწლოვანზე მითითებას ვავლენთ, შედეგზე ვამოქმედებთ მკაცრ ზღვრებს სექსუალურ, ძალადობრივ ან თვითდაზიანებასთან დაკავშირებულ კონტენტზე მოდერაციისთვის. ქვემოთ მოცემულია ორი შედეგის კლასიფიკატორი, რომელსაც ამის მისაღწევად ვიყენებთ:

მულტიმოდალური მოდერაციის კლასიფიკატორი, რომელიც ამოწმებს სახიფათო ვიდეოშედეგებს და უარყოფს მოთხოვნებს, რომლებიც განსაკუთრებით მგრძნობიარე შეიძლება იყოს
ჩვენ ასევე ვიყენებთ ჩვენს არსებულ DALL·E გამოსახულების კლასიფიკატორს ბავშვთა უსაფრთხოებასთან დაკავშირებული დარღვევების სკანირებისთვის.

ჩვენი შედეგის კლასიფიკატორები წამში 2 კადრს ამოწმებს, და როდესაც ვიდეოს სახიფათოდ მიიჩნევს, ნებისმიერ შედეგს ვბლოკავთ.

ჩვენი კლასიფიკატორებისა და ავტომატიზებული მოდერაციის გარდა, ადამიანური მიმოხილვაც გვექნება, როგორც დაცვის დამატებითი ფენა ბავშვთა უსაფრთხოების შესაძლო დარღვევების წინააღმდეგ.

პროდუქტის პოლიტიკა

ჩვენი პოლიტიკები კრძალავს Sora-ის გამოყენებას არასრულწლოვანთა მონაწილეობით სექსუალური კონტენტის გენერირებისთვის. ბავშვთა უსაფრთხოების ჩვენი პოლიტიკების დარღვევამ შეიძლება გამოიწვიოს კონტენტის წაშლა და მომხმარებლის დაბლოკვა.

სიშიშვლე და სუგესტიური კონტენტი

AI ვიდეოგენერაციის შესაძლებლობებთან დაკავშირებული ერთ-ერთი მზარდი რისკის სფეროა NSFW (Not Safe for Work) ან NCII (Non-Consensual Intimate Imagery) კონტენტის შესაძლო შექმნა. DALL·E-ის მიდგომის მსგავსად, Sora იყენებს მრავალსაფეხურიან მოდერაციის სტრატეგიას აშკარა კონტენტის დასაბლოკად. ეს მოიცავს მოთხოვნების ტრანსფორმაციებს, გამოსახულების შედეგის კლასიფიკატორებს და ბლოკლისტებს, რომლებიც ერთად ქმნის სისტემას, რომელიც ზღუდავს სუგესტიურ კონტენტს, განსაკუთრებით ასაკისთვის შესაფერისი შედეგების შემთხვევაში. ჩვენი კლასიფიკატორების ზღვრები უფრო მკაცრია გამოსახულების ატვირთვებისთვის, ვიდრე ტექსტზე დაფუძნებული მოთხოვნებისთვის.

Explore სექციაში ნაჩვენები ვიდეოები დამატებით იფილტრება უფრო მკაცრი ზღვრებით, რათა ფართო აუდიტორიისთვის შესაფერისი ნახვის გამოცდილება იყოს უზრუნველყოფილი.

ქვემოთ წარმოდგენილია ჩვენი ევალუაციების შედეგები სიშიშვლისა და სუგესტიური კონტენტის შესახებ, რომლებიც მიზნად ისახავს მრავალშრიანი შემარბილებელი ზომების ეფექტიანობის შეფასებას როგორც შეყვანებზე, ისე შედეგებზე. მიღებული მიგნებების საფუძველზე, ჩვენ გადავამუშავეთ ჩვენი ზღვრები და უფრო მკაცრი მოდერაცია გამოვიყენეთ ადამიანების შემცველი ატვირთული სურათებისთვის.

კატეგორია	*სიზუსტე (შეყვანაზე)**	*სიზუსტე (შედეგზე, ანუ E2E)**
სიშიშვლე და სუგესტიური კონტენტი	97.25%	97.59%

ევალუაციის განმარტება:

N = დამრღვევი ნიმუშების მთლიანი რაოდენობა (~200 თითო კატეგორიაში)
I = დამრღვევი ნიმუშების მთლიანი რაოდენობა, რომლებმაც შეყვანის მოდერაციის შემოწმებები გაიარეს
O = დამრღვევი ნიმუშების მთლიანი რაოდენობა, რომლებმაც შედეგის მოდერაციის შემოწმებები გაიარეს

შეყვანაზე სიზუსტე = (N - I) / N
სიზუსტე შედეგზე (E2E) = (N - O) / N

პროდუქტის პოლიტიკა

ჩვენი პოლიტიკები კრძალავს Sora-ის გამოყენებას აშკარად სექსუალური კონტენტის გენერირებისთვის, მათ შორის არაკონსენსუალური ინტიმური გამოსახულებების შესაქმნელად. ამ პოლიტიკების დარღვევამ შეიძლება გამოიწვიოს კონტენტის წაშლა და მომხმარებლის დასანქცირება.

შეცდომაში შემყვანი კონტენტი

მსგავსების ბოროტად გამოყენება და მავნე deepfake-ები

Sora-ს მოდერაციის მონიტორი მსგავსებაზე დაფუძნებული მოთხოვნებისთვის შექმნილია პოტენციურად მავნე deepfake კონტენტის აღსანიშნავად, იმ მიზნით, რომ ცნობადი ადამიანების მონაწილეობის ვიდეოები ყურადღებით გადაიხედოს. Likeness Misuse ფილტრი დამატებით აღნიშნავს მოთხოვნებს, რომლებიც ცდილობს ადამიანების პოტენციურად მავნე ან შეცდომაში შემყვანი გზით შეცვლას ან წარმოჩენას. Sora-ს ზოგადი მოთხოვნის ტრანსფორმაციები დამატებით ამცირებს რისკს, რომ Sora შექმნის კერძო პირის არასასურველ მსგავსებას ისეთ მოთხოვნაზე დაყრდნობით, რომელიც ვიღაცის სახელს შეიცავს.

შეცდომაში შემყვანი კონტენტი

Sora-ს შეყვანისა და შედეგის კლასიფიკატორები შექმნილია იმისთვის, რომ თავიდან აიცილოს არჩევნებთან დაკავშირებული შეცდომაში შემყვანი კონტენტის გენერირება, რომელიც ასახავს თაღლითურ, არაეთიკურ ან სხვაგვარად უკანონო საქმიანობას. Sora-ს ევალუაციის მეტრიკები მოიცავს კლასიფიკატორებს სტილის ან ფილტრის ტექნიკების მოსანიშნად, რომლებსაც არჩევნების კონტექსტში შეცდომაში შემყვანი ვიდეოების შექმნა შეუძლია, რითაც მცირდება რეალურ სამყაროში ბოროტად გამოყენების რისკი.

ქვემოთ მოცემულია ჩვენი შეცდომაში შემყვანი საარჩევნო კონტენტის LLM ფილტრის ევალუაციები, რომლებიც ფოკუსირებულია იმ შემთხვევების გამოვლენაზე, როცა შესაძლოა არსებობდეს სხვადასხვა ტიპის შეყვანაში (მაგ., ტექსტსა და ვიდეოში) აკრძალული კონტენტის შექმნის განზრახვა. ჩვენი სისტემა ასევე ამოწმებს შედეგი ვიდეოს წამში 1 კადრს, რათა შეაფასოს შედეგში შესაძლო დარღვევები.

კლასიფიკატორი	სრულობა	სიზუსტე	შედეგი მონიშვნისას
არჩევნებთან დაკავშირებული შეცდომაში შემყვანი კონტენტი	98.23%	88.80%	შედეგის გენერირების დაბლოკვა

N=~500, სინთეზური მონაცემების მოთხოვნების საფუძველზე

ინვესტიციები წარმოშობაში

იმის გათვალისწინებით, რომ Sora-სთან დაკავშირებული მრავალი რისკი, როგორიცაა მავნე deepfake კონტენტი, ძლიერ არის კონტექსტზე დამოკიდებული, პრიორიტეტად დავისახეთ ჩვენი წარმოშობის ხელსაწყოების გაუმჯობესება. ვაცნობიერებთ, რომ წარმოშობისთვის ერთიანი გამოსავალი არ არსებობს, თუმცა ერთგულები ვართ წარმოშობის ეკოსისტემის გაუმჯობესებისა და Sora-დან შექმნილი კონტენტისთვის კონტექსტისა და გამჭვირვალობის ჩამოყალიბებაში დახმარების მიმართ.

ზოგადი ხელმისაწვდომობისთვის, ჩვენი წარმოშობის უსაფრთხოების ხელსაწყოები მოიცავს:

C2PA მეტამონაცემებს ყველა მასალაზე (გადამოწმებადი წარმომავლობა, ინდუსტრიის სტანდარტი)
ანიმირებულ ხილულ Sora-ის წყლის ნიშნებს ნაგულისხმევად (მაყურებლისთვის გამჭვირვალობისთვის, რომ ეს არის „AI“)
შიდა reverse video search ხელსაწყოს, რათა OpenAI-ის Intelligence & Investigation გუნდის წევრებს დაეხმაროს მაღალი სანდოობით შეაფასონ, შექმნილია თუ არა კონტენტი Sora-ს მიერ

პროდუქტის პოლიტიკა

ჩვენი პოლიტიკები კრძალავს Sora-ის გამოყენებას სხვების მოსატყუებლად, დასასკამად ან შეცდომაში შესაყვანად, მათ შორის დეზინფორმაციის შექმნისა და გავრცელების გზით. ასევე კრძალავს სხვა ადამიანის მსგავსების გამოყენებას მისი ნებართვის გარეშე. ამ პოლიტიკების დარღვევამ შეიძლება გამოიწვიოს კონტენტის წაშლა და მომხმარებლის დასანქცირება.

არტისტის სტილები

როდესაც მომხმარებელი მოთხოვნაში ცოცხალი არტისტის სახელს იყენებს, მოდელმა შეიძლება შექმნას ვიდეო, რომელიც გარკვეულწილად ჰგავს ამ არტისტის ნამუშევრების სტილს. შემოქმედებაში სხვა არტისტების სტილზე დაყრდნობის ძალიან ხანგრძლივი ტრადიცია არსებობს, თუმცა გვესმის, რომ ზოგიერთ შემოქმედს შეიძლება შეშფოთება ჰქონდეს. Sora-ს ამ ვერსიასთან დაკავშირებით შევარჩიეთ ფრთხილი მიდგომა, სანამ უფრო მეტს ვისწავლით იმაზე, თუ როგორ იყენებს Sora-ს შემოქმედებითი საზოგადოება. ამის საპასუხოდ, დავამატეთ მოთხოვნების გადაწერა, რომელიც შექმნილია იმისთვის, რომ ამოქმედდეს მაშინ, როცა მომხმარებელი ცოცხალი არტისტის სტილში ვიდეოს გენერირებას ცდილობს.

ჩვენი სხვა პროდუქტების მსგავსად, Sora Editor წარდგენილი ტექსტის გადასაწერად იყენებს LLM-ს, რათა Sora-სთვის მოთხოვნების ფორმულირება უფრო ეფექტიანი გახდეს. ეს პროცესი ხელს უწყობს ჩვენი სახელმძღვანელო წესების დაცვას, მათ შორის საჯარო ფიგურების სახელების წაშლას, ადამიანების კონკრეტული მახასიათებლებით სანდო წყაროებთან დაკავშირებას და ბრენდირებული ობიექტების ზოგადი ფორმით აღწერას. ჩვენ ვინარჩუნებთ ტექსტურ ბლოკლისტებს სხვადასხვა კატეგორიაში, რომლებიც ეყრდნობა DALL·E 2-სა და DALL·E 3-ზე ჩვენს წინა მუშაობას, რისკების პროაქტიულ აღმოჩენას და შეტევითი ტესტირების მონაწილეებისა და ადრეული მომხმარებლების შედეგებს.

სამომავლო სამუშაო

OpenAI იყენებს იტერაციული დანერგვის სტრატეგიას, რათა უზრუნველყოს თავისი პროდუქტების პასუხისმგებლიანი და ეფექტიანი გაშვება. ეს მიდგომა აერთიანებს ეტაპობრივ გაშვებებს, მიმდინარე ტესტირებას და უწყვეტ მონიტორინგს მომხმარებლის უკუკავშირსა და რეალური სამყაროს მონაცემებთან, რათა დროთა განმავლობაში დავხვეწოთ და გავაუმჯობესოთ ჩვენი წარმადობა და უსაფრთხოების შემარბილებელი ზომები. ქვემოთ მოცემულია სამუშაოების სერია, რომლის შესრულებასაც Sora-ს იტერაციული დანერგვის ნაწილად ვგეგმავთ.

მსგავსების პილოტი

ნამდვილი ადამიანის ატვირთული ფოტოს ან ვიდეოს „სათესე“ მასალად გამოყენებით ვიდეოს გენერირების შესაძლებლობა პოტენციური ბოროტად გამოყენების ერთ-ერთი ვექტორია, რომლის მიმართაც განსაკუთრებით ეტაპობრივ მიდგომას ვიყენებთ, რათა გამოყენების ადრეული ნიმუშებიდან ვისწავლოთ. არტისტების ადრეული უკუკავშირი მიუთითებს, რომ ეს მათთვის ძლიერი და ღირებული შემოქმედებითი ინსტრუმენტია, თუმცა ბოროტად გამოყენების პოტენციალის გამო, თავდაპირველად მას ყველა მომხმარებლისთვის ხელმისაწვდომს არ ვხდით. ამის ნაცვლად, ჩვენი იტერაციული დანერგვის პრაქტიკის შესაბამისად, ადამიანების გამოსახულებებისა და ვიდეოების ატვირთვის შესაძლებლობა მომხმარებელთა ქვეჯგუფისთვის იქნება ხელმისაწვდომი, და ჩვენ გვექნება აქტიური, სიღრმისეული მონიტორინგი, რათა გავიგოთ მისი ღირებულება Sora-ს საზოგადოებისთვის და სწავლის პროცესში უსაფრთხოებისადმი ჩვენი მიდგომა მოვარგოთ. ამ ტესტის განმავლობაში არასრულწლოვანთა გამოსახულებების შემცველი ატვირთვები ნებადართული არ იქნება.

წარმოშობისა და გამჭვირვალობის ინიციატივები

Sora-ს მომავალი იტერაციები გააგრძელებს მიკვლევადობის გაძლიერებას reverse embedding search ხელსაწყოების კვლევისა და ისეთი გამჭვირვალობის ზომების უწყვეტი დანერგვის გზით, როგორიცაა C2PA. ჩვენ გვახარებს პოტენციური პარტნიორობების შესწავლა არასამთავრობო ორგანიზაციებთან და კვლევით ორგანიზაციებთან, რათა გავზარდოთ და გავაუმჯობესოთ წარმოშობის ეკოსისტემა და გამოვცადოთ ჩვენი შიდა reverse image ხელსაწყო Sora-სთვის.

ჩვენს შედეგებში წარმომადგენლობის გაფართოება

ჩვენ ერთგულები ვართ შედეგებში შესაძლო მიკერძოების შემცირებისადმი მოთხოვნების დახვეწის, უკუკავშირის ციკლებისა და ეფექტიანი შემარბილებელი ზომების უწყვეტი იდენტიფიცირების გზით — იმის გაცნობიერებით, რომ ზედმეტი კორექციაც შეიძლება თანაბრად საზიანო იყოს. ჩვენ ვაღიარებთ ისეთ გამოწვევებს, როგორიცაა სხეულის იმიჯთან დაკავშირებული მიკერძოება და დემოგრაფიული წარმომადგენლობა, და გავაგრძელებთ ჩვენი მიდგომის დახვეწას, რათა უზრუნველვყოთ დაბალანსებული და ინკლუზიური შედეგები.

უსაფრთხოების, პოლიტიკისა და ეთიკური შესაბამისობის გაგრძელება

OpenAI გეგმავს Sora-ს უწყვეტი შეფასებების გაგრძელებას და დამატებით ძალისხმევას, რათა კიდევ უფრო გააუმჯობესოს Sora-ს შესაბამისობა OpenAI-ის პოლიტიკებთან და უსაფრთხოების სტანდარტებთან. დაგეგმილია დამატებითი გაუმჯობესებები ისეთ სფეროებში, როგორიცაა მსგავსების უსაფრთხოება და შეცდომაში შემყვანი კონტენტი, განვითარებადი საუკეთესო პრაქტიკებისა და მომხმარებელთა უკუკავშირის გათვალისწინებით.

მადლობები

მადლობას ვუხდით OpenAI-ის ყველა შიდა გუნდს, მათ შორის Comms, Comms Design, გლობალური ურთიერთობები, Integrity, Intel & Investigations, Legal, Product Policy, Safety Systems და User Ops, რომელთა მხარდაჭერაც გადამწყვეტი იყო Sora-ს უსაფრთხოების შემარბილებელი ზომების შემუშავებასა და დანერგვაში, ასევე ამ სისტემური ბარათის შექმნაში შეტანილი წვლილისთვის.

მადლიერნი ვართ ჩვენი Alpha არტისტების ჯგუფისა და ჩვენი ექსპერტი შეტევითი ტესტირების მონაწილეების, რომლებმაც მოგვაწოდეს უკუკავშირი, დაგვეხმარნენ ჩვენი მოდელების განვითარების ადრეულ ეტაპებზე ტესტირებაში და გავლენა მოახდინეს ჩვენი რისკების შეფასებებსა და ევალუაციებზე. ტესტირების პროცესში მონაწილეობა არ ნიშნავს OpenAI-ის დანერგვის გეგმების ან OpenAI-ის პოლიტიკის მხარდაჭერას.

შეტევითი ტესტირების მონაწილეები (ანბანური თანმიმდევრობით): Alexandra García Pérez, Arjun Singh Puri, Caroline Friedman Levy, Dani Madrid-Morales, Emily Lynell Edwards, Grant Brailsford, Herman Wasserman, Javier García Arredondo, Kate Turetsky, Kelly Bare, Matt Groh, Maximilian Müller, Naomi Hart, Nathan Heath, Patrick Caughey, Per Wikman Svahn, Rafael González-Vázquez, Sara Kingsley, Shelby Grossman, Vincent Nestler
შეტევითი ტესტირების ორგანიზაციები: ScaleAI

ავტორები

OpenAI

მითითებები

1
OpenAI. ვიდეოგენერაციის მოდელები როგორც სამყაროს სიმულატორები.⁠
2
OpenAI. (n.d.). Moderation API-ის განახლება ჩვენი ახალი მულტიმოდალური მოდერაციის მოდელით⁠. 2024
3
OpenAI. (n.d.). ბავშვთა უსაფრთხოება: SBD პრინციპების მიღება⁠. OpenAI. ამოღებულია 2024 წლის 6 დეკემბერს
4
OpenAI. DALL·E 3 სისტემური ბარათი⁠. 2023.
5
Panić, N., Marjanović, M., & Bezdan, T. (2024). ასაკის შეფასების მოდელებში დემოგრაფიული მიკერძოების აღმოფხვრა მონაცემთა ნაკრების ოპტიმიზებული შემადგენლობის მეშვეობით⁠(იხსნება ახალ ფანჯარაში). Mathematics, 12(15), 2358.