გადადით მთავარ შინაარსზე
OpenAI

ამ გვერდზე არსებული ყველა ვიდეო პირდაპირ Sora-მ, ცვლილებების გარეშე, გენერირებულია.

იტვირთება…

ჩვენ AI-ს ვასწავლით მოძრაობაში მყოფი ფიზიკური სამყაროს გაგებასა და სიმულაციას, იმ მიზნით, რომ გავწვრთნათ მოდელები, რომლებიც ადამიანებს დაეხმარება ისეთი პრობლემების გადაჭრაში, რომლებიც რეალურ სამყაროსთან ინტერაქციას მოითხოვს.

გაიცანით Sora, ჩვენი text-to-video მოდელი. Sora-ს შეუძლია ერთ წუთამდე ხანგრძლივობის ვიდეოების გენერირება, ვიზუალური ხარისხისა და მომხმარებლის მოთხოვნისადმი შესაბამისობის შენარჩუნებით.

დღეს Sora ხელმისაწვდომი ხდება red teamer-ებისთვის, რათა მათ ზიანისა და რისკების კრიტიკული მიმართულებები შეაფასონ. ჩვენ ასევე წვდომას ვაძლევთ ვიზუალურ ხელოვანებს, დიზაინერებსა და კინემატოგრაფისტებს, რათა მივიღოთ უკუკავშირი, როგორ განვავითაროთ მოდელი ისე, რომ ის შემოქმედებითი პროფესიონალებისთვის მაქსიმალურად სასარგებლო იყოს.

ჩვენ ადრეულ ეტაპზევე ვაზიარებთ ჩვენი კვლევის პროგრესს, რათა OpenAI-ის გარეთ მყოფ ადამიანებთან ერთად დავიწყოთ მუშაობა და მივიღოთ უკუკავშირი, ასევე საზოგადოებას შევუქმნათ წარმოდგენა, თუ AI-ის რა შესაძლებლობები ჩანს ჰორიზონტზე.

Sora-ს შეუძლია მრავალი პერსონაჟით, მოძრაობის კონკრეტული ტიპებით და ობიექტისა თუ ფონის ზუსტი დეტალებით რთული სცენების გენერირება. მოდელს ესმის არა მხოლოდ ის, რას სთხოვს მომხმარებელი მოთხოვნაში, არამედ ისიც, თუ როგორ არსებობს ეს ყველაფერი ფიზიკურ სამყაროში.

მოდელს ენის ღრმა გაგება აქვს, რაც საშუალებას აძლევს ზუსტად განმარტოს მოთხოვნები და შექმნას დამაჯერებელი პერსონაჟები, რომლებიც ცოცხალ ემოციებს გამოხატავენ. Sora-ს ასევე შეუძლია ერთ გენერირებულ ვიდეოში რამდენიმე კადრის შექმნა ისე, რომ პერსონაჟები და ვიზუალური სტილი ზუსტად შენარჩუნდეს.

მიმდინარე მოდელს ჯერ კიდევ აქვს გაუმჯობესების სივრცე. მას შეიძლება გაუჭირდეს რთული სცენის ფიზიკის სიმულაცია და შეიძლება ვერ გაიგოს მიზეზ-შედეგობრივი კავშირის კონკრეტული შემთხვევები (მაგალითად: პერსონაჟის კბენის შემდეგ ნამცხვარზე კვალი შეიძლება არ გამოჩნდეს). მოდელმა ასევე შეიძლება აურიოს მოთხოვნაში მოცემული სივრცითი დეტალები, მაგალითად, მარცხენისა და მარჯვენის გარჩევა, ან გაუჭირდეს დროში unfolding მოვლენების ზუსტი აღწერები, როგორიცაა კამერის კონკრეტული ტრაექტორიები.

უსაფრთხოება

Sora-ს OpenAI-ის პროდუქტებში ხელმისაწვდომობამდე უსაფრთხოების რამდენიმე მნიშვნელოვან ნაბიჯს გადავდგამთ. ჩვენ ვმუშაობთ red teamer-ებთან — დარგის ექსპერტებთან ისეთ სფეროებში, როგორიცაა დეზინფორმაცია, სიძულვილის შემცველი კონტენტი და მიკერძოება — რომლებიც მოდელს ადვერსარიულად შეამოწმებენ.

ასევე ვქმნით ინსტრუმენტებს შეცდომაში შემყვანი კონტენტის გამოსავლენად, მაგალითად, აღმოჩენის კლასიფიკატორს, რომელსაც შეუძლია განსაზღვროს, იყო თუ არა ვიდეო Sora-ს მიერ გენერირებული. თუ მოდელს OpenAI-ის პროდუქტში დავნერგავთ, მომავალში ვგეგმავთ C2PA მეტამონაცემების(იხსნება ახალ ფანჯარაში) დამატებას.

გარდა იმისა, რომ დანერგვისთვის მოსამზადებლად ახალ ტექნიკებს ვამუშავებთ, ასევე ვიყენებთ არსებულ უსაფრთხოების მეთოდებს(იხსნება ახალ ფანჯარაში), რომლებიც შევქმენით ჩვენი იმ პროდუქტებისთვის, რომლებიც DALL·E 3-ს იყენებს და რომლებიც Sora-სთვისაც გამოსადეგია.

მაგალითად, OpenAI-ის პროდუქტში მოხვედრის შემდეგ, ჩვენი ტექსტის კლასიფიკატორი შეამოწმებს და უარყოფს ტექსტურ მოთხოვნებს, რომლებიც ეწინააღმდეგება ჩვენი გამოყენების პოლიტიკას, მაგალითად ისეთებს, რომლებიც უკიდურეს ძალადობას, სექსუალურ კონტენტს, სიძულვილის ამსახველ ვიზუალს, ცნობილების მსგავსებას ან სხვების ინტელექტუალურ საკუთრებას ითხოვს. ასევე შევქმენით ძლიერი გამოსახულების კლასიფიკატორები, რომლებიც ყველა გენერირებული ვიდეოს კადრებს ამოწმებს, რათა მომხმარებლისთვის ჩვენებამდე დარწმუნდეთ, რომ ის ჩვენი გამოყენების პოლიტიკას შეესაბამება.

ჩვენ მთელ მსოფლიოში ჩავერთვებით პოლიტიკის შემქმნელებთან, მასწავლებლებთან და ხელოვანებთან, რათა გავიგოთ მათი შეშფოთებები და ამ ახალი ტექნოლოგიის პოზიტიური გამოყენების შემთხვევები გამოვავლინოთ. მიუხედავად ფართო კვლევისა და ტესტირებისა, ვერ ვიწინასწარმეტყველებთ ვერც ყველა სასარგებლო გზას, რომლითაც ადამიანები ჩვენს ტექნოლოგიას გამოიყენებენ, და ვერც ყველა გზას, რომლითაც მას ბოროტად გამოიყენებენ. ამიტომ გვჯერა, რომ რეალურ სამყაროში გამოყენებიდან სწავლა დროთა განმავლობაში უფრო უსაფრთხო AI სისტემების შექმნისა და გამოშვების კრიტიკულად მნიშვნელოვანი ნაწილია.

Research techniques

Sora არის დიფუზიური მოდელი, რომელიც ვიდეოს ქმნის იმით, რომ იწყებს სტატიკური ხმაურის მსგავს გამოსახულებას და შემდეგ, მრავალ ნაბიჯში ხმაურის მოცილებით, თანდათან გარდაქმნის მას.

Sora-ს შეუძლია როგორც მთელი ვიდეოს ერთიანად გენერირება, ისე გენერირებული ვიდეოების გაგრძელება, რათა ისინი უფრო გრძელი გახდეს. იმით, რომ მოდელს ერთდროულად მრავალი კადრის „წინასწარ ხედვას“ ვაძლევთ, გადავჭერით რთული პრობლემა — როგორ შევინარჩუნოთ ობიექტი უცვლელი მაშინაც კი, როცა ის დროებით კადრიდან ქრება.

GPT მოდელების მსგავსად, Sora იყენებს ტრანსფორმერის არქიტექტურას, რაც მას უკეთეს მასშტაბირებადობას აძლევს.

ვიდეოებსა და სურათებს წარმოვადგენთ მონაცემების მცირე ერთეულების კრებულებად, რომლებსაც patches ეწოდება, და თითოეული მათგანი GPT‑ში token-ის მსგავსია. მონაცემების წარმოდგენის გაერთიანებით, შეგვიძლია დიფუზიური ტრანსფორმერი ვიზუალური მონაცემების ბევრად უფრო ფართო სპექტრზე ვავარჯიშოთ, ვიდრე ადრე იყო შესაძლებელი — სხვადასხვა ხანგრძლივობის, გარჩევადობისა და ასპექტის თანაფარდობის მონაცემებზე.

Sora ეყრდნობა DALL·E-სა და GPT მოდელებზე ჩატარებულ წინა კვლევებს. ის იყენებს DALL·E 3-ის recaptioning ტექნიკას, რაც ვიზუალური სასწავლო მონაცემებისთვის ძალიან აღწერითი წარწერების გენერირებას გულისხმობს. შედეგად, მოდელს უკეთ შეუძლია გენერირებულ ვიდეოში მომხმარებლის ტექსტურ ინსტრუქციებს ზუსტად მიჰყვეს.

გარდა იმისა, რომ მოდელს შეუძლია ვიდეო მხოლოდ ტექსტური ინსტრუქციებიდან შექმნას, მას არსებული სტატიკური სურათის მიღებაც შეუძლია და მისგან ვიდეოს გენერირებაც, გამოსახულების შიგთავსის ზუსტად და მცირე დეტალებისადმი ყურადღებით ანიმირებით. მოდელს ასევე შეუძლია არსებული ვიდეოს გაგრძელება ან გამოტოვებული კადრების შევსება. გაიგეთ მეტი ჩვენს ტექნიკურ ანგარიშში.

Sora საფუძველს ქმნის ისეთი მოდელებისთვის, რომლებსაც რეალური სამყაროს გაგება და სიმულაცია შეუძლიათ — შესაძლებლობა, რომელიც, ჩვენი აზრით, AGI-ის მიღწევის მნიშვნელოვანი ეტაპი იქნება.

იტვირთება...