Μετάβαση στο κύριο περιεχόμενο
OpenAI

Δημιουργία βίντεο από κείμενο

Όλα τα βίντεο αυτής της σελίδας δημιουργήθηκαν απευθείας από το Sora και δεν έχουν υποστεί καμία τροποποίηση.

Φόρτωση…

We’re teaching AI to understand and simulate the physical world in motion, with the goal of training models that help people solve problems that require real-world interaction.

Introducing Sora, our text-to-video model. Sora can generate videos up to a minute long while maintaining visual quality and adherence to the user’s prompt.

Σήμερα, το Sora διατίθεται σε συνεργάτες που θα εκτελέσουν αντιπαραθετικό έλεγχο ασφαλείας (red teaming), οι οποίοι θα αξιολογήσουν κρίσιμα σημεία για ενδεχόμενα προβλήματα ή κινδύνους. Παρέχουμε επίσης πρόσβαση σε μια σειρά εικαστικών, σχεδιαστών και κινηματογραφιστών, προκειμένου να ακούσουμε τα σχόλιά τους σχετικά με το πώς μπορούμε να βελτιώσουμε το μοντέλο ώστε να είναι πιο χρήσιμο για τους επαγγελματίες του δημιουργικού χώρου.

Δίνουμε τη δυνατότητα να έρθει κανείς σε επαφή με το μοντέλο από νωρίς, ώστε να αρχίσουμε να συνεργαζόμαστε και να λαμβάνουμε σχόλια από άτομα εκτός της OpenAI, προκειμένου να ενημερώσουμε την κοινή γνώμη σχετικά με τις επερχόμενες δυνατότητες της ΤΝ.

Το Sora μπορεί να δημιουργήσει σύνθετες σκηνές με πολλούς χαρακτήρες, συγκεκριμένους τύπους κίνησης και ακριβείς λεπτομέρειες του θέματος και του φόντου. Το μοντέλο κατανοεί όχι μόνο τι έχει ζητήσει ο χρήστης στην προτροπή, αλλά και πώς το κάθε αντικείμενο τοποθετείται στον φυσικό κόσμο.

Το μοντέλο κατανοεί εις βάθος τη γλώσσα, γεγονός που του επιτρέπει να ερμηνεύει με ακρίβεια τις προτροπές και να δημιουργεί συναρπαστικούς χαρακτήρες που εκφράζουν ζωντανά συναισθήματα. Το Sora μπορεί επίσης να δημιουργήσει πολλαπλές λήψεις σε ένα μόνο παραγόμενο βίντεο που διατηρούν με ακρίβεια τους χαρακτήρες και το οπτικό στιλ.

The current model still has room for improvement. It may struggle to simulate the physics of a complex scene, and may not comprehend specific instances of cause and effect (for example: a cookie might not show a mark after a character bites it). The model may also confuse spatial details included in a prompt, such as discerning left from right, or struggle with precise descriptions of events that unfold over time, like specific camera trajectories.

Ασφάλεια

Θα λάβουμε μια σειρά από σημαντικά μέτρα ασφαλείας προτού διαθέσουμε το Sora στα προϊόντα της OpenAI. Έχουμε συνεργάτες που εκτελούν αντιπαραθετικούς ελέγχους ασφαλείας (red teaming) —ειδικούς σε τομείς όπως η παραπληροφόρηση, το επιβλαβές περιεχόμενο και η μεροληψία—, οι οποίοι θα τεστάρουν το μοντέλο σε συνθήκες αντιπαράθεσης.

Παράλληλα, δημιουργούμε εργαλεία για την ανίχνευση παραπλανητικού περιεχομένου, όπως ένα εργαλείο ταξινόμησης που μπορεί να εντοπίζει πότε ένα βίντεο δημιουργήθηκε από το Sora. Στο μέλλον, σχεδιάζουμε να συμπεριλάβουμε μεταδεδομένα C2PA(ανοίγει σε νέο παράθυρο), εφόσον διαθέσουμε το μοντέλο σε προϊόν της OpenAI.

Εκτός από τις νέες τεχνικές που αναπτύσσουμε ενόψει της διάθεσης του προϊόντος, αξιοποιούμε και τις υφιστάμενες μεθόδους ασφαλείας(ανοίγει σε νέο παράθυρο) που έχουμε δημιουργήσει για τα προϊόντα μας που χρησιμοποιούν το DALL·E 3, οι οποίες εφαρμόζονται και στο Sora.

Για παράδειγμα, όταν ενταχθεί σε προϊόν της OpenAI, το εργαλείο ταξινόμησης κειμένου θα ελέγχει και θα απορρίπτει προτροπές εισαγωγής που παραβιάζουν τις πολιτικές χρήσης μας, όπως εκείνες που αφορούν σε ακραία βία, σεξουαλικό περιεχόμενο, επιβλαβείς εικόνες, ομοιότητα με διασημότητες ή πνευματική ιδιοκτησία τρίτων. Έχουμε επίσης αναπτύξει ισχυρά εργαλεία ταξινόμησης εικόνων που χρησιμοποιούνται για τον έλεγχο των καρέ κάθε βίντεο που δημιουργείται, ώστε να διασφαλίζεται ότι το κάθε βίντεο συμμορφώνεται με τις πολιτικές χρήσης μας πριν εμφανιστεί στον χρήστη.

Θα συνεργαστούμε με φορείς χάραξης πολιτικής, εκπαιδευτικούς και καλλιτέχνες από όλον τον κόσμο, ώστε να κατανοήσουμε τους προβληματισμούς τους και να εντοπίσουμε θετικά σενάρια χρήσης για αυτήν τη νέα τεχνολογία. Παρά την εκτεταμένη έρευνα και τις δοκιμές, δεν είναι δυνατό να προβλέψουμε όλες τις ωφέλιμες χρήσεις της τεχνολογίας μας, ούτε όλους τους τρόπους με τους οποίους μπορεί να γίνει κατάχρησή της. Για αυτό θεωρούμε ότι η εκμάθηση από την πραγματική χρήση αποτελεί κρίσιμο στοιχείο για τη δημιουργία και τη διάθεση ολοένα ασφαλέστερων συστημάτων ΤΝ με την πάροδο του χρόνου.

Research techniques

Το Sora είναι ένα μοντέλο διάχυσης, το οποίο δημιουργεί ένα βίντεο ξεκινώντας από κάτι που μοιάζει με στατικό θόρυβο και μεταμορφώνοντάς το σταδιακά, αφαιρώντας τον θόρυβο σε πολλά βήματα.

Το Sora μπορεί να δημιουργεί ολόκληρα βίντεο μονομιάς ή να επεκτείνει βίντεο που έχουν ήδη δημιουργηθεί ώστε να γίνουν μεγαλύτερα. Δίνοντας στο μοντέλο τη δυνατότητα να «βλέπει μπροστά» πολλά καρέ ταυτόχρονα, επιλύσαμε το δύσκολο πρόβλημα της σταθερότητας του θέματος, ακόμη κι όταν αυτό βγαίνει προσωρινά εκτός κάδρου.

Όπως και τα μοντέλα GPT, το Sora χρησιμοποιεί αρχιτεκτονική μετασχηματιστή, προσφέροντας ανώτερη απόδοση σε μεγάλης κλίμακας συστήματα.

Αντιμετωπίζουμε τα βίντεο και τις εικόνες ως συλλογές μικρότερων μονάδων δεδομένων που ονομάζονται «patches», καθεμία από τις οποίες λειτουργεί παρόμοια με ένα token στα GPT. Ενοποιώντας τον τρόπο με τον οποίο αναπαριστούμε τα δεδομένα, μπορούμε να εκπαιδεύουμε μετασχηματιστές διάχυσης σε πολύ ευρύτερο φάσμα οπτικών δεδομένων από ό,τι ήταν δυνατό παλαιότερα, καλύπτοντας διαφορετικές διάρκειες, αναλύσεις και λόγους διαστάσεων.

Το Sora βασίζεται σε προηγούμενη έρευνα για τα μοντέλα DALL·E και GPT. Χρησιμοποιεί την τεχνική recaptioning του DALL·E 3, η οποία περιλαμβάνει τη δημιουργία εξαιρετικά περιγραφικών υποτίτλων για τα οπτικά δεδομένα εκπαίδευσης. Κατά συνέπεια, το μοντέλο μπορεί να ακολουθεί πιο πιστά τις οδηγίες κειμένου στις παραγόμενες σκηνές βίντεο.

Εκτός από τη δυνατότητα δημιουργίας βίντεο αποκλειστικά από οδηγίες κειμένου, το μοντέλο μπορεί να δημιουργήσει από μια υφιστάμενη στατική εικόνα ένα βίντεο, ζωντανεύοντας το περιεχόμενο της εικόνας με ακρίβεια και προσοχή στη λεπτομέρεια. Το μοντέλο μπορεί επίσης να επεκτείνει ένα υπάρχον βίντεο ή να συμπληρώσει καρέ που λείπουν. Μπορείτε να μάθετε περισσότερα στην τεχνική αναφορά μας.

Το Sora λειτουργεί ως βάση για μοντέλα που μπορούν να κατανοούν και να προσομοιώνουν τον πραγματικό κόσμο, μια ικανότητα που θεωρούμε ότι θα αποτελέσει σημαντικό ορόσημο για την επίτευξη της Τεχνητής Γενικής Νοημοσύνης (AGI).

Φόρτωση...