Vai al contenuto principale
OpenAI

Tutti i video presenti in questa pagina sono stati generati direttamente da Sora senza modifiche.

Caricamento in corso...

Stiamo insegnando all’IA a comprendere e simulare il mondo fisico in movimento, con l’obiettivo di addestrare modelli che aiutino le persone a risolvere problemi che richiedono un’interazione con il mondo reale.

Ti presentiamo Sora, il nostro modello di creazione di video da testo. Sora può generare video fino a un minuto di durata, mantenendo la qualità visiva e la coerenza con il prompt fornito dall’utente.

Oggi Sora è disponibile per i red teamer per valutare aree critiche alla ricerca di danni o rischi. Stiamo inoltre dando accesso a un numero selezionato di artisti visivi, designer e filmmaker per raccogliere feedback su come migliorare il modello e renderlo il più utile possibile per i professionisti creativi.

Stiamo condividendo in anticipo i progressi della nostra ricerca per iniziare a collaborare e ricevere feedback da persone esterne a OpenAI, oltre a dare al pubblico un’idea delle potenzialità dell’IA che si profilano all’orizzonte.

Sora è in grado di generare scene complesse con più personaggi, tipi di movimento specifici e dettagli accurati del soggetto e dello sfondo. Il modello comprende non solo ciò che l’utente ha richiesto nel prompt, ma anche come questi elementi esistono nel mondo fisico.

Il modello possiede una profonda comprensione del linguaggio, che gli consente di interpretare con precisione i prompt e generare personaggi coinvolgenti che esprimono emozioni vivide. Sora può anche creare più inquadrature all’interno di un singolo video generato, mantenendo fedelmente i personaggi e lo stile visivo.

Il modello attuale presenta ancora margini di miglioramento. Potrebbe avere difficoltà a simulare la fisica di una scena complessa e potrebbe non comprendere istanze specifiche di causa-effetto (ad esempio, un biscotto potrebbe non mostrare alcun segno dopo che un personaggio lo ha morso). Il modello potrebbe anche confondere i dettagli spaziali inclusi in un prompt, ad esempio non distinguendo la sinistra dalla destra, o avere difficoltà con descrizioni precise di eventi che si svolgono nel tempo, come specifiche traiettorie di una telecamera.

Safety

Adotteremo diverse e importanti misure di sicurezza prima di rendere Sora disponibile nei prodotti OpenAI. Stiamo collaborando con red teamer, esperti in settori come disinformazione, contenuti d’odio e pregiudizi, che testeranno il modello in modo antagonistico.

Stiamo anche sviluppando strumenti per rilevare contenuti fuorvianti, come un classificatore in grado di stabilire quando un video è stato generato da Sora. Prevediamo di includere metadati C2PA(si apre in una nuova finestra) in futuro, se il modello verrà implementato in un prodotto OpenAI.

Oltre a sviluppare nuove tecniche per prepararci all’implementazione, stiamo sfruttando i metodi di sicurezza esistenti(si apre in una nuova finestra) che abbiamo sviluppato per i nostri prodotti basati su DALL·E 3, applicabili anche a Sora.

Ad esempio, una volta integrato in un prodotto OpenAI, il nostro classificatore testuale controllerà e rifiuterà i prompt di testo che violano le nostre politiche di utilizzo, come richieste di violenza estrema, contenuti sessuali, immagini d’odio, immagini di celebrità o proprietà intellettuali di terzi. Abbiamo inoltre sviluppato solidi classificatori di immagini che esaminano i fotogrammi di ogni video generato, per garantire che rispettino le nostre politiche di utilizzo prima di essere mostrati all’utente.

Coinvolgeremo decisori politici, educatori e artisti di tutto il mondo per comprendere le loro preoccupazioni e identificare casi d’uso positivi per questa nuova tecnologia. Nonostante ricerche e test approfonditi, non possiamo prevedere tutti i modi vantaggiosi in cui le persone utilizzeranno la nostra tecnologia, né tutti i modi in cui ne abuseranno. Per questo riteniamo che imparare dall’uso nel mondo reale sia un elemento cruciale per creare e distribuire nel tempo sistemi di IA sempre più sicuri.

Tecniche di ricerca

Sora è un modello di diffusione, che genera un video partendo da uno che sembra rumore statico e lo trasforma gradualmente rimuovendo il rumore attraverso vari passaggi.

Sora è in grado di generare interi video in una sola volta o di estendere i video generati per renderli più lunghi. Fornendo al modello la visione anticipata di molti fotogrammi alla volta, abbiamo risolto una sfida importante: mantenere la coerenza del soggetto anche quando esce temporaneamente dal campo visivo.

Similmente ai modelli GPT, Sora utilizza un’architettura transformer, che consente prestazioni di scalabilità superiori.

Rappresentiamo video e immagini come raccolte di unità di dati più piccole chiamate patch, ognuna delle quali è simile a un token nei modelli GPT. Unificando il modo in cui rappresentiamo i dati, possiamo addestrare i transformer di distribuzione su una gamma più ampia di dati visivi rispetto a prima, coprendo diverse durate, risoluzioni e proporzioni.

Sora si basa su ricerche precedenti sui modelli DALL·E e GPT. Utilizza la tecnica di recaptioning di DALL·E 3, che prevede la generazione di didascalie altamente descrittive per i dati visivi usati durante l’addestramento. Di conseguenza, il modello è in grado di seguire più fedelmente le istruzioni testuali fornite dall’utente nel video generato.

Oltre a poter generare un video esclusivamente a partire da istruzioni testuali, il modello è in grado di acquisire un’immagine statica esistente e di generare un video a partire da essa, animandone il contenuto con precisione e attenzione ai minimi dettagli. Il modello può anche acquisire un video esistente ed estenderlo o riempire i fotogrammi mancanti. Scopri di più nel nostro report tecnico.

Sora funge da base per modelli in grado di comprendere e simulare il mondo reale, una capacità che riteniamo sarà una tappa fondamentale per il raggiungimento dell’AGI.

Caricamento in corso…