Salta al contingut principal
OpenAI

Crear vídeo a partir de text

Tots els vídeos d'aquesta pàgina han estat generats directament per Sora sense modificacions.

S'està carregant…

Estem ensenyant a la IA a entendre i simular el món físic en moviment, amb l'objectiu d'entrenar models que ajudin les persones a resoldre problemes que requereixen interacció amb el món real.

Presentem Sora, el nostre model de text a vídeo. Sora pot generar vídeos de fins a un minut de durada mantenint la qualitat visual i la fidelitat a la indicació de l'usuari.

Avui, Sora comença a estar disponible per a equips red team per avaluar àrees crítiques de danys o riscos. També estem concedint accés a diversos artistes visuals, dissenyadors i cineastes per obtenir comentaris sobre com avançar el model perquè sigui el més útil possible per als professionals creatius.

Compartim el progrés de la nostra recerca aviat per començar a treballar amb persones de fora d'OpenAI i rebre'n comentaris, i per donar al públic una idea de les capacitats de la IA que s'entreveuen a l'horitzó.

Sora és capaç de generar escenes complexes amb múltiples personatges, tipus específics de moviment i detalls precisos del subjecte i del fons. El model entén no només el que l'usuari ha demanat a la indicació, sinó també com aquestes coses existeixen en el món físic.

El model té una comprensió profunda del llenguatge, cosa que li permet interpretar indicacions amb precisió i generar personatges atractius que expressen emocions vives. Sora també pot crear múltiples plans dins d'un únic vídeo generat mantenint amb precisió els personatges i l'estil visual.

El model actual encara té marge de millora. Pot tenir dificultats per simular la física d'una escena complexa i pot no comprendre instàncies específiques de causa i efecte (per exemple: una galeta potser no mostrarà cap marca després que un personatge la mossegui). El model també pot confondre detalls espacials inclosos en una indicació, com distingir l'esquerra de la dreta, o tenir dificultats amb descripcions precises d'esdeveniments que es desenvolupen al llarg del temps, com trajectòries específiques de càmera.

Seguretat

Adoptarem diverses mesures de seguretat importants abans de posar Sora a disposició dins dels productes d'OpenAI. Estem treballant amb equips red team —experts en àrees com la desinformació, el contingut d'odi i els biaixos— que provaran el model de manera adversarial.

També estem construint eines per ajudar a detectar contingut enganyós, com ara un classificador de detecció que pot indicar quan un vídeo ha estat generat per Sora. Tenim previst incloure metadades C2PA(s'obre en una finestra nova) en el futur si despleguem el model en un producte d'OpenAI.

A més de desenvolupar noves tècniques per preparar el desplegament, estem aprofitant els mètodes de seguretat existents(s'obre en una finestra nova) que hem creat per als nostres productes que utilitzen DALL·E 3, i que també són aplicables a Sora.

Per exemple, un cop dins d'un producte d'OpenAI, el nostre classificador de text comprovarà i rebutjarà les indicacions de text d'entrada que infringeixin les nostres polítiques d'ús, com ara les que demanin violència extrema, contingut sexual, imatges d'odi, semblances de celebritats o la PI d'altres persones. També hem desenvolupat classificadors d'imatge robustos que s'utilitzen per revisar els fotogrames de cada vídeo generat i ajudar a garantir que compleixi les nostres polítiques d'ús abans de mostrar-lo a l'usuari.

Col·laborarem amb responsables polítics, educadors i artistes d'arreu del món per entendre les seves preocupacions i identificar casos d'ús positius d'aquesta nova tecnologia. Malgrat una recerca i unes proves exhaustives, no podem predir totes les maneres beneficioses com la gent utilitzarà la nostra tecnologia, ni totes les maneres com se'n farà un mal ús. Per això creiem que aprendre de l'ús en el món real és un component crític per crear i llançar sistemes d'IA cada vegada més segurs amb el pas del temps.

Research techniques

Sora és un model de difusió que genera un vídeo començant per un que sembla soroll estàtic i el transforma gradualment eliminant el soroll al llarg de molts passos.

Sora és capaç de generar vídeos sencers de cop o d'allargar vídeos generats perquè siguin més llargs. Donant al model previsió de molts fotogrames alhora, hem resolt un problema difícil: assegurar-nos que un subjecte es mantingui igual fins i tot quan surt temporalment del camp de visió.

De manera similar als models GPT, Sora utilitza una arquitectura del transformador, cosa que permet un rendiment d'escalat superior.

Representem vídeos i imatges com a col·leccions d'unitats de dades més petites anomenades pedaços, cadascuna de les quals és semblant a un segment en GPT. En unificar la manera com representem les dades, podem entrenar transformadors de difusió amb una gamma més àmplia de dades visuals que abans, abastant diferents durades, resolucions i relacions d'aspecte.

Sora es basa en recerques anteriors de DALL·E i dels models GPT. Utilitza la tècnica de recaptioning de DALL·E 3, que consisteix a generar subtítols altament descriptius per a les dades visuals d'entrenament. Com a resultat, el model és capaç de seguir més fidelment les instruccions de text de l'usuari en el vídeo generat.

A més de poder generar un vídeo únicament a partir d'instruccions de text, el model pot prendre una imatge fixa existent i generar-ne un vídeo, animant-ne el contingut amb precisió i atenció als petits detalls. El model també pot prendre un vídeo existent i ampliar-lo o omplir fotogrames que falten. Més informació al nostre informe tècnic.

Sora serveix de base per a models que poden entendre i simular el món real, una capacitat que creiem que serà una fita important per assolir l'AGI.

S'està carregant...