Sari la conținutul principal
OpenAI

Crearea unui videoclip din text

Toate videoclipurile de pe această pagină au fost generate direct de Sora, fără modificări.

Se încarcă…

Învățăm AI să înțeleagă și să simuleze lumea fizică în mișcare, cu scopul de a instrui modele care ajută oamenii să rezolve probleme ce necesită interacțiune în lumea reală.

Îți prezentăm Sora, modelul nostru text-video. Sora poate genera videoclipuri de până la un minut, menținând calitatea vizuală și respectând solicitarea utilizatorului.

Astăzi, Sora devine disponibil pentru red teamers pentru a evalua zonele critice în ceea ce privește prejudiciile sau riscurile. De asemenea, oferim acces mai multor artiști vizuali, designeri și cineaști pentru a obține feedback despre cum să îmbunătățim modelul astfel încât să fie cât mai util pentru profesioniștii creativi.

Împărtășim devreme progresul cercetării noastre pentru a începe să colaborăm și să primim feedback de la persoane din afara OpenAI și pentru a oferi publicului o idee despre ce capacități AI se află la orizont.

Sora poate genera scene complexe cu caractere multiple, tipuri specifice de mișcare și detalii precise ale subiectului și fundalului. Modelul înțelege nu doar ce a solicitat utilizatorul în prompt, ci și cum există acele lucruri în lumea fizică.

Modelul are o înțelegere profundă a limbajului, permițându-i să interpreteze cu precizie solicitările și să genereze caractere captivante care exprimă emoții vii. Sora poate crea, de asemenea, mai multe cadre într-un singur videoclip generat care mențin cu precizie caracterele și stilul vizual.

Modelul actual mai are loc de îmbunătățire. Ar putea avea dificultăți în a simula fizica unei scene complexe și s-ar putea să nu înțeleagă cazuri specifice de cauză și efect (de exemplu: un caracter ar putea să nu prezinte un semn după ce un personaj îl mușcă). Modelul poate, de asemenea, să confunde detaliile spațiale incluse într-o solicitare, cum ar fi diferențierea între stânga și dreapta, sau să aibă dificultăți cu descrierile precise ale evenimentelor care se desfășoară în timp, cum ar fi traiectoriile specifice ale camerei.

Siguranță

Vom lua mai mulți pași importanți de siguranță înainte de a face Sora disponibilă în produsele OpenAI. Lucrăm cu red teamers — experți în domenii precum dezinformarea, conținutul instigator la ură și prejudecățile — care vor testa modelul în mod advers.

De asemenea, dezvoltăm instrumente pentru a ajuta la identificarea conținutului înșelător, cum ar fi un clasificator care poate indica dacă un videoclip a fost generat de Sora. Planificăm să includem metadate C2PA(se deschide într-o fereastră nouă) în viitor, dacă vom implementa modelul într-un produs OpenAI.

Pe lângă faptul că dezvoltăm noi tehnici pentru a ne pregăti de implementare, folosim metodele de siguranță existente(se deschide într-o fereastră nouă) pe care le-am construit pentru produsele noastre care utilizează DALL·E 3, care sunt aplicabile și pentru Sora.

De exemplu, odată ce te afli într-un produs OpenAI, clasificatorul nostru de text va verifica și respinge solicitările text intrare care încalcă politicile noastre de utilizare, cum ar fi cele care cer violență extremă, conținut sexual, imagini instigatoare la ură, asemănarea cu celebrități sau proprietatea intelectuală a altor persoane. De asemenea, am dezvoltat clasificatoare de imagine robuste, care sunt folosite pentru a revizui cadrele fiecărui videoclip generat, pentru a ne asigura că respectă politicile noastre de utilizare, înainte de a fi afișat utilizatorului.

Vom colabora cu factorii de decizie politică, educatorii și artiștii din întreaga lume pentru a înțelege preocupările lor și pentru a identifica exemple pozitive de utilizare a acestei noi tehnologii. În ciuda cercetărilor și testelor ample, nu putem prezice toate modurile benefice în care oamenii vor folosi tehnologia noastră, nici toate modurile în care o vor abuza. De aceea credem că învățarea pe baza experienței de utilizare în lumea reală este o componentă esențială pentru crearea și lansarea, în timp, a unor sisteme AI din ce în ce mai sigure.

Research techniques

Sora este un model de difuzie, care generează un videoclip pornind de la unul care arată ca un zgomot static și îl transformă treptat prin eliminarea zgomotului în mai mulți pași.

Sora poate genera videoclipuri întregi dintr-o dată sau poate extinde videoclipurile generate pentru a le face mai lungi. Dând modelului capacitatea de a anticipa mai multe cadre simultan, am rezolvat o problemă dificilă: asigurarea că un subiect rămâne același chiar și atunci când dispare temporar din vedere.

Similar cu modelele GPT, Sora folosește o arhitectură de transformator, deblocând performanțe superioare de scalare.

Reprezentăm videoclipurile și imaginile ca fiind colecții de unități mai mici de date numite patch-uri, fiecare dintre acestea fiind similară cu un token în GPT. Prin unificarea modului în care reprezentăm datele, putem instrui transformatoare de difuzie pe o gamă mai largă de date vizuale decât era posibil înainte, acoperind diferite durate, rezoluții și rapoarte de aspect.

Sora se bazează pe cercetările anterioare în modelele DALL·E și GPT. Folosește tehnica de recapitulare din DALL·E 3, care implică generarea de legende foarte descriptive pentru datele de antrenament vizual. Ca urmare, modelul poate să urmeze mai fidel instrucțiunile textuale ale utilizatorului în videoclipul generat.

Pe lângă faptul că poate genera un videoclip doar din instrucțiuni text, modelul poate să preia o imagine statică existentă și să creeze un videoclip din ea, animând conținutul imaginii cu precizie și atenție la detalii fine. Modelul poate, de asemenea, să preia un videoclip existent și să-l extindă sau să completeze cadrele lipsă. Află mai multe în raportul nostru tehnic.

Sora servește ca fundație pentru modele care pot înțelege și simula lumea reală, o capacitate despre care credem că va fi o piatră de hotar importantă pentru atingerea AGI.

Se încarcă...