Gå direkt till huvudinnehåll
OpenAI

Skapa video från text

Alla videor på den här sidan har genererats direkt av Sora och har inte redigerats.

Laddar …

Vi lär AI att förstå och simulera den fysiska världen i rörelse, med målet att träna upp modeller som kan hjälpa människor att lösa problem som kräver interaktion i den verkliga världen.

Vi presenterar Sora, vår modell som skapar video utifrån text. Sora kan generera videor som är upp till en minut långa och följer användarens prompt med bibehållen bildkvalitet.

I dag blir Sora tillgängligt för red teamers, så att de kan bedöma kritiska områden vad gäller skador eller risker. Vi beviljar även åtkomst till ett antal bildkonstnärer, designers och filmskapare för att få feedback om hur vi kan utveckla modellen så att den blir så bra som möjligt för personer med kreativa yrken.

Vi delar med oss av våra forskningsframsteg tidigt för att börja arbeta med och få feedback från personer utanför OpenAI och ge allmänheten en känsla för vilken AI-kapacitet som är att vänta längre fram.

Sora kan generera komplexa scener med flera karaktärer, specifika typer av rörelser och korrekta detaljer i både motiv och bakgrund. Modellen förstår inte bara vad användaren har bett om i prompten, utan även hur föremålen brukar förstås och beter sig i den fysiska världen.

Modellen har en djup språkförståelse, vilket gör att den kan tolka prompter och generera övertygande karaktärer som uttrycker livfulla känslor. Sora kan även skapa flera scener inom en och samma genererade video som återger såväl karaktärerna som den visuella stilen på ett korrekt sätt.

Den nuvarande modellen kan fortfarande förbättras. Den kan ha svårt att simulera de fysiska förhållandena i en komplex scen, och kanske inte förstår specifika fall av orsak och verkan (till exempel att en kaka kanske inte får några bitmärken efter att den karaktär bitit i den). Modellen kan även förväxla vissa rumsliga detaljer i en prompt, som att skilja mellan höger och vänster, eller så kan den ha svårt med exakta beskrivningar av händelser som utspelar sig över tid, som specifika kamerarörelser.

Safety

Vi kommer att vidta flera viktiga säkerhetsåtgärder innan vi lanserar Sora i OpenAI:s produkter. Vi samarbetar med red teamers – domänexperter inom områden som desinformation och hatiskt eller partiskt innehåll – som kommer att testa modellen på ett kontradiktoriskt sätt.

Vi utvecklar även verktyg som kan hjälpa till att upptäcka vilseledande innehåll, till exempel en upptäcktsklassificerare som kan bedöma om en video har genererats av Sora. Vi planerar att inkludera C2PA-metadata(öppnas i ett nytt fönster) i framtiden om vi använder modellen i en OpenAI-produkt.

Förutom att vi utvecklar nya tekniker inför lanseringen använder vi de befintliga säkerhetsmetoder(öppnas i ett nytt fönster) som vi inrättat för våra produkter som använder DALL·E 3 och som även kan tillämpas på Sora.

I en OpenAI-produkt kommer vår textklassificerare till exempel att kontrollera och avvisa indataprompter som bryter mot våra användningspolicyer, till exempel sådana som efterfrågar extremt våld, sexuellt innehåll, hatiska bilder, bilder på kändisar eller andras immateriella rättigheter. Vi har även utvecklat robusta bildklassificerare som används för att granska bildrutorna i alla videor som genereras för att säkerställa att den följer våra användningspolicyer innan den visas för användaren.

Vi kommer att konsultera beslutsfattare, lärare och konstnärer runt om i världen för att förstå deras oro och identifiera positiva användningsområden för denna nya teknik. Omfattande forskning och testning till trots kan vi inte förutsäga alla gynnsamma sätt som vår teknik kommer att användas på, eller hur den kan missbrukas. Därför tror vi att inlärning från användning i den verkliga världen är avgörande för möjligheten att skapa och lansera allt säkrare AI-system över tid.

Forskningstekniker

Sora är en diffusionsmodell som genererar en video genom att börja med en som liknar statiskt brus, för att sedan gradvis förvandla den genom att avlägsna bruset under loppet av många steg.

Sora kan generera hela videor på en gång eller förlänga genererade videor så att de blir längre. Genom att ge modellen framförhållning för flera bildrutor åt gången har vi löst ett utmanande problem: att se till att ett motiv förblir detsamma även när det tillfälligt försvinner ur bild.

På liknande sätt som GPT‑modellerna använder Sora transformatorarkitektur, vilket ger en överlägsen skalningsförmåga.

Vi visar videor och bilder som samlingar av mindre dataenheter, så kallade patcher, som var och en liknar en token i GPT. Genom att visa data på ett enhetligare sätt kan vi träna diffusion transformers på ett bredare spektrum av visuella data än vad som tidigare var möjligt, inklusive olika varaktigheter, upplösningar och bildförhållanden.

Sora bygger på tidigare forskning i DALL·E och GPT‑modellerna. Den använder recaptioning-tekniken från DALL·E 3, som innebär att mycket beskrivande bildtexter genereras för visuella träningsdata. Det gör att modellen kan följa användarens textinstruktioner i den genererade videon på ett mer troget sätt.

Utöver att modellen kan generera en video endast utifrån textinstruktioner kan den även använda en befintlig stillbild för att generera en video, och animera innehållet i bilden på ett korrekt sätt med öga för små detaljer. Modellen kan även använda en befintlig video och förlänga den eller fylla i bildrutor som saknas. Läs mer i vår tekniska rapport.

Sora fungerar som bas för modeller som kan förstå och simulera den riktiga världen, en förmåga vi tror kan bli en viktig milstolpe på vägen mot AGI.

Laddar …