Gå til hovedindhold
OpenAI

Fra tekst til levende billeder

Alle videoerne på denne side er skabt udelukkende med Sora, uden redigering eller efterbehandling.

Indlæser ...

Vi lærer AI at forstå og simulere den fysiske verden i bevægelse, med det mål at træne modeller, der kan hjælpe mennesker med at løse problemer, som kræver interaktion i den virkelige verden.

Vi præsenterer Sora, vores tekst-til-video-model. Sora kan generere videoer på op til ét minut – med høj visuel kvalitet og præcis gengivelse af brugerens forespørgsel.

Fra i dag giver vi adgang til Sora for udvalgte red teaming-specialister, der skal vurdere centrale områder for potentielle skader og risici. Vi inviterer også en række visuelle kunstnere, designere og filmskabere til at afprøve modellen og give feedback med henblik på at videreudvikle Sora som et værdifuldt værktøj for kreative fagfolk.

Vi deler vores forskningsproces tidligt for at inddrage eksterne perspektiver og få direkte feedback fra brugere uden for OpenAI. Samtidig ønsker vi at give offentligheden et indblik i de muligheder, kunstig intelligens snart vil kunne tilbyde.

Sora er i stand til at generere komplekse scener med flere karakterer, specifikke typer bevægelse og præcise detaljer i motivet og baggrunden. Modellen forstår ikke kun, hvad brugeren har bedt om i forespørgslen, men også hvordan disse ting findes i den fysiske verden.

Modellen har en dyb sprogforståelse, som gør den i stand til at fortolke instruktioner præcist og skabe overbevisende billeder, der udtrykker levende følelser. Sora kan også skabe flere optagelser i en enkelt genereret video, der præcist gengiver karakterer og visuel stil.

Den nuværende model efterlader plads til forbedringer. Den kan have svært ved at simulere fysikken i en kompleks scene og forstår måske ikke altid årsag og virkning (f.eks. kan en småkage mangle et bidemærke, efter at en karakter har taget en bid). Modellen kan også forveksle rumlige detaljer i en forespørgsel, som f.eks. at skelne mellem højre og venstre, eller kæmpe med præcise beskrivelser af begivenheder, der udfolder sig over tid, som f.eks. specifikke kamerabaner.

Safety

Vi vil foretage flere vigtige sikkerhedsforanstaltninger, inden vi gør Sora tilgængelig i OpenAI's produkter. Vi samarbejder med red teaming-specialister – domæneeksperter inden for områder som fejlinformation, hadefuldt indhold og bias – som udfører målrettede og udfordrende tests af modellen.

Vi bygger også værktøjer, der kan hjælpe med at opdage vildledende indhold, f.eks. en detektionsklassifikator, der kan se, om en video er genereret af Sora. Vi har planer om at inkludere C2PA-metadata(åbner i et nyt vindue) i fremtiden, hvis vi implementerer modellen i et OpenAI-produkt.

Ud over at udvikle nye teknikker til at forberede implementeringen, udnytter vi de eksisterende sikkerhedsmetoder(åbner i et nyt vindue), vi har opbygget til de produkter, der bruger DALL·E 3, og som også kan bruges til Sora.

For eksempel vil vores tekstklassificeringssystem, når det anvendes i et OpenAI-produkt, kontrollere og afvise input, der overtræder vores retningslinjer for anvendelse, såsom forespørgsler om ekstrem vold, seksuelt indhold, hadefulde billeder, gengivelser af offentlige personer eller krænkelse af andres ophavsret. Vi har desuden udviklet robuste billedklassificeringssystemer, som gennemgår billederne i hver eneste video, der genereres, for at sikre, at det overholder vores retningslinjer, inden det vises til brugeren.

Vi vil desuden indgå i dialog med beslutningstagere, undervisere og kunstnere over hele verden for at forstå deres bekymringer og identificere meningsfulde og positive use cases med den nye teknologi. Selv med omfattende forskning og tests kan vi endnu ikke forudse alle de gavnlige måder, teknologien vil blive anvendt på, eller alle de måder, den potentielt kan misbruges på. Derfor mener vi, at erfaringer fra reel brug er en afgørende faktor i udviklingen og lanceringen af stadig mere sikre AI-systemer over tid.

Forskningsteknikker

Sora er en diffusionsmodel, som genererer video ved at starte med et billede, der ligner statisk støj, og så gradvist forvandler det ved at fjerne støjen over adskillige trin.

Sora kan både generere komplette videoer på én gang og forlænge allerede genererede videoer. Ved at give modellen overblik over mange frames ad gangen, har vi løst den udfordrende opgave med at sikre, at motivet forbliver konsistent, selv når det midlertidigt forsvinder ud af billedet.

Ligesom GPT‑modellerne anvender Sora en transformer-arkitektur, hvilket muliggør enestående skalerbarhed og ydeevne.

Vi repræsenterer videoer og billeder som samlinger af mindre dataenheder kaldet patches, som hver især svarer til en token i GPT. Ved at ensrette, hvordan vi repræsenterer data, kan vi træne diffusionstransformatorer på en bredere vifte af visuelle data, end det var muligt før, der spænder over forskellige varigheder, opløsninger og størrelsesforhold.

Sora bygger på tidligere forskning i DALL·E og GPT‑modeller. Den bruger recaptioning-teknikken fra DALL·E 3, som går ud på at generere meget beskrivende billedtekster til de visuelle træningsdata. Som følge heraf er modellen i stand til mere præcist at følge brugerens tekstinstruktioner i den genererede video.

Ud over at kunne generere en video udelukkende fra tekstinstruktioner er modellen i stand til at tage et eksisterende stillbillede og generere en video ud fra det, hvor billedets indhold animeres med præcision og opmærksomhed på små detaljer. Modellen kan også tage en eksisterende video og udvide den eller udfylde manglende billeder. Læs mere i vores tekniske rapport.

Sora fungerer som et fundament for modeller, der kan forstå og simulere den virkelige verden, en evne, vi mener, vil være en vigtig milepæl for at opnå kunstig genere intelligens (AGI).

Indlæser ...