Hopp til hovedinnhold
OpenAI

Opprette video fra tekst

Alle videoer på denne siden er generert direkte av Sora uten endringer.

Laster inn …

Vi lærer opp KI til å forstå og simulere den fysiske verden i bevegelse, med mål om å trene opp modeller som kan hjelpe mennesker med å løse problemer som krever interaksjon i den virkelige verden.

Vi introduserer Sora, tekst-til-video-modellen vår. Sora kan generere videoer på opptil ett minutt som holder høy visuell kvalitet og stemmer med brukerens melding.

I dag blir Sora gjort tilgjengelig for red team-medlemmer for å vurdere kritiske områder for skade eller risiko. Vi gir også tilgang til en rekke visuelle kunstnere, designere og filmskapere for å få tilbakemeldinger på hvordan modellen best kan videreutvikles for å være til nytte for kreative bruk.

Vi deler forskningsfremgangen vår tidlig for å begynne å samarbeide med og få tilbakemeldinger fra folk utenfor OpenAI, og for å gi allmennheten et innblikk i hvilke KI-muligheter som er i vente.

Sora kan generere komplekse scener med flere figurer, spesifikke typer bevegelser og nøyaktige detaljer på både motivet og bakgrunnen. Modellen forstår ikke bare hva brukeren har bedt om i meldingen, men også hvordan disse tingene eksisterer i den fysiske verden.

Modellen har en dyp forståelse av språk, noe som gjør at den kan tolke meldinger presist og generere engasjerende karakterer som uttrykker sterke følelser. Sora kan også lage flere opptak i én og samme genererte video, der karakterer og visuell stil bevares gjennom hele videoen.

Det er fortsatt rom for å forbedre den nåværende modellen. Den kan ha vanskeligheter med å simulere fysikken i en kompleks scene og forstår kanskje ikke bestemte sammenhenger mellom årsak og virkning (for eksempel: en kjeks vil kanskje ikke ha bitemerker etter at en karakter har tatt en bit). Modellen kan også forveksle romlige detaljer i en melding, som å skille mellom høyre og venstre, eller slite med nøyaktige beskrivelser av hendelser som utspiller seg over tid – for eksempel spesifikke kamerabevegelser.

Safety

Vi kommer til å treffe flere viktige sikkerhetstiltak før vi gjør Sora tilgjengelig som et av OpenAIs produkter. Vi samarbeider med red team-medlemmer – fageksperter innen områder som feilinformasjon, hatefullt innhold og bias – som gjør omfattende angrepstesting av modellen.

Vi utvikler også verktøy som kan oppdage villedende innhold, som en detektor som kan identifisere om en video er generert av Sora. Vi planlegger å inkludere C2PA-metadata(åpnes i et nytt vindu) i fremtiden dersom vi lanserer modellen i et OpenAI-produkt.

I tillegg til å utvikle nye teknikker for å forberede implementering, bruker vi eksisterende sikkerhetsmetoder(åpnes i et nytt vindu) vi allerede har utviklet for produkter som benytter DALL·E 3, og som også gjelder for Sora.

For eksempel: Når modellen inngår i et OpenAI-produkt, vil tekstklassifiseringen vår identifisere og avvise meldinger som bryter med retningslinjene for bruk, som forespørsler om ekstrem vold, seksuelt innhold, hatefulle bilder, likhet med kjendiser eller andres immaterielle rettigheter. Vi har også utviklet robuste bildeklassifikatorer som analyserer bildene i hver video som genereres før den vises til brukeren, for å sikre at den overholder retningslinjene våre.

Vi kommer til å inkludere politikere, lærere og kunstnere over hele verden for å høre bekymringene deres og identifisere positive bruksområder for den nye teknologien. Til tross for omfattende research og testing, kan vi ikke forutsi alle måtene teknologien vår vil bli brukt på, eller alle måtene den potensielt kan misbrukes på. Derfor mener vi at læring gjennom faktisk bruk er en avgjørende del av det å utvikle og lansere stadig tryggere KI-systemer over tid.

Teknikker for å utføre research

Sora er en diffusjonsmodell som genererer video ved å starte med noe som ligner statisk støy, og gradvis endre det ved å fjerne støyen gjennom mange trinn.

Sora kan generere hele videoer på én gang eller utvide genererte videoer for å gjøre dem lengre. Ved å gi modellen oversikt over mange bilder samtidig, har vi løst en krevende utfordring med å sørge for at et motiv forblir det samme selv når det er midlertidig ute av bildet.

På samme måte som GPT‑modellene bruker Sora en transformer-arkitektur som gir uovertruffen skaleringsytelse.

Vi representerer videoer og bilder som samlinger av mindre enheter med data kalt «pakker», som fungerer omtrent som tokener i GPT. Ved å standardisere hvordan vi representerer data, kan vi trene diffusjonstransformatorer på et bredere spekter av visuelle data enn tidligere – med ulike varigheter, oppløsninger og bildeformater.

Sora bygger videre på tidligere research i DALL·E- og GPT‑modellene. Det bruker «recaptioning»-teknikken fra DALL·E 3, som innebærer å generere svært beskrivende bildetekster for det visuelle datasettet som brukes til opplæring. Dette gjør at modellen kan følge brukerens tekstinstruksjoner mer nøyaktig i videoen som genereres.

I tillegg til å kunne generere en video utelukkende fra tekstinstruksjoner, kan modellen også ta et eksisterende stillbilde og generere en video basert på det – der bildet animeres nøyaktig og med øye for de små detaljene. Modellen kan også ta en eksisterende video og enten forlenge den eller fylle inn manglende bilder. Les mer i den tekniske rapporten.

Sora fungerer som et fundament for modeller som kan forstå og simulere den virkelige verden – noe vi mener vil være et viktig skritt på veien mot AGI.

Laster inn …