Fra tekst til levende billeder

Alle videoerne på denne side er skabt udelukkende med Sora, uden redigering eller efterbehandling.

Indlæser ...

Vi lærer AI at forstå og simulere den fysiske verden i bevægelse, med det mål at træne modeller, der kan hjælpe mennesker med at løse problemer, som kræver interaktion i den virkelige verden.

Vi præsenterer Sora, vores tekst-til-video-model. Sora kan generere videoer på op til ét minut – med høj visuel kvalitet og præcis gengivelse af brugerens forespørgsel.

Forespørgsel: En stilfuld kvinde går ned ad en gade i Tokyo fyldt med varmt lysende neon og animerede byskilte. Hun er iført en sort læderjakke, en lang rød kjole, sorte støvler og bærer en sort taske. Hun har solbriller og rød læbestift på. Hun går selvsikkert og afslappet. Gaden er våd og skinnende, hvilket skaber en spejleffekt af de farverige lys. Der går mange fodgængere rundt.

Forespørgsel: Flere gigantiske uldne mammutter nærmer sig på vej gennem en snedækket eng. Deres lange, uldne pels blafrer let i vinden, mens de går. Sneklædte træer og dramatiske bjerge i det fjerne omgives af eftermiddagssolens varme glød, hvor lette skyer driver forbi, og solen står højt på himlen. Den lave kameravinkel fanger det store, pelsede dyr med flot dybdeskarphed.

Forespørgsel: En filmtrailer, der følger en 30-årig rumrejsendes eventyr, iført en rød, uldstrikket motorcykelhjelm, blå himmel, saltørken, optaget i filmiske billeder på 35mm film, levende farver.

Forespørgsel: Et dronefoto af bølger, der brydes mod de forrevne klipper langs Garay Point Beach ved Big Sur. De brusende blå bølger skummer hvidt, og det gyldne lys fra den nedgående sol oplyser den stenede kyst. En lille ø med et fyrtårn ses i horisonten, og grønne buske dækker klippekanten. Faldet fra vejen ned mod stranden er stejlt og dramatisk, klippespidserne rager ud over havet. Udsigten indfanger kystens rå skønhed og det barske landskab langs Pacific Coast Highway.

Forespørgsel: Animeret scene med et nærbillede af et lille, pelset monster, der knæler ved siden af et smeltende rødt stearinlys. Stilen er realistisk 3D med særligt fokus på lys og tekstur. Stemningen i billedet er fuld af forunderlighed og nysgerrighed, monsteret stirrer på flammen med store øjne og åben mund. Dets kropssprog og udtryk udstråler uskyld og legesyge, som om det oplever verden for første gang. Brugen af varme farver og dramatisk belysning forstærker den hyggelige atmosfære.

Forespørgsel: En flot gengivet origamiverden af papir, der viser et koralrev med masser af farverige fisk og havdyr.

Forespørgsel: Dette nærbillede af en victoriakronet due viser dens spektakulære blå fjerdragt og røde bryst. Dens kam er lavet af fine, blondeagtige fjer, og dens øje har en slående rød farve. Fuglens hoved er vippet lidt til siden, hvilket får den til at se kongelig og majestætisk ud. Baggrunden er sløret og leder opmærksomheden hen på fuglens markante udseende.

Forespørgsel: Fotorealistisk nærbillede af to piratskibe, der kæmper mod hinanden, mens de sejler rundt inde i en kop kaffe.

Forespørgsel: En ung mand i 20'erne sidder på en sky i himlen og læser en bog.

Fra i dag giver vi adgang til Sora for udvalgte red teaming-specialister, der skal vurdere centrale områder for potentielle skader og risici. Vi inviterer også en række visuelle kunstnere, designere og filmskabere til at afprøve modellen og give feedback med henblik på at videreudvikle Sora som et værdifuldt værktøj for kreative fagfolk.

Vi deler vores forskningsproces tidligt for at inddrage eksterne perspektiver og få direkte feedback fra brugere uden for OpenAI. Samtidig ønsker vi at give offentligheden et indblik i de muligheder, kunstig intelligens snart vil kunne tilbyde.

Forespørgsel: Historiske optagelser af Californien under guldfeberen.

Forespørgsel: Et nærbillede af en glaskugle med en zenhave indeni. I kuglen er der en lille dværg, som river zenhaven og skaber mønstre i sandet.

Forespørgsel: Et helt nært closeup af en 24-årig kvindes øje, der blinker, stående i Marrakech ved solnedgangstid, en optagelse skudt på 70mm film, dybdeskarphed, levende farver, filmisk

Forespørgsel: En animeret kænguru danser disko.

Forespørgsel: En smuk hjemmelavet video, der viser indbyggerne i Lagos, Nigeria, i år 2056. Optaget på et mobilkamera.

Forespørgsel: En petriskål med en bambusskov, der vokser indeni, og hvor der løber små røde pandaer rundt.

Forespørgsel: Kameraet roterer rundt om en stor stak vintage-fjernsyn, der alle viser forskellige udsendelser – sci-fi-film fra 1950'erne, gyserfilm, nyheder, statiske udsendelser, en sitcom fra 1970'erne osv. i et stort museumsgalleri i New York.

Forespørgsel: 3D-animation af et lille, rundt, fluffy væsen med store, udtryksfulde øjne, der udforsker en levende, fortryllet skov. Væsenet, som er en finurlig blanding af en kanin og et egern, har blød blå pels og en busket, stribet hale. Den hopper langs et glitrende vandløb med store, nysgerrige øjne. Skoven er fuld af magiske elementer: blomster, der lyser og skifter farve, træer med blade i lilla og sølvfarvede nuancer og små svævende lys, der ligner ildfluer. Væsenet stopper op for at lege med en gruppe små, fe-lignende væsener, der danser rundt om en svampering. Det ser med ærefrygt op på et stort, lysende træ, der ser ud til at være skovens hjerte.

Sora er i stand til at generere komplekse scener med flere karakterer, specifikke typer bevægelse og præcise detaljer i motivet og baggrunden. Modellen forstår ikke kun, hvad brugeren har bedt om i forespørgslen, men også hvordan disse ting findes i den fysiske verden.

Forespørgsel: Kameraet følger en hvid vintage-SUV med sort tagbøjle, der accelererer op ad en stejl grusvej omgivet af fyrretræer på en skrånende bjergside. Støvet hvirvler op fra dækkene, mens sollyset rammer bilen og kaster et varmt skær over landskabet. Grusvejen slynger sig blødt i horisonten uden andre biler i sigte. Træerne på begge sider af vejen er af arten redwood, der er grønne bevoksninger rundt omkring. Bilen ses bagfra, hvor den ubesværet følger vejens kurver, som var den skabt til netop dette terræn. Vejen er omgivet af stejle bakker og bjerge, med en klar blå himmel ovenover med fine, slørede skyer.

Forespørgsel: Refleksioner i vinduet på et tog, der kører gennem Tokyos forstæder.

Forespørgsel: Et dronekamera kredser om en smuk, historisk kirke, der er opført på en klippeafsats langs Amalfikysten. Optagelsen fremhæver den storslåede arkitektur og de historiske detaljer, samt de terrasserede stier og patioer, der omgiver bygningen. Nedenfor slår bølgerne mod klipperne, mens blikket føres ud over det vidtstrakte hav og det bakkede kystlandskab i det sydlige Italien. I det fjerne ses flere personer spadsere og nyde udsigten fra patioerne med dramatisk havudsigt. Det varme eftermiddagssollys kaster en gylden glød over sceneriet og skaber en magisk, romantisk stemning. Udsigten er betagende, fanget med enestående fotografisk kvalitet.

Forespørgsel: En stor orange blæksprutte hviler på havbunden og falder i ét med det sandede og stenede terræn. Dens tentakler er spredt ud omkring dens krop, og dens øjne er lukkede. Blæksprutten er ikke opmærksom på en kongekrabbe, der kravler hen imod den bag en sten med kløerne hævet og klar til at angribe. Krabben er brun og har pigge, lange ben og antenner. Scenen er indfanget fra en vidvinkel, der viser havets udstrækning og dybde. Vandet er klart og blåt, og solens stråler trænger igennem. Optagelsen er skarp og klar med et stort dynamisk omfang. Blæksprutten og krabben er i fokus, mens baggrunden er en anelse sløret, så der opstår en effekt af dybdeskarphed.

Forespørgsel: En flok papirflyvere flyver gennem en tæt jungle og snor sig rundt om træerne, som om de var trækfugle.

Forespørgsel: En kat vækker sin sovende ejer og forlanger morgenmad. Ejeren forsøger at ignorere katten, men katten prøver nye taktikker, og til sidst finder ejeren et hemmeligt lager af godbidder frem fra under puden for at holde katten hen lidt længere.

Forespørgsel: Borneos dyreliv på Kinabatangan-floden

Forespørgsel: En kinesisk nytårsfejringsvideo med kinesisk drage.

Modellen har en dyb sprogforståelse, som gør den i stand til at fortolke instruktioner præcist og skabe overbevisende billeder, der udtrykker levende følelser. Sora kan også skabe flere optagelser i en enkelt genereret video, der præcist gengiver karakterer og visuel stil.

Forespørgsel: Rundvisning i et kunstgalleri med mange smukke kunstværker i forskellige stilarter.

Forespørgsel: Smukke, sneklædte Tokyo er travl. Kameraet bevæger sig gennem den travle bygade og følger flere mennesker, der nyder det smukke snevejr og handler i de nærliggende boder. Smukke sakurablade flyver gennem vinden sammen med snefnug.

Forespørgsel: En stop motion-animation af en blomst, der vokser i en potte i vindueskarmen i et hus i forstaden.

Forespørgsel: Historien om en robots liv i en cyberpunk-setting.

Forespørgsel: Et nært closeup af en gråhåret mand i 60’erne med fuldskæg, fordybet i tanker om universets historie, mens han sidder på en café i Paris. Hans blik er rettet mod noget uden for billedet, forbipasserende mennesker, mens han selv forbliver næsten ubevægelig. Han er klædt i en ulden habitjakke over en skjorte med knapper, bærer en brun baskerhue og briller og har et udpræget akademisk udseende. Til sidst antyder han et diskret smil med lukket mund, som om han netop har fundet svaret på livets store mysterium. Lyset er varmt og filmisk, badet i gyldne toner med parisiske gader og bylandskab i baggrunden, dybdeskarphed, filmisk 35mm-æstetik.

Forespørgsel: En smuk silhuetanimation viser en ulv, der hyler mod månen og føler sig ensom, indtil den finder sin flok.

Forespørgsel: New York City under havets overflade, ligesom Atlantis. Fisk, hvaler, havskildpadder og hajer svømmer gennem New Yorks gader.

Forespørgsel: Et kuld golden retriever-hvalpe leger i sneen. Deres hoveder dukker op af sneen.

Den nuværende model efterlader plads til forbedringer. Den kan have svært ved at simulere fysikken i en kompleks scene og forstår måske ikke altid årsag og virkning (f.eks. kan en småkage mangle et bidemærke, efter at en karakter har taget en bid). Modellen kan også forveksle rumlige detaljer i en forespørgsel, som f.eks. at skelne mellem højre og venstre, eller kæmpe med præcise beskrivelser af begivenheder, der udfolder sig over tid, som f.eks. specifikke kamerabaner.

Forespørgsel: En scene af en person, der løber, filmisk optagelse i 35mm.

Svaghed: Sora skaber nogle gange fysisk usandsynlige bevægelser.

Forespørgsel: Fem grå ulvehvalpe boltrer sig og jager hinanden rundt på en afsidesliggende grusvej omgivet af græs. Hvalpene løber og springer, jagter hinanden og napper i hinanden, mens de leger.

Svaghed: Dyr eller mennesker kan dukke op spontant, især i scener, der indeholder mange elementer.

Forespørgsel: Basketball går gennem kurven, og eksploderer så.

Svaghed: Et eksempel på unøjagtig fysisk modellering og unaturlig “morphing” af genstande.

Forespørgsel: Arkæologer finder en generisk plastikstol i ørkenen og udgraver og afstøver den med stor omhu.

Svaghed: I dette eksempel undlader Sora at modellere stolen som et stift objekt, hvilket fører til unøjagtige fysiske interaktioner.

Forespørgsel: En bedstemor med sirligt friseret gråt hår står bag en farverig fødselsdagskage med et væld af tændte lys på et spisebord af træ. Hendes ansigtsudtryk udstråler ren glæde og lykke, med et varmt, lykkeligt skær i øjnene. Hun læner sig frem og puster blidt lysene ud med et nænsomt pust. Kagen er pyntet med lyserød glasur og farverige krymmel, og flammerne på lysene dør stille ud. Bedstemoren bærer en lyseblå bluse med blomstret mønster, og i baggrunden anes flere glade venner og familiemedlemmer ved bordet, let ude af fokus. Scenen er smukt indfanget, filmisk, og viser en 3/4-visning af bedstemoren og spisestuen. Varme farvetoner og blød belysning forstærker stemningen.

Svaghed: Det er ofte en udfordring for modellen at simulere komplekse interaktioner mellem objekter og flere karakterer, hvilket nogle gange resulterer i humoristiske resultater.

Safety

Vi vil foretage flere vigtige sikkerhedsforanstaltninger, inden vi gør Sora tilgængelig i OpenAI's produkter. Vi samarbejder med red teaming-specialister – domæneeksperter inden for områder som fejlinformation, hadefuldt indhold og bias – som udfører målrettede og udfordrende tests af modellen.

Vi bygger også værktøjer, der kan hjælpe med at opdage vildledende indhold, f.eks. en detektionsklassifikator, der kan se, om en video er genereret af Sora. Vi har planer om at inkludere C2PA-metadata⁠(åbner i et nyt vindue) i fremtiden, hvis vi implementerer modellen i et OpenAI-produkt.

Ud over at udvikle nye teknikker til at forberede implementeringen, udnytter vi de eksisterende sikkerhedsmetoder⁠(åbner i et nyt vindue), vi har opbygget til de produkter, der bruger DALL·E 3, og som også kan bruges til Sora.

For eksempel vil vores tekstklassificeringssystem, når det anvendes i et OpenAI-produkt, kontrollere og afvise input, der overtræder vores retningslinjer for anvendelse, såsom forespørgsler om ekstrem vold, seksuelt indhold, hadefulde billeder, gengivelser af offentlige personer eller krænkelse af andres ophavsret. Vi har desuden udviklet robuste billedklassificeringssystemer, som gennemgår billederne i hver eneste video, der genereres, for at sikre, at det overholder vores retningslinjer, inden det vises til brugeren.

Vi vil desuden indgå i dialog med beslutningstagere, undervisere og kunstnere over hele verden for at forstå deres bekymringer og identificere meningsfulde og positive use cases med den nye teknologi. Selv med omfattende forskning og tests kan vi endnu ikke forudse alle de gavnlige måder, teknologien vil blive anvendt på, eller alle de måder, den potentielt kan misbruges på. Derfor mener vi, at erfaringer fra reel brug er en afgørende faktor i udviklingen og lanceringen af stadig mere sikre AI-systemer over tid.

Forespørgsel: Kameraet vender direkte mod farverige bygninger i Burano i Italien. En sød dalmatiner kigger ind ad et vindue på en bygning i stueetagen. Mange mennesker går og cykler langs kanalgaderne foran bygningerne.

Forespørgsel: En nuttet, glad odder står selvsikkert på et surfbræt iført en gul redningsvest. Den surfer på turkisfarvet tropisk vand nær frodige tropiske øer, gengivet i digital 3D-stil.

Forespørgsel: Dette nærbillede af en kamæleon viser dens fantastiske evne til at skifte farve. Baggrunden er sløret og leder opmærksomheden hen på dyrets markante udseende.

Forespørgsel: En corgi vlogger sig selv i det tropiske Maui.

Forespørgsel: En hvid og orangefarvet tabby-kat springer glad gennem en tæt have, som om den jagter noget. Dens øjne er store og glade, mens den løber fremad og scanner grenene, blomsterne og bladene, mens den går. Stien er smal. Katten baner sig vej mellem alle planterne og scenen er indfanget fra en vinkel i jordhøjde, der følger katten tæt, hvilket giver et lavt og intimt perspektiv. Billedet er filmisk med varme toner og en kornet tekstur. Det spredte dagslys mellem bladene og planterne ovenover skaber en varm kontrast, der fremhæver kattens orange pels. Billedet er klart og skarpt med en lav dybdeskarphed.

Forespørgsel: Luftfoto af Santorini i den blå time, der viser den fantastiske arkitektur med hvide kykladiske bygninger med blå kupler. Udsigten over calderaen er betagende, og belysningen skaber en smuk, fredfyldt atmosfære.

Forespørgsel: Skråbillede af en byggeplads fyldt med arbejdere, udstyr og tunge maskiner.

Forespørgsel: En gigantisk, tårnhøj sky i form af en mand tårner sig op over jorden. Skymanden skyder lyn ned mod landskabet.

Forespørgsel: En samojede og en golden retriever-hund boltrer sig legende i en futuristisk neonby om natten. Neonlyset fra de nærliggende bygninger glimter i deres pels.

Forespørgsel: Glenfinnan Viaduct er en historisk jernbanebro i Skotland, Storbritannien, som krydser over den vestlige højlandsbane mellem byerne Mallaig og Fort William. Det er et betagende syn, når damptoget forlader broen og kører over den buede viadukt. Landskabet er fyldt med frodige grønne områder og klippefyldte bjerge, som skaber en malerisk kulisse for togrejsen. Himlen er blå, og solen skinner, en smuk dag at udforske dette majestætiske sted.

Forskningsteknikker

Sora er en diffusionsmodel, som genererer video ved at starte med et billede, der ligner statisk støj, og så gradvist forvandler det ved at fjerne støjen over adskillige trin.

Sora kan både generere komplette videoer på én gang og forlænge allerede genererede videoer. Ved at give modellen overblik over mange frames ad gangen, har vi løst den udfordrende opgave med at sikre, at motivet forbliver konsistent, selv når det midlertidigt forsvinder ud af billedet.

Ligesom GPT‑modellerne anvender Sora en transformer-arkitektur, hvilket muliggør enestående skalerbarhed og ydeevne.

Vi repræsenterer videoer og billeder som samlinger af mindre dataenheder kaldet patches, som hver især svarer til en token i GPT. Ved at ensrette, hvordan vi repræsenterer data, kan vi træne diffusionstransformatorer på en bredere vifte af visuelle data, end det var muligt før, der spænder over forskellige varigheder, opløsninger og størrelsesforhold.

Sora bygger på tidligere forskning i DALL·E og GPT‑modeller. Den bruger recaptioning-teknikken fra DALL·E 3, som går ud på at generere meget beskrivende billedtekster til de visuelle træningsdata. Som følge heraf er modellen i stand til mere præcist at følge brugerens tekstinstruktioner i den genererede video.

Ud over at kunne generere en video udelukkende fra tekstinstruktioner er modellen i stand til at tage et eksisterende stillbillede og generere en video ud fra det, hvor billedets indhold animeres med præcision og opmærksomhed på små detaljer. Modellen kan også tage en eksisterende video og udvide den eller udfylde manglende billeder. Læs mere i vores tekniske rapport⁠.

Sora fungerer som et fundament for modeller, der kan forstå og simulere den virkelige verden, en evne, vi mener, vil være en vigtig milepæl for at opnå kunstig genere intelligens (AGI).

Indlæser ...