Video maken van tekst

Alle video's op deze pagina zijn zonder wijzigingen rechtstreeks door Sora gemaakt.

Bezig met laden...

We leren AI de fysieke wereld in beweging te begrijpen en te simuleren, met als doel modellen te trainen die mensen helpen problemen op te lossen waarvoor interactie in de praktijk nodig is.

Maak kennis met Sora, ons tekst-naar-videomodel. Sora kan video's genereren die tot een minuut lang zijn, terwijl de visuele kwaliteit behouden blijft en de prompt van de gebruiker wordt opgevolgd.

Prompt: Een stijlvolle vrouw loopt door een straat in Tokio vol warm gloeiend neon en geanimeerde bewegwijzering. Ze draagt een zwart leren jack, een lange rode jurk, zwarte laarzen en een zwarte tas. Ze draagt een zonnebril en rode lippenstift. Ze loopt zelfverzekerd en nonchalant. De straat is vochtig en weerspiegelend, waardoor een spiegeleffect ontstaat van de kleurrijke lichtjes. Er lopen veel voetgangers rond.

Prompt: Verschillende reusachtige wolharige mammoeten naderen terwijl ze door een besneeuwde weide bewegen, hun lange wollige vacht waait lichtjes in de wind, met sneeuw bedekte bomen en dramatische met sneeuw bedekte bergen in de verte, midden op de middag licht met pluizige wolken en een zon hoog in de verte creëert een warme gloed op, het lage camerabeeld is verbluffend en legt het grote harige zoogdier vast met prachtige fotografie, scherptediepte.

Prompt: Een filmtrailer met de avonturen van een 30-jarige ruimtemens met een rode wollen motorhelm, blauwe lucht, zoutwoestijn, filmische stijl, opgenomen op 35mm-film, levendige kleuren.

Prompt: Dronebeeld van golven die tegen de ruige kliffen langs het strand van Garay Point in Big Sur beuken. Het verpletterende blauwe water creëert witgetipte golven, terwijl het gouden licht van de ondergaande zon de rotsachtige kust verlicht. In de verte ligt een klein eiland met een vuurtoren en groene struiken bedekken de rand van de klif. De steile afdaling van de weg naar het strand is een indrukwekkende prestatie, met klifranden die boven de zee uitsteken. Dit is een uitzicht dat de rauwe schoonheid van de kust en het ruige landschap van de Pacific Coast Highway vastlegt.

Prompt: Geanimeerde scène met een close-up van een kort pluizig monster dat knielt naast een smeltende rode kaars. De tekenstijl is 3D en realistisch, met de nadruk op belichting en textuur. De sfeer van het schilderij is er een van verwondering en nieuwsgierigheid, terwijl het monster met grote ogen en open mond naar de vlam staart. Zijn houding en uitdrukking stralen een gevoel van onschuld en speelsheid uit, alsof hij de wereld om hem heen voor het eerst verkent. Het gebruik van warme kleuren en dramatische verlichting versterkt de gezellige sfeer van de afbeelding nog meer.

Prompt: Een prachtig weergegeven wereld van een koraalrif in papierkunst, vol kleurrijke vissen en zeedieren .

Prompt: Deze close-up van een Victoria-kroonduif laat zijn opvallende blauwe verenkleed en rode borst zien. Zijn kuif is gemaakt van fijne, kanten veren, terwijl zijn oog een opvallende rode kleur heeft. De kop van de vogel is iets opzij gekanteld, waardoor het lijkt alsof hij er vorstelijk en majestueus uitziet. De achtergrond is onscherp, waardoor de aandacht wordt gevestigd op de opvallende verschijning van de vogel.

Prompt: Fotorealistische close-up video van twee piratenschepen die met elkaar vechten terwijl ze in een kop koffie varen.

Prompt: Een jonge man van in de 20 zit op een wolk in de lucht en leest een boek.

Vandaag wordt Sora beschikbaar voor red teamers om kritieke gebieden te beoordelen op schade of risico's. We geven ook toegang aan een aantal visuele kunstenaars, ontwerpers en filmmakers om feedback te krijgen over hoe we het model verder kunnen ontwikkelen zodat het zo nuttig mogelijk is voor creatieve professionals.

We delen onze onderzoeksvoortgang al in een vroeg stadium om samen te werken met en feedback te krijgen van mensen buiten OpenAI en om het publiek een idee te geven van de AI-mogelijkheden die in het verschiet liggen.

Prompt: Historische beelden van Californië tijdens de goudkoorts.

Prompt: Een glazen bol met een zen-tuin van dichtbij. Er is een kleine dwerg in de bol die de zen-tuin aan het harken is en patronen in het zand aan het maken is.

Prompt: Extreme close-up van het knipperende oog van een 24-jarige vrouw, staand in Marrakech tijdens het magische uur, filmopname in 70 mm, scherptediepte, levendige kleuren, filmisch

Prompt: Een kangoeroe in cartoonvorm die disco danst.

Prompt: Een prachtige zelfgemaakte video van de inwoners van Lagos, Nigeria in het jaar 2056. Geschoten met de camera van een mobiele telefoon.

Prompt: Een petrischaaltje met een bamboebos erin waarin kleine rode panda's rondrennen.

Prompt: De camera draait rond een grote stapel oude televisies die allemaal verschillende programma's laten zien - scifi-films uit de jaren 1950, horrorfilms, nieuws, ruis, een sitcom uit de jaren 1970 etc., opgesteld in een grote museumgalerie in New York.

Prompt: 3D-animatie van een klein, rond, pluizig wezentje met grote, expressieve ogen verkent een levendig, betoverd bos. Het diertje, een grillige mix van een konijn en een eekhoorn, heeft een zachte blauwe vacht en een borstelige, gestreepte staart. Het huppelt langs een sprankelend beekje, zijn ogen wijd open van verwondering. Het bos leeft met magische elementen: bloemen die gloeien en van kleur veranderen, bomen met bladeren in paarse en zilveren tinten en kleine zwevende lichtjes die op vuurvliegjes lijken. Het wezen stopt om een speelse interactie aan te gaan met een groep kleine, feeërieke wezens die rond een paddenstoelring dansen. Het wezen kijkt vol ontzag omhoog naar een grote, gloeiende boom die het hart van het bos lijkt te zijn.

Sora kan complexe scènes genereren met meerdere personages, specifieke soorten bewegingen en nauwkeurige details van het onderwerp en de achtergrond. Het model begrijpt niet alleen wat de gebruiker heeft gevraagd in de prompt, maar ook hoe die dingen bestaan in de fysieke wereld.

Prompt: De camera volgt een witte oldtimer SUV met een zwart dakrek terwijl hij een steile zandweg oprijdt, omringd door dennenbomen op een steile berghelling. Er komt stof omhoog van de banden, het zonlicht schijnt op de SUV terwijl hij over de zandweg rijdt en werpt een warme gloed over de scène. De onverharde weg kronkelt zachtjes in de verte, zonder andere auto's of voertuigen in het zicht. De bomen aan weerszijden van de weg zijn sequoia's, met her en der wat groen. De auto wordt van achteren gezien terwijl hij de bocht met gemak volgt, waardoor het lijkt alsof hij een ruige rit door het ruige terrein maakt. De onverharde weg zelf wordt omringd door steile heuvels en bergen, met daarboven een helderblauwe lucht met pluizige wolken.

Prompt: Reflecties in het raam van een trein die door de buitenwijken van Tokio rijdt.

Prompt: Een dronecamera cirkelt rond een prachtige historische kerk die is gebouwd op een rotspunt langs de Amalfikust. Het uitzicht toont historische en prachtige architecturale details en trapsgewijs aangelegde paden en patio's. Golven slaan tegen de rotsen aan terwijl het uitzicht uitkijkt over de horizon van de kustwateren en het heuvelachtige landschap van de Amalfikust in Italië, Verschillende mensen in de verte wandelen en genieten op patio's van het dramatische uitzicht op de oceaan, de warme gloed van de middagzon creëert een magisch en romantisch gevoel bij de scène, het uitzicht is prachtig vastgelegd met fraaie fotografie.

Prompt: Een grote oranje octopus rust uit op de bodem van de oceaan en gaat op in het zanderige en rotsachtige terrein. Zijn tentakels zijn rond zijn lichaam uitgespreid en zijn ogen zijn gesloten. De octopus is zich niet bewust van een koningskrab die van achter een rots naar hem toe kruipt, met opgeheven klauwen en klaar om aan te vallen. De krab is bruin en stekelig, met lange poten en antennes. De scène is vastgelegd vanuit een brede hoek en laat de uitgestrektheid en diepte van de oceaan zien. Het water is helder en blauw, met zonnestralen die erdoorheen filteren. De opname is scherp en helder, met een hoog dynamisch bereik. De octopus en de krab zijn scherp, terwijl de achtergrond een beetje wazig is, waardoor een scherptediepte-effect ontstaat.

Prompt: Een zwerm papieren vliegtuigjes fladdert door een dichte jungle en weeft om bomen heen alsof het trekvogels zijn.

Prompt: Een kat die zijn slapende baasje wakker maakt en ontbijt eist. De eigenaar probeert de kat te negeren, maar de kat probeert nieuwe tactieken en uiteindelijk haalt de eigenaar een geheime voorraad lekkers onder het kussen vandaan om de kat wat langer af te houden.

Prompt: Wilde dieren op Borneo op de Kinabatangan-rivier

Prompt: Een video over de viering van Chinees Lunar New Year met Chinese draak.

Het model heeft een grondige kennis van taal, waardoor het aanwijzingen nauwkeurig kan interpreteren en meeslepende personages kan genereren die levendige emoties uitdrukken. Sora kan ook meerdere shots maken binnen één gegenereerde video die personages en visuele stijl nauwkeurig nabootsen.

Prompt: Rondleiding door een kunstgalerie met veel prachtige kunstwerken in verschillende stijlen.

Prompt: De prachtige, besneeuwde stad Tokio bruist. De camera beweegt door de drukke stadsstraat en volgt verschillende mensen die genieten van de mooie sneeuw en winkelen bij kraampjes in de buurt. Prachtige sakurablaadjes vliegen door de wind, samen met sneeuwvlokken.

Prompt: Een animatie met stop-motiontechniek van een bloem die uit de vensterbank van een huis in een buitenwijk groeit.

Prompt: Het verhaal over het leven van een robot in een cyberpunkomgeving.

Prompt: Een extreme close-up van een grijsharige man van in de 60 met een baard, hij is diep in gedachten over de geschiedenis van het universum terwijl hij in een café in Parijs zit, zijn ogen richten zich op mensen buiten beeld terwijl ze lopen terwijl hij grotendeels bewegingsloos zit, hij is gekleed in een wollen mantelpakje met een buttondown overhemd, hij draagt een bruine baret en een bril en heeft een zeer professorsachtige uitstraling en aan het einde biedt hij een subtiele glimlach met gesloten mond alsof hij het antwoord op het mysterie van het leven heeft gevonden, de belichting is zeer filmisch met het gouden licht en de Parijse straten en stad op de achtergrond, scherptediepte, filmische 35 mm-film.

Prompt: Een prachtige silhouetanimatie toont een wolf die huilend naar de maan kijkt, zich eenzaam voelt, totdat hij zijn roedel vindt.

Prompt: New York City ondergedompeld als Atlantis. Vissen, walvissen, zeeschildpadden en haaien zwemmen door de straten van New York.

Prompt: Een nest golden retriever-puppy's speelt in de sneeuw. Hun hoofden komen tevoorschijn uit de sneeuw.

Het huidige model kan nog worden verbeterd. Het kan moeite hebben om de fysica van een complexe scène te simuleren en kan specifieke gevallen van oorzaak en gevolg niet begrijpen (bijvoorbeeld: een koekje vertoont misschien geen vlek nadat een personage erin bijt). Het model kan ook ruimtelijke details in een prompt verwarren, zoals het onderscheid tussen links en rechts, of moeite hebben met precieze beschrijvingen van gebeurtenissen die zich in de loop van de tijd ontvouwen, zoals specifieke cameratrajecten.

Prompt: Stappenplan voor het afdrukken van scènes van een persoon die hardloopt, filmopnamen in 35 mm.

Zwakte: Sora maakt soms fysiek ongeloofwaardige bewegingen.

Prompt: Vijf grijze wolvenpups dartelen en achtervolgen elkaar rond een afgelegen grindweg, omringd door gras. De pups rennen en springen, achtervolgen elkaar en bijten elkaar al spelend.

Zwakte: Dieren of mensen kunnen spontaan verschijnen, vooral in scènes met veel entiteiten.

Prompt: Basketbal door ring en explodeert dan.

Zwakte: Een voorbeeld van onnauwkeurige fysieke modellering en onnatuurlijke 'morphen' van objecten.

Prompt: Archeologen ontdekken een generieke plastic stoel in de woestijn en graven hem met grote zorgvuldigheid op.

Zwakte: In dit voorbeeld modelleert Sora de stoel niet als een stijf object, wat leidt tot onnauwkeurige fysieke interacties.

Prompt: Een oma met keurig gekamd grijs haar staat achter een kleurrijke verjaardagstaart met talloze kaarsjes aan een houten eetkamertafel. Haar uitdrukking is er een van pure vreugde en geluk, met een vrolijke gloed in haar ogen. Ze leunt naar voren en blaast de kaarsjes met een zacht pufje uit, de taart heeft roze glazuur en hagelslag en de kaarsjes flikkeren niet meer, de grootmoeder draagt een lichtblauwe blouse versierd met bloemmotieven, verschillende gelukkige vrienden en familie die aan tafel zitten vieren, onscherp te zien. De scène is prachtig vastgelegd, filmisch, met een 3/4 uitzicht op de grootmoeder en de eetkamer. Warme kleurtinten en zachte verlichting verbeteren de sfeer.

Zwakte: Het simuleren van complexe interacties tussen objecten en meerdere personages is vaak een uitdaging voor het model, wat soms resulteert in humoristische generaties.

Safety

We zullen een aantal belangrijke veiligheidsstappen nemen voordat we Sora beschikbaar maken in OpenAI's producten. We werken samen met red teamers - domeinexperts op het gebied van desinformatie, haatdragende inhoud en vooroordelen - die het model op tegenspraak zullen testen.

We bouwen ook hulpmiddelen om misleidende inhoud te helpen detecteren, zoals een detectieclassificator die kan vertellen wanneer een video door Sora is gegenereerd. We zijn van plan om C2PA-metadata⁠(opent in een nieuw venster) in de toekomst op te nemen als we het model in een OpenAI-product implementeren.

Naast het ontwikkelen van nieuwe technieken om ons voor te bereiden op de uitrol, maken we gebruik van de bestaande veiligheidsmethoden⁠(opent in een nieuw venster) die we hebben ontwikkeld voor onze producten die DALL-E 3 gebruiken en die ook van toepassing zijn op Sora.

Eenmaal in een OpenAI product zal onze tekstclassificator bijvoorbeeld tekstinvoerprompts controleren en afwijzen die in strijd zijn met ons gebruiksbeleid, zoals prompts die vragen om extreem geweld, seksuele inhoud, haatdragende beelden, de gelijkenis van beroemdheden of het IP van anderen. We hebben ook robuuste beeldclassificeerders ontwikkeld die worden gebruikt om de frames van elke gegenereerde video te controleren om ervoor te zorgen dat deze voldoet aan ons gebruiksbeleid, voordat deze aan de gebruiker wordt getoond.

We gaan in gesprek met beleidsmakers, onderwijzers en kunstenaars over de hele wereld om hun zorgen te begrijpen en om positieve gebruikssituaties voor deze nieuwe technologie te identificeren. Ondanks uitgebreid onderzoek en testen kunnen we niet voorspellen op welke manieren mensen onze technologie zullen gebruiken, noch op welke manieren mensen er misbruik van zullen maken. Daarom geloven we dat leren uit de praktijk een cruciaal onderdeel is van het maken en uitbrengen van steeds veiligere AI-systemen.

Prompt: De camera kijkt direct uit op kleurrijke gebouwen in Burano, Italië. Een schattige dalmatiër kijkt door een raam van een gebouw op de begane grond. Veel mensen lopen en fietsen langs de kanaalstraten voor de gebouwen.

Prompt: Een schattige gelukzalig kijkende otter staat zelfverzekerd op een surfplank met een geel reddingsvest, rijdend langs turquoise tropische wateren in de buurt van weelderige tropische eilanden, in een kunststijl van digitale 3D-rendering.

Prompt: Deze close-up van een kameleon laat zijn opvallende kleurveranderende capaciteiten zien. De achtergrond is onscherp, waardoor de aandacht wordt gevestigd op de opvallende verschijning van het dier.

Prompt: Een kortharige hond die een vlog maakt in het tropische Maui.

Prompt: Een wit met oranje gestreepte kat rent vrolijk door een dichtbegroeide tuin, alsof hij iets achtervolgt. Zijn ogen staan wijd en blij terwijl hij vooruit sjokt en de takken, bloemen en bladeren aftast terwijl hij loopt. Het pad is smal en baant zich een weg tussen alle planten door. De scène is vastgelegd vanuit een grondperspectief, waarbij de kat op de voet wordt gevolgd, wat een laag en intiem perspectief geeft. Het beeld is filmisch met warme tinten en een korrelige textuur. Het verspreide daglicht tussen de bladeren en planten erboven creëert een warm contrast dat de oranje vacht van de kat accentueert. De opname is helder en scherp, met weinig scherptediepte.

Prompt: Luchtfoto van Santorini tijdens het blauwe uur, met de prachtige architectuur van witte Cycladische gebouwen met blauwe koepels. Het uitzicht op de vulkaankrater is adembenemend en de verlichting creëert een prachtige, serene sfeer.

Prompt: Panoramafoto van een bouwplaats vol met arbeiders, apparatuur en zware machines.

Prompt: Een reusachtige, torenhoge wolk in de vorm van een man doemt op boven de aarde. De wolkenman schiet lichtbollen naar de aarde.

Prompt: Een Samojeed en een golden retriever ravotten 's nachts speels door een futuristische neonstad. De neonlichten van de gebouwen in de buurt reflecteren op hun vacht.

Prompt: Het Glenfinnan Viaduct is een historische spoorbrug in Schotland, Verenigd Koninkrijk, die de westelijke hooglandlijn overbrugt tussen de steden Mallaig en Fort William. Het is een prachtig gezicht als een stoomtrein de brug achter zich laat en over het met bogen bedekte viaduct rijdt. Het landschap is bezaaid met weelderig groen en rotsachtige bergen, die een schilderachtige achtergrond vormen voor de treinreis. De lucht is blauw en de zon schijnt, waardoor het een prachtige dag is om deze majestueuze plek te verkennen.

Onderzoekstechnieken

Sora is een diffusiemodel dat een video genereert door te beginnen met een video die eruitziet als statische ruis en deze geleidelijk transformeert door de ruis in vele stappen te verwijderen.

Sora kan hele video's in één keer genereren of gegenereerde video's verlengen om ze langer te maken. Door het model een vooruitblik te geven op vele frames tegelijk, hebben we een uitdagend probleem opgelost, namelijk ervoor zorgen dat een onderwerp hetzelfde blijft, zelfs als het tijdelijk uit beeld gaat.

Net als GPT‑modellen gebruikt Sora een transformatorarchitectuur, waardoor superieure schaalprestaties worden ontsloten.

We stellen video's en afbeeldingen voor als verzamelingen van kleinere gegevenseenheden genaamd patches, die elk verwant zijn aan een token in GPT. Door de manier waarop we gegevens representeren te verenigen, kunnen we diffusietransformatoren trainen op een breder scala aan visuele gegevens dan voorheen mogelijk was, met verschillende looptijden, resoluties en beeldverhoudingen.

Sora bouwt voort op eerder onderzoek naar DALL-E en GPT‑modellen. Het maakt gebruik van de reanimatietechniek uit DALL-E 3, waarbij zeer beschrijvende bijschriften worden gegenereerd voor de visuele trainingsgegevens. Hierdoor kan het model de tekstinstructies van de gebruiker in de gegenereerde video nauwkeuriger volgen.

Het model kan niet alleen een video genereren op basis van alleen tekstinstructies, maar kan ook een bestaand stilstaand beeld nemen en er een video van maken, waarbij de inhoud van het beeld nauwkeurig en met aandacht voor kleine details wordt geanimeerd. Het model kan ook een bestaande video nemen en deze uitbreiden of ontbrekende frames invullen. Lees meer in ons technisch rapport⁠.

Sora dient als basis voor modellen die de echte wereld kunnen begrijpen en simuleren, een vermogen waarvan wij geloven dat het een belangrijke mijlpaal zal zijn voor het bereiken van AGI.

Bezig met laden...