Overslaan naar hoofdinhoud
OpenAI

Alle video's op deze pagina zijn zonder wijzigingen rechtstreeks door Sora gemaakt.

Bezig met laden...

We leren AI de fysieke wereld in beweging te begrijpen en te simuleren, met als doel modellen te trainen die mensen helpen problemen op te lossen waarvoor interactie in de praktijk nodig is.

Maak kennis met Sora, ons tekst-naar-videomodel. Sora kan video's genereren die tot een minuut lang zijn, terwijl de visuele kwaliteit behouden blijft en de prompt van de gebruiker wordt opgevolgd.

Vandaag wordt Sora beschikbaar voor red teamers om kritieke gebieden te beoordelen op schade of risico's. We geven ook toegang aan een aantal visuele kunstenaars, ontwerpers en filmmakers om feedback te krijgen over hoe we het model verder kunnen ontwikkelen zodat het zo nuttig mogelijk is voor creatieve professionals.

We delen onze onderzoeksvoortgang al in een vroeg stadium om samen te werken met en feedback te krijgen van mensen buiten OpenAI en om het publiek een idee te geven van de AI-mogelijkheden die in het verschiet liggen.

Sora kan complexe scènes genereren met meerdere personages, specifieke soorten bewegingen en nauwkeurige details van het onderwerp en de achtergrond. Het model begrijpt niet alleen wat de gebruiker heeft gevraagd in de prompt, maar ook hoe die dingen bestaan in de fysieke wereld.

Het model heeft een grondige kennis van taal, waardoor het aanwijzingen nauwkeurig kan interpreteren en meeslepende personages kan genereren die levendige emoties uitdrukken. Sora kan ook meerdere shots maken binnen één gegenereerde video die personages en visuele stijl nauwkeurig nabootsen.

Het huidige model kan nog worden verbeterd. Het kan moeite hebben om de fysica van een complexe scène te simuleren en kan specifieke gevallen van oorzaak en gevolg niet begrijpen (bijvoorbeeld: een koekje vertoont misschien geen vlek nadat een personage erin bijt). Het model kan ook ruimtelijke details in een prompt verwarren, zoals het onderscheid tussen links en rechts, of moeite hebben met precieze beschrijvingen van gebeurtenissen die zich in de loop van de tijd ontvouwen, zoals specifieke cameratrajecten.

Safety

We zullen een aantal belangrijke veiligheidsstappen nemen voordat we Sora beschikbaar maken in OpenAI's producten. We werken samen met red teamers - domeinexperts op het gebied van desinformatie, haatdragende inhoud en vooroordelen - die het model op tegenspraak zullen testen.

We bouwen ook hulpmiddelen om misleidende inhoud te helpen detecteren, zoals een detectieclassificator die kan vertellen wanneer een video door Sora is gegenereerd. We zijn van plan om C2PA-metadata(opent in een nieuw venster) in de toekomst op te nemen als we het model in een OpenAI-product implementeren.

Naast het ontwikkelen van nieuwe technieken om ons voor te bereiden op de uitrol, maken we gebruik van de bestaande veiligheidsmethoden(opent in een nieuw venster) die we hebben ontwikkeld voor onze producten die DALL-E 3 gebruiken en die ook van toepassing zijn op Sora.

Eenmaal in een OpenAI product zal onze tekstclassificator bijvoorbeeld tekstinvoerprompts controleren en afwijzen die in strijd zijn met ons gebruiksbeleid, zoals prompts die vragen om extreem geweld, seksuele inhoud, haatdragende beelden, de gelijkenis van beroemdheden of het IP van anderen. We hebben ook robuuste beeldclassificeerders ontwikkeld die worden gebruikt om de frames van elke gegenereerde video te controleren om ervoor te zorgen dat deze voldoet aan ons gebruiksbeleid, voordat deze aan de gebruiker wordt getoond.

We gaan in gesprek met beleidsmakers, onderwijzers en kunstenaars over de hele wereld om hun zorgen te begrijpen en om positieve gebruikssituaties voor deze nieuwe technologie te identificeren. Ondanks uitgebreid onderzoek en testen kunnen we niet voorspellen op welke manieren mensen onze technologie zullen gebruiken, noch op welke manieren mensen er misbruik van zullen maken. Daarom geloven we dat leren uit de praktijk een cruciaal onderdeel is van het maken en uitbrengen van steeds veiligere AI-systemen.

Onderzoekstechnieken

Sora is een diffusiemodel dat een video genereert door te beginnen met een video die eruitziet als statische ruis en deze geleidelijk transformeert door de ruis in vele stappen te verwijderen.

Sora kan hele video's in één keer genereren of gegenereerde video's verlengen om ze langer te maken. Door het model een vooruitblik te geven op vele frames tegelijk, hebben we een uitdagend probleem opgelost, namelijk ervoor zorgen dat een onderwerp hetzelfde blijft, zelfs als het tijdelijk uit beeld gaat.

Net als GPT‑modellen gebruikt Sora een transformatorarchitectuur, waardoor superieure schaalprestaties worden ontsloten.

We stellen video's en afbeeldingen voor als verzamelingen van kleinere gegevenseenheden genaamd patches, die elk verwant zijn aan een token in GPT. Door de manier waarop we gegevens representeren te verenigen, kunnen we diffusietransformatoren trainen op een breder scala aan visuele gegevens dan voorheen mogelijk was, met verschillende looptijden, resoluties en beeldverhoudingen.

Sora bouwt voort op eerder onderzoek naar DALL-E en GPT‑modellen. Het maakt gebruik van de reanimatietechniek uit DALL-E 3, waarbij zeer beschrijvende bijschriften worden gegenereerd voor de visuele trainingsgegevens. Hierdoor kan het model de tekstinstructies van de gebruiker in de gegenereerde video nauwkeuriger volgen.

Het model kan niet alleen een video genereren op basis van alleen tekstinstructies, maar kan ook een bestaand stilstaand beeld nemen en er een video van maken, waarbij de inhoud van het beeld nauwkeurig en met aandacht voor kleine details wordt geanimeerd. Het model kan ook een bestaande video nemen en deze uitbreiden of ontbrekende frames invullen. Lees meer in ons technisch rapport.

Sora dient als basis voor modellen die de echte wereld kunnen begrijpen en simuleren, een vermogen waarvan wij geloven dat het een belangrijke mijlpaal zal zijn voor het bereiken van AGI.

Bezig met laden...