Ugrás a fő tartalomra
OpenAI

Videó létrehozása szövegből

Az ezen az oldalon lévő összes videót közvetlenül a Sora generálta, módosítás nélkül.

Betöltés…

Az AI-t arra tanítjuk, hogy megértse és szimulálja a mozgásban lévő fizikai világot, azzal a céllal, hogy olyan modelleket tanítsunk be, amelyek segítenek az embereknek megoldani a valós interakciót igénylő problémákat.

Bemutatjuk a Sora-t, a szöveget videóvá alakító modellünket. A Sora képes akár egyperces videókat generálni, miközben megőrzi a vizuális minőséget és betartja a felhasználó utasításait.

Mára a Sora elérhető a vörös csapatok számára, hogy felmérjék a kritikus területek kockázatait vagy veszélyeit. Számos vizuális művésznek, tervezőnek és filmkészítőnek is hozzáférést adunk, hogy visszajelzést kapjanak arról, hogyan lehet a modellt a kreatív szakemberek számára a leghasznosabbá fejleszteni.

A kutatási eredményeinket korán megosztjuk, hogy együttműködésbe kezdjünk az OpenAI-n kívüli emberekkel, és visszajelzést kapjunk tőlük, valamint hogy a nyilvánosság képet kapjon arról, milyen mesterséges intelligencia képességeket várhatnak a jövőben.

A Sora képes összetett jeleneteket generálni több karakterrel, meghatározott mozgástípusokkal, valamint a téma és a háttér pontos részleteivel. A modell nemcsak azt érti, hogy a felhasználó mit kért az utasításban, hanem azt is, hogy ezek a dolgok hogyan léteznek a fizikai világban.

A modell mélyen érti a nyelvet, lehetővé téve az utasítások pontos értelmezését és lenyűgöző karakterek generálását, amelyek élénk érzelmeket fejeznek ki. A Sora több felvételt is létrehozhat egyetlen generált videón belül, amelyek pontosan megőrzik a karaktereket és a vizuális stílust.

A jelenlegi modellen még lehet javítani. Előfordulhat, hogy nehezen tudja szimulálni egy összetett jelenet fizikáját, és nem érti az ok-okozati összefüggések konkrét eseteit (például: egy sütin nem látható, hogy egy karakter beleharapott). A modell összekeverheti az utasításban szereplő térbeli részleteket, például a bal és jobb megkülönböztetését, vagy nehézségei lehetnek az időben kibontakozó események pontos leírásával, mint például a kamera konkrét mozgásának követése.

Biztonság

Számos fontos biztonsági lépést teszünk, mielőtt a Sora elérhetővé válik az OpenAI termékeiben. Együtt dolgozunk a red team tagjaival — olyan domainek szakértőivel, mint a félretájékoztatás, a gyűlöletkeltő tartalom és az elfogultság —, akik a modellt ellenségesen fogják tesztelni.

Emellett olyan eszközöket fejlesztünk, amelyek segítenek felismerni a félrevezető tartalmat, például egy osztályozót, amely meg tudja állapítani, hogy mikor generált egy videót a Sora. Azt tervezzük, hogy a jövőben beépítjük a C2PA metaadatokat(új ablakban nyílik meg) egy modell OpenAI termékben történő telepítésekor.

Amellett, hogy új technikákat fejlesztünk ki a telepítésre való felkészülés érdekében, kihasználjuk a meglévő biztonsági módszereket(új ablakban nyílik meg), amelyeket a DALL·E 3-at használó termékeinkhez fejlesztettünk, és amelyek a Sora-ra is alkalmazhatók.

Például egy OpenAI-termékben a szövegosztályozónk ellenőrzi és elutasítja azokat a szövegbevitelű utasításokat, amelyek sértik a használati irányelveinket, például ha szélsőséges erőszakot, szexuális tartalmat, gyűlöletkeltő képeket, hírességek hasonmását vagy mások szellemi tulajdonát kérik. Emellett robusztus képosztályozókat is fejlesztettünk, amelyek segítségével minden generált videó képkockáit áttekintjük, hogy azok megfeleljenek a használati irányelveinknek, még mielőtt megjelenítenénk a felhasználónak.

Világszerte bevonjuk a politikai döntéshozókat, oktatókat és művészeket, hogy megértsük az ő aggodalmaikat, és azonosítsuk az új technológia pozitív felhasználási lehetőségeit. A kiterjedt kutatások és tesztelések ellenére sem tudjuk megjósolni, hogy az emberek milyen előnyös módon fogják használni a technológiánkat, sem azt, hogy milyen módon élnek majd vele vissza. Ezért hisszük, hogy a valós használatból való tanulás kritikus eleme annak, hogy idővel egyre biztonságosabb mesterséges intelligencia rendszereket hozzunk létre és adjunk ki.

Research techniques

A Sora egy diffúziós modell, amely ügy generál videót, hogy kezdetben egy statikus zajnak tűnő videóval indul, majd fokozatosan átalakítja azt a zaj eltávolításával több lépésben.

A Sora képes egyszerre teljes videókat generálni, vagy a generált videókat meghosszabbítani. Azzal, hogy a modell egyszerre több képkockát lát előre, megoldottuk azt a kihívást jelentő problémát, miszerint a tárgy akkor is változatlan maradjon, ha átmenetileg kikerül a látómezőből.

A GPT modellekhez hasonlóan a Sora transzformátor architektúrát alkalmaz, amely lehetővé teszi a kiváló skálázási teljesítményt.

A videókat és képeket kisebb adategységek gyűjteményeként ábrázoljuk, amelyeket foltoknak nevezünk, és amelyek mindegyike a GPT‑ben egy-egy tokenhez hasonlít. Az adatok egységes reprezentálásával szélesebb körű vizuális adatokon tudjuk betanítani a diffúziós transzformátorokat, mint korábban lehetséges volt, különböző időtartamok, felbontások és képarányok között.

A Sora a DALL·E és a GPT modellek korábbi kutatásaira épít. A DALL·E 3-ban alkalmazott feliratozási technikát használja, amely rendkívül részletes feliratozások generálását foglalja magában a vizuális betanítási adatokhoz. Ennek eredményeként a modell hűebben tudja követni a felhasználó szöveges utasításait a generálás során készült videóban.

Amellett, hogy kizárólag szöveges utasításokból képes videót generálni, a modell képes egy meglévő állóképből is videót készíteni, a kép tartalmát pontosan és az apró részletekre figyelemmel animálva. A modell képes egy meglévő videót is felhasználni, azt kibővíteni vagy kitölteni a hiányzó képkockákat. Tudj meg többet a műszaki jelentésünkből.

A Sora alapként szolgál olyan modellekhez, amelyek képesek megérteni és szimulálni a valós világot; ezt a képességet fontos mérföldkőnek tartjuk az AGI eléréséhez.

Betöltés...