2026. április 26-tól a Sora termék már nem érhető el.
Ma bemutatjuk a Sora 2-t, a zászlóshajó videó- és hanggeneráló modellünket.
A 2024 februárjában bemutatott eredeti Sora modell sok szempontból a videók GPT‑1 pillanata volt—ez volt az első alkalom, hogy a videógenerálás működőképesnek tűnt, és az előzetes képzés számítási kapacitásának növelésével egyszerű viselkedésformák, például az objektumok állandósága jelentek meg. Azóta a Sora Team a fejlettebb világszimulációs képességekkel rendelkező modellek betanítására összpontosít. Úgy hisszük, hogy az ilyen rendszerek kulcsfontosságúak lesznek a fizikai világot mélyen megértő AI-modellek betanításában. Ennek egyik jelentős mérföldköve a nagyméretű videóadatokon végzett elő- és utóbetanítás elsajátítása, amelyek a nyelvhez képest még gyerekcipőben járnak.
Prompt: figure skater performs a triple axle with a cat on her head
A Sora 2-vel elérkeztünk oda, ami szerintünk a videózás GPT‑3.5 pillanata lehet. A Sora 2 a korábbi videógeneráló modellek számára rendkívüli nehézséget jelentő – vagy egyenesen lehetetlen – dolgokra képes: készíthető vele akár egy állószörfdeszkán (SUP) bemutatott, a felhajtóerő és a szilárdság fizikáját tökéletesen modellező olimpiai tornagyakorlat, illetve hátraszaltó, de akár olyan tripla axel is, amely közben egy macska ijedten kapaszkodik, hogy el ne repüljön.
Prompt: a guy does a backflip
A korábbi videómodellek túlzottan optimisták—átalakítják az objektumokat és eltorzítják a valóságot, hogy sikeresen végrehajtsanak egy szöveges utasítást. Például, ha egy kosárlabdázó elhibázza a dobást, a labda spontán módon a gyűrűbe teleportálhat. A Sora 2-ben, ha egy kosárlabdázó kihagy egy dobást, az visszapattan a palánkról. Érdekes módon a modell által elkövetett „hibák” gyakran a belső ügynök hibáinak tűnnek, amelyet a Sora 2 implicit módon modellez; bár még mindig tökéletlen, jobban betartja a fizika törvényeit, mint a korábbi rendszerek. Ez egy rendkívül fontos képesség minden hasznos világszimulátor számára—nemcsak a sikert, hanem a kudarcot is modellezned kell.
A modell óriási előrelépést jelent az irányíthatóság területén is, mivel képes bonyolult, több snitten átívelő utasításokat követni, miközben precízen megtartja a környezet állapotát. Kiemelkedően jól teljesít a valósághű, filmes és anime stílusok esetén.
Prompt: Vikings Go To War — North Sea Launch (10.0s, Winter cool daylight / early medieval)...
Általános célú videó-hanggeneráló rendszerként képes kifinomult háttérhangokat, beszédet és hangeffekteket nagyfokú realizmussal létrehozni.
Prompt: Two mountain explorers in bright technical shells, ice crusted faces, eyes narrowed with urgency shout in the snow, one at a time
A valós világ elemeit közvetlenül is beillesztheted a Sora 2-be. Például, ha megfigyelsz egy videót az egyik csapattársunkról, a modell beillesztheti őket bármely Sora által generálás során létrehozott környezetbe, pontos megjelenésükkel és hangjukkal. Ez a képesség nagyon általános, és bármilyen emberre, állatra vagy tárgyra működik.
Prompt: Bigfoot is really kind to him, a little too kind, like oddly kind. Bigfoot wants to hang out but he he wants to hang too much
A modell messze nem tökéletes, és sok hibát követ el, de ez igazolja, hogy a neurális hálózatok további bővítése a videóadatokon közelebb visz minket a valóság szimulálásához.
Az általános célú szimuláció és a fizikai világban működő AI-rendszerek felé vezető úton úgy gondoljuk, hogy az emberek jól szórakozhatnak az általunk fejlesztett modellekkel.
Néhány hónappal ezelőtt kezdtünk el először játszani ezzel a „töltsd fel magad” funkcióval a Sora csapatában, és mindannyian nagyon élveztük. Olyan érzés volt, mintha a kommunikáció természetes fejlődése lenne—az SMS-ektől az emojikon át a hangjegyzetekig, és most ez.
Ma elindítunk egy új közösségi iOS alkalmazást, amelyet egyszerűen „Sora” néven ismerhettek meg, és amely a Sora 2-re épül. Az alkalmazásban létrehozhattok, remixelhetitek egymás alkotásait, felfedezhettek új videókat egy testreszabható Sora hírfolyamban, és bevonhatjátok magatokat vagy a barátaitokat egy „Karakter” nevű funkcióval. A „karakterek” funkcióval egy rövid, egyszeri videó- és hangfelvétel után, amely az identitásod ellenőrzésére és a hasonlóságod rögzítésére szolgál, közvetlenül bármely Sora jelenetbe beillesztheted magad, rendkívüli hűséggel.
Múlt héten belsőleg elindítottuk az appot az OpenAI összes tagjának. Már hallottuk a kollégáinktól, hogy a funkciónak köszönhetően új barátokat szereznek a vállalatnál. Úgy gondoljuk, hogy a „karakterek” funkció köré épülő közösségi alkalmazás a legjobb módja annak, hogy megtapasztaljuk a Sora 2 varázsát.
A doomscrolling, a függőség, az elszigeteltség és az RL-optimalizált hírcsatornák miatti aggodalmak a legfontosabbak—lássuk, mit teszünk ez ellen.
Olyan eszközöket és beállítási lehetőségeket kínálunk a felhasználóknak, hogy saját maguk szabályozhassák, mit jelenjen meg a tartalomfolyamukban. Az OpenAI meglévő nagy nyelvi modelljeire építve kifejlesztettünk egy természetes nyelvű utasításokat végrehajtó új típusú ajánlóalgoritmust. Emellett beépített mechanizmusokkal rendszeresen rákérdezünk a felhasználók közérzetére, és proaktívan felajánljuk nekik, hogy módosíthassák a tartalomfolyamuk beállításait.
Alapértelmezés szerint olyan tartalmakat jelenítünk meg, amelyek erősen kötődnek az olyan személyekhez, akiket követsz, vagy akikkel interakciót folytatsz, és előnyben részesítjük azokat a videókat, amelyeket a modell szerint nagy valószínűséggel inspirációként használnál a saját alkotásaidhoz. A működést nem a tartalomfolyamban eltöltendő minél több időre optimalizáljuk – az appot kifejezetten az alkotás, nem pedig a fogyasztás ösztönzésére terveztük. További részleteket a Tartalomfolyam filozófiájacímű részben találhatsz.
Az appot a barátaiddal való közös használatra készítettük. A tesztelők többségének visszajelzései alapján a karakterek jelentik azt az egyedi és szórakoztató élményt, ami minden eddig megszokottól eltér – tényleg ki kell próbálnod, hogy valóban megértsd, de ez egy teljesen új és különleges módja a másokkal való kommunikációnak. Az appot meghívásos alapon vezetjük be, hogy biztosan a barátaiddal együtt vágj bele. Olyan időszakban, amikor minden nagy platform eltávolodik a kapcsolati hálótól, úgy gondoljuk, hogy a karakterek megerősítik majd a közösséget.
A tizenévesek jólétének védelme fontos számunkra. Alapértelmezett korlátokat vezetünk be arra vonatkozóan, hogy a tizenévesek naponta hány generációt láthatnak a hírfolyamban, és szigorúbb engedélyeket is bevezetünk a karakterekre vonatkozóan ennél a csoportnál. Az automatizált biztonsági rendszereink mellett bővítjük az emberi moderátorok csapatait, hogy gyorsan átnézzék a zaklatás eseteit, ha felmerülnek. A Sora szülői felügyeletet a ChatGPT‑n keresztül indítjuk el, így a szülők felülírhatják a végtelen görgetési korlátokat, kikapcsolhatják az algoritmusok személyre szabását, valamint kezelhetik a közvetlen üzenetek beállításait.
A karakterekkel a Sora segítségével teljes mértékben Te irányítod a képmásod kezelését. Csak Te döntöd el, ki használhatja a karakteredet, és bármikor visszavonhatod a hozzáférést, vagy eltávolíthatsz bármilyen videót, amelyben szerepel. A rólad készült karaktert tartalmazó videókat – beleértve mások által készített vázlatokat is – bármikor megtekintheted.
Rengeteg biztonsági témakörrel foglalkoztunk ezzel az alkalmazással—a hasonmás használatára vonatkozó beleegyezés, az eredet, a káros tartalmak előállításának megakadályozása és még sok más. További részletekért nézd meg a Sora 2 biztonsági dokumentumot.
Más alkalmazásokkal kapcsolatos sok probléma abból fakad, hogy a bevételszerzési modell olyan döntéseket ösztönöz, amelyek ellentétesek a felhasználók jólétével. Átláthatóan az egyetlen jelenlegi tervünk az, hogy végül lehetőséget adjunk a felhasználóknak arra, hogy fizessenek egy bizonyos összeget egy extra videó generálásáért, ha túl nagy a kereslet a rendelkezésre álló számítási kapacitáshoz képest. Ahogy az alkalmazás fejlődik, nyíltan kommunikáljuk majd a megközelítésünkben bekövetkező változásokat itt, miközben továbbra is a felhasználók jólétét tartjuk fő célunknak.
Még csak az út elején járunk, de a Sora 2 alkalmazás hatékony eszközeivel, amelyekkel tartalmakat lehet létrehozni és remixelni, ezt egy teljesen új korszak kezdetének tekintjük a közös alkotói élmények terén. Optimisták vagyunk, hogy ez egy egészségesebb platform lesz a szórakozás és kreativitás számára, mint ami jelenleg elérhető. Reméljük, jól fogjátok érezni magatokat :)
A Sora iOS app(új ablakban nyílik meg) mostantól letölthető. Az appon belül regisztrálhatsz arra a leküldéses értesítésre, amely jelzi, ha megnyílik a hozzáférés a fiókodhoz. Ma indítjuk a kezdeti bevezetést az Egyesült Államokban és Kanadában, és hamarosan további országokra is igyekszünk kiterjeszteni. Miután megkaptad a meghívót, a Sora 2 is elérhetővé válik számodra a sora.com(új ablakban nyílik meg) webhelyen. A Sora 2 kezdetben ingyenesen, engedékeny korlátozások mellett lesz elérhető, hogy bárki szabadon megismerkedhessen a képességeivel, bár azok továbbra is a rendelkezésre álló számítási kapacitásoktól függenek. A ChatGPT Pro-felhasználók a sora.com(új ablakban nyílik meg) webhelyen (és hamarosan a Sora appban is) használhatják majd a kísérleti, jobb minőségű Sora 2 Pro modellt. Terveink szerint a Sora 2 az API-n keresztül is elérhető lesz. A Sora 1 Turbo továbbra is elérhető marad, és a sora.com(új ablakban nyílik meg) webhelyen elérhető könyvtáradban továbbra is hozzáférhetsz mindenhez, amit eddig készítettél vele.
A videómodellek egyre tökéletesebbé válnak, és elképesztő ütemben fejlődnek. Az általános célú világszimulátorok és robotügynökök alapjaiban fogják átalakítani a társadalmat, és felgyorsítják az emberi fejlődés ívét. A Sora 2 jelentős előrelépést jelent ezen cél felé. Az OpenAI küldetésével összhangban fontos, hogy a modellek kifejlesztése során az emberiség is részesüljön azok előnyeiből. Hiszünk abban, hogy Sora rengeteg örömmel, kreativitással és kapcsolattal gazdagítja a világot.
— Írta: a Sora csapata
Elsődleges cél vizuális elemek
Első olvasat: egy sárkány, amely szaggatott jégcsúcsok között száguld, szárnyvégei örvényeket kavarva; második olvasat: a gleccser törött jégtakarója, amely egy kobaltkék fjordba zuhan, borostyánszínű napfény csókolgatja a pikkelyeken megfagyott harmatot; a kifejezés ragadozó nyugalmat és könnyed erőt sugároz.
Formátum és megjelenés
5,0 másodperc; 4K; 180°-os zár; nagy formátumú digitális érzékelő emuláció éles mikrokontrasztokkal; nagyon finom szemcsésség; visszafogott haláció a hó csillogásán; nincs gate weave.
Objektívek és szűrés
Hero: 50 mm-es gömb alakú lencse orrra szerelt giroszkóp-stabilizált légi platformon (párhuzamos követés enyhe befelé íveléssel). Szűrés: Fekete Pro-Mist 1/8; a kör alakú polarizátor megszelídíti a hó csillogását, miközben megőrzi a tükröződő ragyogást.
Fokozat / Paletta
Kiemelések: tiszta jégfehér, hűvös átmenettel; Középtónusok: acélkék gleccser és halvány ciánkék levegő; Árnyékok: pala/türkiz, megőrzött hasadék részletekkel; meleg borostyánszegély a sárkány szélein a különválasztáshoz; spekulárok szorosan a fagy/pikkelyen.
Fények és hangulat
Késő délutáni, alacsonyan álló Nap keresztfénye; leáramló hegyi szélben szálló porhó; mélységet érzékeltető vékony, fagyos pára; a sárkány mögött időnként feltörő jégporfelhők; erőfeszítés miatt megjelenő finom lehelet.
Helyszín és keretezés
Toronymagas jégmező és késéles gerincvonal; a kamera közepes magasságban követi a sárkány sebességét, a gleccser átlós vonalai visszavezetnek a fjordhoz; az előtérben lévő jégcsúcsok közel haladnak el a parallaxis miatt; nincsenek emberi építmények.
Ruhatár / Kellékek / Járműjegyzetek
N/A (lény). Felületi olvasat: matt szarvgerincek, félig irizáló pikkelylemezek mikrofagyott elülső élekkel.
Hang
Magaslégköri szélnyírás, a szárny membránja minden lecsapásnál dörög, a jégcsapok kristályos jégcsikorgása, távoli gleccser-leszakadás dübörgés; a sárkány gyors kilégzése/dörömbölése: „Rrhh—” (1 másodperc alatt). Nincs pontszám—tiszta diegetikus áhítat.
Optimalizált felvétellista (1 felvétel / 5,0 másodperc)
0,0–5,0 – „Párhuzamos hegygerinchasadék” (50 mm, orr-ra szerelt kamerával készült légi felvétel, enyhén befelé ívelő pálya, lassú közelítés)
A kamerával a sárkány mellett repülünk, ahogy jégcsúcsok közötti folyosókon halad keresztül; a szárnyvégi örvények szalagok formájában sodorják a porhavat; egy letörő jégtömb a mélybe zuhan, finom porfelhőt hagyva maga után; a kamera fokozatosan közelít – a pikkelyek részletesen kirajzolódnak, borostyánszínű kontúrfény villan – majd a sárkány a fjord felé fordul, farka ollószerűen hasítja a levegőt, és hatalmas árnyékot vet a gleccserre.
Cél: Kelts egyetlen meghatározó lépésben mitikus léptékű, tapintható valósághűséget – jól érzékelhető sebességgel, tömeggel és rendkívül hideggel.
Kamerára vonatkozó megjegyzések (Miért olvasható)
Az 50 mm kiegyensúlyozza a lény jelenlétét és a táj méretarányát anélkül, hogy lekicsinyítené; a párhuzamos pálya és a befelé ívelés jelképezi a sebességet és a formát; a lassú közelítés időzítése a legerősebb elem a hatásos hangsúly eléréséhez; a fénypolarizátor szabályozza a tükröződést, miközben megőrzi a csillogást; a Nap háttere/pereme képezi a sziluettet; a közelben elszáguldó jéguszonyok parallaxis sebességet érzékeltetnek.
Utómunka
Nagyon finom szemcsézettség (~15%); minimális fényudvar a csillogó hó miatt; enyhe nyomtatási emuláció a kékek hitelességének és a feketék gazdagságának megőrzése érdekében; többsávos dinamika az élethű szárnycsapások megőrzése érdekében anélkül, hogy elfedné a jéghegy omlását; poszterkeret: sárkány egy napsütötte jégképződményen át, a hófúvás áramlik, a fjord mélykéken ragyog.
Sora 2
Debbie Mesloh
Caroline Zhao
Kiadás: MMXXIV december 9.


