Sora 2 ja és aquí
El nostre darrer model de generació de vídeo és més precís físicament, més realista i més controlable que els sistemes anteriors. També incorpora diàleg sincronitzat i efectes de so. Crea-hi amb la nova app de Sora.
A partir del 26 d’abril de 2026, el producte Sora ja no està disponible.
Avui llancem Sora 2, el nostre model insígnia de generació de vídeo i àudio.
El model Sora original del febrer de 2024 va ser, en molts sentits, el moment GPT‑1 del vídeo: la primera vegada que la generació de vídeo va començar a semblar que funcionava, i que comportaments simples com la permanència dels objectes van emergir de l’escalat del còmput de preentrenament. Des d’aleshores, l’equip de Sora s’ha centrat a entrenar models amb capacitats més avançades de simulació del món. Creiem que aquests sistemes seran fonamentals per entrenar models d’IA que entenguin profundament el món físic. Una fita important per a això és dominar el preentrenament i el postentrenament sobre dades de vídeo a gran escala, que encara es troben en una fase molt primerenca en comparació amb el llenguatge.
Prompt: figure skater performs a triple axle with a cat on her head
Amb Sora 2, anem directament al que pensem que pot ser el moment GPT‑3.5 del vídeo. Sora 2 pot fer coses excepcionalment difícils —i en alguns casos directament impossibles— per als models anteriors de generació de vídeo: rutines olímpiques de gimnàstica, mortals enrere sobre una taula de rem que modelen amb precisió la dinàmica de la flotabilitat i la rigidesa, i triples axels mentre un gat s’hi aferra amb totes les seves forces.
Prompt: a guy does a backflip
Els models de vídeo anteriors són massa optimistes: transformen objectes i deformen la realitat per executar amb èxit una indicació de text. Per exemple, si un jugador de bàsquet falla un llançament, la pilota pot teletransportar-se espontàniament a la cistella. A Sora 2, si un jugador de bàsquet falla un llançament, la pilota rebotarà contra el tauler. Curiosament, els «errors» que fa el model sovint semblen errors de l’agent intern que Sora 2 està modelant implícitament; tot i que encara és imperfecte, obeeix millor les lleis de la física en comparació amb els sistemes anteriors. Aquesta és una capacitat extremadament important per a qualsevol simulador del món útil: has de poder modelar el fracàs, no només l’èxit.
El model també representa un gran salt endavant en controlabilitat, capaç de seguir instruccions intricades que abasten diversos plans mentre manté amb precisió l’estat del món. Destaca en estils realistes, cinematogràfics i anime.
Prompt: Vikings Go To War — North Sea Launch (10.0s, Winter cool daylight / early medieval)...
Com a sistema de propòsit general de generació de vídeo i àudio, és capaç de crear paisatges sonors de fons sofisticats, veu i efectes de so amb un alt grau de realisme.
Prompt: Two mountain explorers in bright technical shells, ice crusted faces, eyes narrowed with urgency shout in the snow, one at a time
També pots injectar directament elements del món real a Sora 2. Per exemple, observant un vídeo d’un dels nostres companys d’equip, el model el pot inserir en qualsevol entorn generat per Sora amb una representació precisa de l’aparença i la veu. Aquesta capacitat és molt general i funciona per a qualsevol humà, animal o objecte.
Prompt: Bigfoot is really kind to him, a little too kind, like oddly kind. Bigfoot wants to hang out but he he wants to hang too much
El model és lluny de ser perfecte i comet molts errors, però valida que continuar escalant les xarxes neuronals amb dades de vídeo ens acostarà a simular la realitat.
En el camí cap a la simulació de propòsit general i els sistemes d’IA que poden funcionar en el món físic, creiem que la gent es pot divertir molt amb els models que anem construint pel camí.
Vam començar a jugar amb aquesta funció de «puja’t a tu mateix» fa uns quants mesos dins de l’equip de Sora, i ens ho vam passar genial. Va semblar una evolució natural de la comunicació: dels missatges de text als emojis, a les notes de veu i a això.
Així que avui llancem una nova app social per a iOS anomenada simplement «Sora», impulsada per Sora 2. Dins de l’app, pots crear, remesclar les generacions dels altres, descobrir vídeos nous en un feed de Sora personalitzable i incorporar-t’hi tu o els teus amics amb una funció anomenada «characters». Amb characters, pots inserir-te directament en qualsevol escena de Sora amb una fidelitat notable després d’un breu enregistrament únic de vídeo i àudio a l’app per verificar la teva identitat i captar la teva aparença.
La setmana passada vam llançar l’app internament a tot OpenAI. Ja hem sentit de companys que estan fent nous amics a l’empresa gràcies a la funció. Creiem que una app social construïda al voltant d’aquesta funció de «characters» és la millor manera d’experimentar la màgia de Sora 2.
Les preocupacions sobre el doomscrolling, l’addicció, l’aïllament i els feeds optimitzats amb RL són prioritàries per a nosaltres: això és el que estem fent al respecte.
Donem als usuaris les eines i l’opcionalitat per tenir el control del que veuen al feed. Amb els models de llenguatge extensos existents d’OpenAI, hem desenvolupat una nova classe d’algoritmes de recomanació que es poden instruir amb llenguatge natural. També hem incorporat mecanismes per consultar periòdicament els usuaris sobre el seu benestar i oferir-los proactivament l’opció d’ajustar el seu feed.
Per defecte, et mostrem contingut fortament esbiaixat cap a les persones que segueixes o amb qui interactues, i prioritzem els vídeos que el model creu que és més probable que facis servir com a inspiració per a les teves pròpies creacions. No optimitzem pel temps passat al feed, i hem dissenyat explícitament l’app per maximitzar la creació, no el consum. Pots trobar més detalls a la nostra Filosofia del feed
Aquesta app està feta per usar-la amb els teus amics. El feedback aclaparador dels testers és que characters és el que fa que això se senti diferent i divertit d’utilitzar: ho has de provar per entendre-ho de debò, però és una manera nova i única de comunicar-se amb la gent. Ho llancem com una app basada en invitacions per assegurar-nos que hi entris amb els teus amics. En un moment en què totes les grans plataformes s’allunyen del graf social, creiem que characters reforçarà la comunitat.
Protegir el benestar dels adolescents és important per a nosaltres. Estem establint límits predeterminats sobre quantes generacions poden veure els adolescents cada dia al feed, i també llancem permisos més estrictes sobre characters per a aquest grup. A més de les nostres piles de seguretat automatitzades, estem ampliant els equips de moderadors humans per revisar ràpidament casos d’assetjament si n’hi hagués. Fem el llançament amb el control parental de Sora control parental a través de ChatGPT perquè els pares puguin anul·lar els límits d’scroll infinit, desactivar la personalització algorítmica i gestionar la configuració dels missatges directes.
Amb characters, tu tens el control total de la teva aparença de cap a cap amb Sora. Només tu decideixes qui pot fer servir el teu character, i pots revocar l’accés o eliminar qualsevol vídeo que l’inclogui en qualsevol moment. Els vídeos que contenen un character teu, inclosos els esborranys creats per altres persones, els pots veure en qualsevol moment.
Hi ha molts temes de seguretat que hem abordat amb aquesta app —el consentiment al voltant de l’ús de l’aparença, la procedència, la prevenció de la generació de contingut perjudicial i molt més. Consulta el nostre document de seguretat de Sora 2 per a més detalls.
Molts problemes d’altres apps provenen del fet que el model de monetització incentiva decisions que van en contra del benestar de l’usuari. Amb transparència, l’únic pla actual que tenim és oferir eventualment als usuaris l’opció de pagar una certa quantitat per generar un vídeo extra si hi ha massa demanda en relació amb el còmput disponible. A mesura que l’app evolucioni, comunicarem obertament aquí qualsevol canvi en el nostre enfocament, mentre continuem mantenint el benestar de l’usuari com a objectiu principal.
Som al començament d’aquest viatge, però amb totes les maneres potents de crear i remesclar contingut amb Sora 2, ho veiem com l’inici d’una era completament nova per a les experiències cocreatives. Som optimistes que aquesta serà una plataforma més saludable per a l’entreteniment i la creativitat que el que hi ha disponible ara mateix. Esperem que t’ho passis bé :)
L’app de Sora per a iOS(s'obre en una finestra nova) ja està disponible per descarregar. Pots registrar-t’hi dins de l’app per rebre una notificació push quan s’obri l’accés per al teu compte. Avui comencem el desplegament inicial als Estats Units i el Canadà, amb la intenció d’ampliar-nos ràpidament a més països. Després d’haver rebut una invitació, també podràs accedir a Sora 2 a través de sora.com(s'obre en una finestra nova). Sora 2 estarà disponible inicialment de franc, amb límits generosos per començar perquè la gent pugui explorar lliurement les seves capacitats, tot i que continuen subjectes a restriccions de còmput. Els usuaris de ChatGPT Pro també podran utilitzar el nostre model experimental de més qualitat Sora 2 Pro a sora.com(s'obre en una finestra nova) (i aviat també a l’app de Sora). També tenim previst llançar Sora 2 a l’API. Sora 1 Turbo continuarà disponible, i tot el que hagis creat continuarà vivint a la teva biblioteca de sora.com(s'obre en una finestra nova).
Els models de vídeo estan millorant molt, i molt ràpidament. Els simuladors del món de propòsit general i els agents robòtics remodelaran fonamentalment la societat i acceleraran l’arc del progrés humà. Sora 2 representa un progrés significatiu cap a aquest objectiu. En coherència amb la missió d’OpenAI, és important que la humanitat es beneficiï d’aquests models a mesura que es desenvolupen. Creiem que Sora aportarà molta alegria, creativitat i connexió al món.
— Escrit per l’equip de Sora
Objectiu principal i visuals
Primera lectura: un drac tallant l’aire entre agulles de gel dentades, amb vòrtexs a les puntes de les ales aixecant neu polsosa; segona lectura: la placa fracturada de la glacera que cau cap a un fiord cobalt, amb el contorn del sol ambre besant el gebre de les escates; l’expressió transmet calma depredadora / poder sense esforç.
Format i aspecte
5,0 s; 4K; obturador de 180°; emulació de sensor digital de gran format amb microcontrast nítid; gra molt fi; halació continguda en els reflexos de la neu; sense gate weave.
Lents i filtratge
Principal: 50 mm esfèric en plataforma aèria giroestabilitzada muntada al morro (seguiment paral·lel amb lleu arc cap endins). Filtratge: Black Pro-Mist 1/8; polaritzador circular ajustat a la llum per domar l’enlluernament de la neu mantenint la lluïssor especular.
Gradació / paleta
Altes llums: blanc de gel net amb transició freda; tons mitjans: glacera blau acer i aire cian pàl·lid; ombres: pissarra/verd blavós amb detall preservat a les esquerdes; vora ambre càlida als contorns del drac per separar-lo; especulars concentrats sobre gebre/escata.
Il·luminació i atmosfera
Sol baix de darrera hora de la tarda en clau creuada; vent catabàtic aixecant neu polsosa; lleu boirina gelada per donar profunditat; ràfegues intermitents de pols de gel a l’estela; lleu vapor d’alè del drac quan s’esforça.
Localització i enquadrament
Immens camp de seracs i carena afilada com un ganivet; la càmera segueix el drac a la mateixa velocitat i a mitja altitud, amb les diagonals de la glacera conduint cap al fiord; aletes de gel en primer terme passen a prop per donar paral·laxi; cap estructura humana.
Vestuari / atrezzo / notes del vehicle
N/A (criatura). Lectura de superfície: crestes de banya mates, plaques d’escates semiiresdents amb microgebre a les vores d’atac.
So
Tall del vent en altura, tro del membranós de les ales a cada batuda descendent, tic/crec cristal·lí del gel dels seracs, llunyà esclat del despreniment de la glacera; exhalació/remor ràpida del drac: «Rrhh—» (menys d’1 s). Sense música: meravella diegètica pura.
Llista de plans optimitzada (1 pla / 5,0 s)
0,0–5,0 — «Talla paral·lela de carena» (50 mm, muntatge aeri al morro amb lleu arc cap endins i microaproximació)
Acompanyem el drac mentre travessa un corredor d’agulles de gel; els vòrtexs de les puntes de les ales arrosseguen neu polsosa en cintes; un fragment que es desprèn cau molt avall, aixecant un núvol de pols; la càmera s’acosta suaument —es llegeixen les escates, s’encén el contorn ambre— i després el drac s’inclina cap al fiord, amb la cua fent tisora i projectant una ombra ampla sobre la glacera.
Objectiu: oferir escala mítica amb realisme tàctil en una sola passada decisiva: velocitat, massa i fred elemental.
Notes de càmera (per què funciona)
El 50 mm equilibra la presència de la criatura i l’escala del paisatge sense miniaturitzar-los; el seguiment paral·lel + arc cap endins ven velocitat i forma; la microaproximació coincideix amb la batuda més forta per remarcar la potència; el polaritzador lleuger controla l’enlluernament mantenint la lluentor; el sol de darrere/de contorn esculpeix la silueta; les aletes de gel que gairebé freguen donen pistes de velocitat per paral·laxi.
Acabat
Gra molt fi (~15%); halació mínima en els especulars de la neu; suau emulació d’impressió per mantenir creïbles els blaus i rics els negres; dinàmica multibanda per conservar el cop d’ala sense emmascarar el bram del despreniment; fotograma pòster: drac inclinat sobre un serac il·luminat pel sol, amb neu polsosa corrent, i el fiord resplendent d’un blau profund al fons.
Sora 2
Debbie Mesloh
Caroline Zhao
Publicat el 30 de setembre, 2024


