Kalo te përmbajtja kryesore
OpenAI

Krijo video nga teksti

Të gjitha videot në këtë faqe u gjeneruan drejtpërdrejt nga Sora pa modifikime.

Duke ngarkuar…

Ne po mësojmë AI-në të kuptojë dhe simulojë botën fizike në lëvizje, me qëllim të trajnimit të modeleve që ndihmojnë njerëzit të zgjidhin problemet që kërkojnë ndërveprim në botën reale.

Prezantojmë Sora, modelin tonë për shndërrimin e tekstit në video. Sora mund të gjenerojë video deri në një minutë duke ruajtur cilësinë vizuale dhe duke ndjekur kërkesën e përdoruesit.

Sot, Sora po bëhet i disponueshëm për ekipet e kuqe për të vlerësuar zonat kritike për dëme ose rreziqe. Ne gjithashtu po u japim akses një numri artistësh vizualë, dizajnerësh dhe kineastësh për të marrë përshtypje se si ta përmirësojmë modelin për të qenë sa më të dobishëm për profesionistët krijues.

Ne po ndajmë herët përparimin tonë në kërkime për të filluar bashkëpunimin dhe marrjen e përshtypjeve nga njerëz jashtë OpenAI dhe për t'i dhënë publikut një ide se cilat aftësi të AI janë në horizont.

Sora është në gjendje të gjenerojë skena komplekse me shumë karaktere, lloje specifike të lëvizjes dhe detaje të sakta të subjektit dhe sfondit. Modeli kupton jo vetëm atë që përdoruesi ka përfshirë në kërkesë, por edhe se si ato gjëra ekzistojnë në botën fizike.

Modeli ka një kuptim të thellë të gjuhës, duke i mundësuar të interpretojë me saktësi kërkesat dhe të gjenerojë karaktere bindëse që shprehin emocione të gjalla. Sora gjithashtu mund të krijojë disa pamje brenda një videoje të vetme të përftuara që ruajnë me saktësi karakterët dhe stilin vizual.

Modeli aktual ka ende hapësirë për përmirësim. Mund të ketë vështirësi në simulimin e fizikës së një skene komplekse dhe mund të mos kuptojë raste specifike të shkakut dhe pasojës (për shembull: një biskotë mund të mos tregojë shenjë pasi kafshohet nga një personazh). Modeli mund të ngatërrojë gjithashtu detajet hapësinore të përfshira në një kërkesë, si dallimi i së majtës nga e djathta, ose të ketë vështirësi me përshkrime të sakta të ngjarjeve që zhvillohen me kalimin e kohës, si trajektoret specifike të kamerës.

Siguria në përdorim

Ne do të ndërmarrim disa hapa të rëndësishëm sigurie përpara se të bëjmë Sora-n të disponueshme në produktet e OpenAI-t. Ne po punojmë me ekipet e kuqe — ekspertë të domenit në fusha si dezinformimi, përmbajtje me urrejtje dhe paragjykimi — të cilat do të testojnë modelin në mënyrë të kryqëzuar.

Ne po ndërtojmë gjithashtu mjete për të ndihmuar në zbulimin e përmbajtjes dezinformuese, të tilla si një klasifikues zbulimi që mund të tregojë nëse një video është gjeneruar nga Sora. Ne planifikojmë të përfshijmë të dhënat meta C2PA(hapet në një dritare të re) në të ardhmen nëse e zbatojmë modelin në një produkt të OpenAI.

Përveç zhvillimit të teknikave të reja për t'u përgatitur për zbatim, ne po shfrytëzojmë metodat ekzistuese të sigurisë(hapet në një dritare të re) që kemi ndërtuar për produktet tona që përdorin DALL·E 3, të cilat janë të zbatueshme edhe për Sora.

Për shembull, në një produkt të OpenAI, klasifikuesi ynë i tekstit do të kontrollojë dhe refuzojë kërkesat e Hyrjes së tekstit që shkelin politikat tona të përdorimit, si ato që kërkojnë dhunë ekstreme, përmbajtje seksuale, imazhe urrejtjeje, ngjashmëri me të famshëm ose IP të të tjerëve. Ne kemi zhvilluar gjithashtu klasifikues të fuqishëm të imazheve që përdoren për të rishikuar kornizat e çdo videoje të gjeneruar për të siguruar që ajo t'i përmbahet politikave tona të përdorimit, para se t'i shfaqet përdoruesit.

Do të angazhojmë politikëbërës, mësues dhe artistë në mbarë botën për të kuptuar shqetësimet e tyre dhe për të identifikuar rastet pozitive të përdorimit për këtë teknologji të re. Pavarësisht nga kërkimet dhe testimet e gjera, ne nuk mund të parashikojmë të gjitha mënyrat se si njerëzit do të përdorin teknologjinë tonë në mënyrë të dobishme apo do ta keqpërdorin atë. Kjo është arsyeja pse besojmë se mësimi nga përdorimi në botën reale është një përbërës kritik për krijimin dhe publikimin e sistemeve të IA gjithnjë e më të sigurta me kalimin e kohës.

Research techniques

Sora është një model shpërndarjeje që gjeneron një video duke filluar me një si zhurmë statike dhe gradualisht e transformon atë duke hequr zhurmën në shumë hapa.

Sora është e aftë të gjenerojë video të plota menjëherë ose të zgjasë videot e gjeneruara për t'i bërë më të gjata. Duke i dhënë modelit aftësinë për të parashikuar shumë korniza njëherësh, ne kemi zgjidhur një problem sfidues: të sigurojmë që subjekti të mbetet i njëjtë edhe kur del përkohësisht nga pamja.

Në mënyrë të ngjashme me modelet GPT, Sora përdor një arkitekturë transformatori, duke mundësuar performancë shkallëzimi të përmirësuar.

Ne i paraqesim videot dhe imazhet si koleksione të njësive më të vogla të të dhënave të quajtura 'patches', ku secila është e ngjashme me një 'token' në GPT. Duke unifikuar mënyrën se si përfaqësojmë të dhënat, mund të trajnojmë transformatorët e shpërndarjes në një gamë më të gjerë të të dhënave vizuale sesa ishte e mundur më parë, duke përfshirë kohëzgjatje, rezolucione dhe raporte pamjeje të ndryshme.

Sora mbështetet në kërkimet e mëparshme në modelet DALL·E dhe GPT. Sora përdor teknikën e rivendosjes nga DALL·E 3, e cila përfshin gjenerimin e titrave shumë përshkruese për të dhënat vizuale të trajnimit. Si rezultat, modeli është në gjendje të ndjekë më besnikërisht udhëzimet e tekstit të përdoruesit në videon e gjeneruar.

Përveç se mund të gjenerojë një video vetëm nga udhëzimet me tekst, modeli mund të marrë një imazh ekzistues të palëvizshëm dhe të krijojë një video prej tij, duke animuar përmbajtjen e imazhit me saktësi dhe kujdes ndaj detajeve të vogla. Modeli gjithashtu mund të marrë një video ekzistuese dhe ta zgjerojë ose të plotësojë kornizat e munguara. Mëso më shumë në raportin tonë teknik.

Sora shërben si një bazë për modelet që mund të kuptojnë dhe simulojnë botën reale, një aftësi që ne besojmë se do të jetë një moment historik i rëndësishëm për arritjen e AGI.

Duke u ngarkuar...