Ruka hadi kwenye maudhui kuu
OpenAI

Kuunda video kutoka kwa maandishi

Video zote kwenye ukurasa huu zilizozalishwa moja kwa moja na Sora bila marekebisho.

Inapakia…

Tunafundisha AI kuelewa na kuiga ulimwengu wa kimwili unaosonga, kwa lengo la kutoa mafunzo kwa miundo inayosaidia watu kutatua matatizo yanayohitaji mwingiliano wa ulimwengu halisi.

Tunamtambulisha Sora, muundo wetu wa maandishi-hadi-video. Sora inaweza kuzalisha video za hadi dakika moja huku ikidumisha ubora wa kuona na kuzingatia maelekezo ya mtumiaji.

Leo, Sora inapatikana kwa timu ya wataalamu wa usalama kutathmini maeneo muhimu kwa madhara au hatari. Tunatoa pia ufikiaji kwa wasanii wa kuona, wabunifu, na watengenezaji wa filamu ili kupata majibu juu ya jinsi ya kuendeleza muundo ili uweze kusaidia zaidi wataalamu wa ubunifu.

Tunashiriki maendeleo yetu ya utafiti mapema ili kuanza kushirikiana na kupata majibu kutoka kwa watu nje ya OpenAI na kuwapa umma mtazamo wa uwezo wa AI unaokuja.

Sora ina uwezo wa kuzalisha matukio changamano yenye tabia nyingi, aina maalum za mwendo, na maelezo sahihi ya mada na mandhari. Muundo huelewa si tu kile ambacho mtumiaji ameomba katika dokeza, bali pia jinsi mambo hayo yanavyokuwepo katika ulimwengu wa kimwili.

Muundo una uelewa wa kina wa lugha, unaouwezesha kutafsiri kwa usahihi dokeza na kuzalisha tabia za kuvutia zinazojieleza hisia zenye nguvu. Sora pia inaweza kuunda picha nyingi ndani ya video moja iliyozalishwa ambayo inadumisha kwa usahihi tabia na mtindo wa kuona.

Muundo wa sasa bado una nafasi ya kuboreshwa. Inaweza kujitahidi kuiga fizikia ya eneo changamani, na inaweza isielewe matukio maalum ya sababu na athari (kwa mfano: kuki inaweza isionyeshe alama baada ya tabia kuuma). Muundo huo unaweza pia kuchanganya maelezo ya anga yaliyojumuishwa katika dokeza, kama vile kutofautisha kushoto na kulia, au kuwa na changamoto na maelezo sahihi ya matukio yanayoendelea kwa muda, kama vile mwelekeo maalum wa kamera.

Usalama

Tutachukua hatua kadhaa muhimu za usalama kabla ya kufanya Sora ipatikane katika bidhaa za OpenAI. Tunafanya kazi na wataalam wa timu nyekundu — wataalam wa kikoa katika maeneo kama habari potofu, yaliyomo yenye chuki, na upendeleo — ambao watakuwa wakijaribu muundo huo kwa njia ya upinzani.

Tunajenga pia zana za kusaidia kutambua yaliyomo potosha kama vile uainishaji wa kugundua ambao unaweza kusema wakati video ilizalishwa na Sora. Tuna mpango wa kujumuisha metadata ya C2PA(fungua katika dirisha jipya) katika siku zijazo ikiwa tutatumia muundo katika bidhaa ya OpenAI.

Mbali na sisi kuendeleza mbinu mpya za kujiandaa kwa utekelezaji, tunatumia mbinu za usalama zilizopo(fungua katika dirisha jipya) ambazo tulijenga kwa bidhaa zetu zinazotumia DALL·E 3, ambazo zinatumika kwa Sora pia.

Kwa mfano, mara tu katika bidhaa ya OpenAI, uainishaji wetu wa maandishi utachunguza na kukataa dokeza za Ingizo la maandishi ambazo zinakiuka sera zetu za matumizi, kama zile zinazoomba vurugu kali, maudhui ya ngono, picha za chuki, mfano wa watu mashuhuri, au IP ya wengine. Tumeunda pia viainishaji thabiti vya picha ambavyo hutumiwa kukagua fremu za kila video iliyozalishwa ili kusaidia kuhakikisha kuwa inafuata sera za matumizi zetu, kabla ya kuonyeshwa kwa mtumiaji.

Tutawashirikisha watunga sera, waelimishaji na wasanii kote ulimwenguni ili kuelewa wasiwasi wao na kutambua matumizi chanya ya teknolojia hii mpya. Licha ya utafiti na upimaji wa kina, hatuwezi kutabiri njia zote za faida ambazo watu watatumia teknolojia yetu, wala njia zote ambazo watu wataitumia vibaya. Ndio sababu tunaamini kwamba kujifunza kutokana na matumizi ya ulimwengu halisi ni sehemu muhimu ya kuunda na kutoa mifumo ya AI inayozidi kuwa salama kwa muda.

Research techniques

Sora ni muundo wa usambazaji, ambao huzalisha video kwa kuanzia na moja inayoonekana kama kelele za static na kuibadilisha hatua kwa hatua kwa kuondoa kelele hizo kwa hatua nyingi.

Sora ina uwezo wa zalisha video nzima mara moja au kuongeza muda wa video zilizozalishwa ili ziwe ndefu zaidi. Kwa kutoa muundo mtazamo wa fremu nyingi kwa wakati mmoja, tumesuluhisha tatizo gumu la kuhakikisha somo linabaki sawa hata linapotoka kwenye mtazamo kwa muda mfupi.

Sawa na miundo ya GPT, Sora hutumia usanifu wa transformer, kufungua utendaji bora wa upanuzi.

Tunawakilisha video na picha kama makusanyo ya vitengo vidogo vya data vinavyoitwa vipande, kila kimoja kikiwa sawa na tokeni katika GPT. Kwa kuunganisha jinsi tunavyowakilisha data, tunaweza kujifunze transfoma za usambazaji kwenye anuwai pana zaidi ya data ya kuona kuliko ilivyowezekana hapo awali, ikijumuisha muda tofauti, maazimio na uwiano wa vipengele.

Sora inajenga juu ya utafiti wa awali katika miundo ya DALL·E na GPT. Inatumia mbinu ya kurekebisha maelezo kutoka DALL·E 3, ambayo inajumuisha kuzalisha vichwa vya maelezo vya kina kwa data ya mafunzo ya kuona. Matokeo yake, muundo unaweza kufuata maagizo ya maandishi ya mtumiaji katika video inayozalishwa kwa uaminifu zaidi.

Mbali na uwezo wa kuzalisha video kutoka kwa maagizo ya maandishi pekee, muundo unaweza kuchukua picha iliyopo na kuunda video kutoka kwayo, ukiweka uhai kwenye maudhui ya picha kwa usahihi na umakini kwa maelezo madogo. Muundo unaweza pia kuchukua video iliyopo na kuipanua au kujaza fremu zilizokosekana. Pata maelezo zaidi katika ripoti yetu ya kiufundi.

Sora hutumika kama msingi wa miundo inayoweza kuelewa na kuiga ulimwengu halisi, uwezo ambao tunaamini utakuwa hatua muhimu kwa kufikia AGI.

Inapakia...