Siirry pääsisältöön
OpenAI

Kaikki tällä sivulla olevat videot on luotu suoraan Soran avulla ilman muokkaamista.

Ladataan...

Opetamme tekoälyä ymmärtämään ja simuloimaan liikkeessä olevaa fyysistä maailmaa. Tavoitteena on kouluttaa malleja, jotka tukevat ihmisiä reaalimaailman ongelmien ratkaisemisessa.

Esittelyssä Sora, tekstistä videoksi -mallimme. Sora voi tuottaa jopa minuutin pituisia videoita säilyttäen samalla visuaalisen laadun ja noudattaen käyttäjän kehotetta.

Sora on nyt tulossa red teaming -työntekijöiden käytettäväksi, jotta he voivat arvioida kriittisiä alueita haittojen tai riskien varalta. Annamme myös käyttöoikeuden useille kuvataiteilijoille, suunnittelijoille ja elokuvantekijöille saadaksemme palautetta siitä, miten mallia voidaan kehittää, jotta siitä olisi eniten hyötyä luovien alojen ammattilaisille.

Kerromme tutkimustuloksista varhaisessa vaiheessa, jotta voimme aloittaa yhteistyön OpenAI:n ulkopuolisten toimijoiden kanssa ja saada palautetta sekä antaa yleisölle käsityksen siitä, millaisia tekoälyominaisuuksia on odotettavissa.

Sora pystyy luomaan monimutkaisia kohtauksia, joissa on useita hahmoja, erityyppistä liikettä ja tarkkoja yksityiskohtia kohteesta ja taustasta. Malli ymmärtää paitsi sen, mitä käyttäjä on pyytänyt kehotteessa, myös sen, miten asiat ovat olemassa fyysisessä maailmassa.

Mallilla on syvä ymmärrys kielestä, minkä ansiosta se pystyy tulkitsemaan kehotuksia tarkasti ja luomaan kiehtovia hahmoja, jotka ilmaisevat eläviä tunteita. Sora voi myös luoda yhden videon sisällä useita otoksia, jotka jäljittelevät tarkasti hahmoja ja visuaalista tyyliä.

Nykyisessä mallissa on vielä parantamisen varaa. Sillä voi olla vaikeuksia simuloida monimutkaisen kohtauksen fyysisiä ominaisuuksia, eikä se välttämättä ymmärrä tiettyjä syy-seuraus-suhteita (esimerkiksi keksiin ei välttämättä jää jälkeä sen jälkeen, kun henkilö on purrut sitä). Malli saattaa myös sekoittaa kehotukseen sisältyviä spatiaalisia yksityiskohtia, kuten vasemman ja oikean erottamisen, tai se saattaa olla vaikeuksissa ajan mittaan etenevien tapahtumien tarkkojen kuvausten, kuten kameran liikeratojen, kanssa.

Safety

Teemme useita tärkeitä turvallisuustoimenpiteitä ennen kuin Sora on saatavilla OpenAI:n tuotteissa. Työskentelemme yhdessä red team -työntekijöiden kanssa, jotka ovat väärän tiedon, vihamielisen sisällön ja ennakkoluulojen kaltaisten alojen asiantuntijoita ja jotka testaavat mallia vastakkainasettelulla.

Kehitämme myös työkaluja, jotka auttavat havaitsemaan harhaanjohtavan sisällön, kuten havaintoluokittelijan, joka tunnistaa, milloin video on Soran luoma. Aiomme sisällyttää C2PA-metatiedot(avautuu uudessa ikkunassa) tulevaisuudessa, jos otamme mallin käyttöön OpenAI-tuotteessa.

Sen lisäksi, että kehitämme uusia tekniikoita käyttöönottoa varten, hyödynnämme olemassa olevia turvallisuusmenetelmiä(avautuu uudessa ikkunassa), jotka olemme kehittäneet DALL-E 3:a käyttäviä tuotteitamme varten ja joita voidaan soveltaa myös Soraan.

Esimerkiksi OpenAI-tuotteessa tekstiluokittelijamme tarkistaa ja hylkää tekstin syötekehotteet, jotka ovat käyttöä koskevien käytäntöjemme vastaisia, kuten sellaiset, jotka sisältävät äärimmäistä väkivaltaa, seksuaalista sisältöä, vihamielistä kuvamateriaalia, julkkisten kuvia tai muiden henkilöiden IP-tietoja. Olemme myös kehittäneet vakaita kuvanluokittelijoita, joita käytetään jokaisen luodun videon kuvien tarkistamiseen, jotta voidaan varmistaa, että se on käyttöä koskevien käytäntöjemme mukainen, ennen kuin se näytetään käyttäjälle.

Otamme yhteyttä poliittisiin päättäjiin, kouluttajiin ja taiteilijoihin eri puolilla maailmaa ymmärtääksemme heidän huolenaiheitaan ja kartoittaaksemme uuden teknologian myönteisiä käyttötapoja. Laajoista tutkimuksista ja testeistä huolimatta emme voi ennustaa kaikkia hyödyllisiä tapoja, joilla ihmiset käyttävät teknologiaamme, emmekä tapoja, joilla ihmiset käyttävät sitä väärin. Siksi uskomme, että reaalimaailman käytöstä oppiminen on ratkaiseva osa yhä turvallisempien tekoälyjärjestelmien luomista ja julkaisemista ajan myötä.

Tutkimustekniikat

Sora on diffuusiomalli, joka luo videon aloittamalla sen staattiselta kohinalta näyttävästä videosta ja muuttamalla sitä vähitellen poistamalla kohinaa monessa vaiheessa.

Sora pystyy luomaan kokonaisia videoita kerralla tai pidentämään luotuja videoita. Antamalla mallille mahdollisuuden nähdä useita ruutuja kerrallaan olemme ratkaisseet haastavan ongelman, joka koskee kohteen pysymistä samana, vaikka se poistuisi hetkeksi näkyvistä.

GPT‑mallien tapaan Sora käyttää muuntajan arkkitehtuuria, joka mahdollistaa ylivoimaisen skaalautuvuuden.

Esitämme videot ja kuvat pienempien tietoyksiköiden kokoelmina, joita kutsutaan segmenteiksi (patches), joista kukin on GPT:n tunnisteen kaltainen. Yhdenmukaistamalla tiedon esitystapoja voimme kouluttaa diffuusiomuuntajia laajemmalla valikoimalla visuaalista dataa kuin aiemmin oli mahdollista, kattaen eri kestot, resoluutiot ja kuvasuhteet.

Sora perustuu aiempaan tutkimukseen DALL-E- ja GPT‑malleista. Siinä käytetään DALL-E 3:ssa käytettyä uudelleenkirjoitustekniikkaa, jossa visuaaliselle harjoitusaineistolle luodaan erittäin kuvailevia kuvatekstejä. Tämän seurauksena malli pystyy seuraamaan käyttäjän tekstiohjeita luodussa videossa uskollisemmin.

Sen lisäksi, että malli pystyy luomaan videon pelkästään tekstiohjeiden perusteella, se pystyy myös ottamaan olemassa olevan still-kuvan ja luomaan siitä videon animoimalla kuvan sisällön tarkasti ja pieniin yksityiskohtiin paneutuen. Malli voi myös ottaa olemassa olevan videon ja laajentaa sitä tai täydentää puuttuvia ruutuja. Lue lisää teknisestä raportistamme.

Sora toimii perustana malleille, jotka pystyvät ymmärtämään ja simuloimaan todellista maailmaa, ja uskomme, että tämä kyky on tärkeä virstanpylväs AGI:n saavuttamisessa.

Ladataan...