25. syyskuuta 2023

ChatGPT voi nyt nähdä, kuulla ja puhua

Otamme käyttöön uusia ääni- ja kuvaominaisuuksia ChatGPT:ssä. Ne tarjoavat uuden, intuitiivisemman käyttöliittymän sallimalla sinun käydä äänikeskustelua tai näyttää ChatGPT:lle, mistä puhut.

Ääni ja kuva antavat sinulle lisää tapoja käyttää ChatGPT:tä elämässäsi. Ota kuva maamerkistä matkustaessasi ja keskustele reaaliajassa sen mielenkiintoisista puolista. Kun olet kotona, ota kuvia jääkaapista ja ruokakaapista selvittääksesi, mitä voisit tehdä päivälliseksi (ja kysy jatkokysymyksiä vaiheittaisesta reseptistä). Auta lastasi päivällisen jälkeen matemaattisen tehtävän kanssa ottamalla siitä valokuva, ympyröimällä tehtävä ja pyytämällä ChatGPT:tä antamaan vinkkejä teille molemmille.

Otamme ChatGPT:n ääni- ja kuvaominaisuudet käyttöön Plus- ja Enterprise-käyttäjille seuraavan kahden viikon aikana. Ääni on tulossa iOS:lle ja Androidille (valitse se asetuksistasi) ja kuvat ovat saatavilla kaikilla alustoilla.

Keskustele ChatGPT:n kanssa ja anna sen vastata

Voit nyt keskustella avustajasi kanssa äänelläsi. Puhu sen kanssa missä ja milloin vain, pyydä iltasatua perheellesi tai ratkaise riita päivällispöydässä.

Käytä äänikomentoja keskustellaksesi avustajasi kanssa.

Aloita äänikeskustelut siirtymällä mobiilisovelluksessa kohtaan Asetukset → Uudet ominaisuudet ja ottamalla käyttöön äänikeskustelut. Napauta sitten aloitusnäytön oikeassa yläkulmassa olevaa kuulokepainiketta ja valitse haluamasi ääni viidestä eri äänestä.

Uusi ääniominaisuus perustuu uuteen tekstistä puheeksi -malliin, joka pystyy tuottamaan ihmismäistä ääntä pelkästä tekstistä ja muutamasta sekunnista näytepuhetta. Teimme yhteistyötä ammattimaisten ääninäyttelijöiden kanssa luodaksemme jokaisen äänen. Käytämme myös avoimen lähdekoodin puheentunnistusjärjestelmäämme Whisperiä puhuttujen sanojen litterointiin tekstiksi.

Ladataan...

Keskustele kuvista

Voit nyt näyttää ChatGPT:lle yhden tai useamman kuvan. Määritä vika, miksi grillisi ei käynnisty, tutki jääkaappisi sisältöä aterian suunnittelua varten tai analysoi monimutkaista kaaviota työhön liittyvistä tiedoista. Voit tarkentaa tiettyyn osaan kuvasta käyttämällä mobiilisovelluksemme piirtotyökalua.

Näytä ChatGPT:lle yksi tai useampi kuva.

Aloita ottamalla kuva napauttamalla valokuvapainiketta tai valitsemalla kuvan. Jos käytät iOS:ää tai Androidia, napauta ensin plus-painiketta. Voit myös keskustella useista kuvista tai käyttää piirtotyökaluamme avustajasi opastamiseen.

Kuvan ymmärtämistä tukevat multimodaalinen GPT‑3.5 ja GPT‑4. Nämä mallit soveltavat kielen päättelytaitojaan monenlaisiin kuviin, kuten valokuviin, kuvakaappauksiin ja sekä tekstiä että kuvia sisältäviin dokumentteihin.

Otamme kuva- ja ääniominaisuuksia käyttöön vähitellen

OpenAI:n tavoitteena on rakentaa turvallista ja hyödyllistä tekoälyä. Uskomme työkalujemme asteittaiseen saatavuuteen, mikä antaa meille mahdollisuuden tehdä parannuksia ja tarkentaa riskien lieventämismenetelmiä ajan myötä ja samalla valmistautua tehokkaampiin järjestelmiin tulevaisuudessa. Tästä strategiasta tulee entistä tärkeämpi edistyneissä malleissa, joissa on mukana ääntä ja näköä.

Ääni

Uusi ääniteknologia, joka pystyy luomaan realistisia synteettisiä ääniä vain muutaman sekunnin mittaisesta oikeasta puheesta, avaa ovia monille luoville ja esteettömyyskeskeisille sovelluksille. Nämä ominaisuudet tuovat kuitenkin mukanaan myös uusia riskejä, kuten mahdollisuuden, että pahantahtoiset toimijat voivat esiintyä julkisuuden henkilöinä tai tehdä petoksia.

Siksi käytämme tätä teknologiaa tiettyyn käyttötarkoitukseen: äänikeskusteluun. Äänikeskustelu luotiin ääninäyttelijöiden kanssa, joiden kanssa olemme työskennelleet suoraan. Teemme myös yhteistyötä muiden kanssa samalla tavalla. Esimerkiksi Spotify hyödyntää tämän teknologian tehoa äänikäännös⁠(avautuu uudessa ikkunassa)ominaisuuden pilottivaiheessa, joka auttaa podcast-juontajia laajentamaan tarinankerrontansa ulottuvuutta kääntämällä podcasteja muille kielille omalla äänellään.

Kuvasyöte

Näköön perustuvat mallit tuovat myös uusia haasteita, aina ihmisiin liittyvistä hallusinaatioista mallin kuvien tulkintaan luottamiseen korkean panoksen omaavilla aloilla. Ennen laajempaa käyttöönottoa testasimme mallia riskien arvioimiseksi esimerkiksi äärimmäisyyksien ja tieteellisen pätevyyden osa-alueilla sekä monipuolisen alfatestaajien joukon kanssa. Tutkimuksemme mahdollisti yhdenmukaistamaan muutaman vastuullisen käytön keskeisen yksityiskohdan.

Näön tekeminen sekä hyödylliseksi että turvalliseksi

Kuten muutkin ChatGPT‑ominaisuudet, näkö auttaa jokapäiväisessä elämässä. Se onnistuu parhaiten, kun se näkee saman kuin sinä.

Tätä lähestymistapaa on tukenut työmme Be My Eyes -sovelluksen kanssa, joka on näkövammaisille ja heikkonäköisille tarkoitettu ilmainen mobiilisovellus. Näin pyrimme ymmärtämään sen käyttötarkoituksia ja rajoituksia. Käyttäjät ovat kertoneet meille, että heidän mielestään on arvokasta keskustella yleisistä kuvista, joissa sattuu olemaan ihmisiä taustalla, kuten jos joku ilmestyy televisioon, kun yrität selvittää kaukosäätimen asetuksia.

Olemme myös ryhtyneet teknisiin toimenpiteisiin rajoittaaksemme merkittävästi ChatGPT:n kykyä analysoida ja antaa suoria lausuntoja ihmisistä, koska ChatGPT ei ole aina tarkka ja näiden järjestelmien tulisi kunnioittaa ihmisten yksityisyyttä.

Käytännön käyttötavat ja palaute auttavat meitä parantamaan näitä suojatoimia entisestään ja pitämään työkalun hyödyllisenä.

Läpinäkyvyys mallin rajoituksista

Käyttäjät saattavat olla riippuvaisia ChatGPT:stä erikoistuneissa aiheissa, esimerkiksi tutkimuksen kaltaisilla aloilla. Olemme avoimia mallin rajoitusten suhteen emmekä suosittele korkeamman riskin käyttötapauksia ilman asianmukaista varmennusta. Lisäksi malli litteroi englanninkielistä tekstiä hyvin, mutta toimii heikosti joillakin muilla kielillä, erityisesti sellaisilla, joissa ei käytetä latinalaisia aakkosia. Kehotamme muita kuin englanninkielisiä käyttäjiämme olemaan käyttämättä ChatGPT:tä tähän tarkoitukseen.

Voit lukea lisää lähestymistavastamme turvallisuuteen ja työstämme Be My Eyesin kanssa kuvasyötettä varten tarkoitetusta järjestelmäkortista⁠.

Laajennamme käyttöoikeutta

Plus- ja Enterprise-käyttäjät pääsevät kokeilemaan ääntä ja kuvia seuraavien kahden viikon aikana. Olemme innoissamme voidessamme julkaista nämä ominaisuudet muille käyttäjäryhmille, mukaan lukien kehittäjille, pian sen jälkeen.