ChatGPT sedaj lahko vidi, sliši in govori

Začenjamo z uvajanjem novih možnosti za glasovne in slikovne funkcionalnosti v ChatGPT‑ju. Ponujajo nov, bolj intuitiven tip vmesnika, ki vam omogoča, da imate glasovni pogovor ali pokažete ChatGPT‑ju, o čem govorite.
Glas in slika vam ponujata več načinov za uporabo storitve ChatGPT v vašem življenju. Pofotkajte znamenitosti na potovanju in se pogovarjajte v živo o tem, kaj je zanimivo z njo. Ko ste doma, posnemite slike svojega hladilnika in shrambe, da ugotovite, kaj boste jedli (in postavite dodatna vprašanja za recept po korakih). Po večerji pomagajte otroku pri reševanju matematične naloge tako, da posnamete sliko, obkrožite nalogo in mu pomagate z namigi za rešitev.
Glas in slike uvajamo v ChatGPT‑ju za uporabnike Plus in Enterprise v naslednjih dveh tednih. Glasovna funkcionalnost bo na voljo na iOS in Android (aktivirajte jo v nastavitvah), slike pa bodo na voljo na vseh platformah.
Sedaj lahko z glasom sodelujete v dvosmernem pogovoru s svojim asistentom. Pogovarjajte se z njim na poti, zahtevajte pravljico za lahko noč za svojo družino ali rešite razpravo pri večerji.
Uporabite glas za vključitev v pogovor s svojim asistentom.
Za začetek z glasom pojdite v Nastavitve → Nova funkcionalnost v mobilni aplikaciji in omogočite glasovne pogovore. Nato tapnite gumb za slušalke, ki se nahaja v zgornjem desnem kotu začetnega zaslona, in izberite svoj najljubši glas med petimi različnimi glasovi.
Nova glasovna funkcionalnost temelji na novem modelu za pretvorbo besedila v govor, ki omogoča generiranje človeškemu podobnega zvoka iz besedila in nekaj sekund vzorčnega govora. Sodelovali smo s profesionalnimi glasovnimi igralci, da smo ustvarili vsak glas posebej. Poleg tega uporabljamo Whisper, naš odprtokodni sistem za prepoznavanje govora, da pretvorimo vaše izgovorjene besede v besedilo.
Zdaj lahko ChatGPT‑u pokažete eno ali več slik. Odpravite težave z žarom, raziščite vsebino hladilnika in pripravite obrok in analizirajte kompleksen graf za službeno obveznost. Za osredotočanje na specifičen del slike lahko uporabite orodje za risanje v naši mobilni aplikaciji.
Pokažite ChatGPT‑ju eno ali več slik.
Za začetek tapnite gumb za fotografijo, da posnamete ali izberete sliko. Če uporabljate iOS ali Android, najprej tapnite gumb plus. Lahko se pogovarjate tudi o več slikah ali uporabite naše orodje za risanje in usmerjate asistenta.
Razumevanje slik omogočata multimodalna GPT‑3.5 in GPT‑4. Ta modela uporabljata svoje jezikovno sklepanje za širok spekter slik, kot so fotografije, posnetki zaslona in dokumenti, ki vsebujejo tako besedilo kot slike.
Cilj OpenAI je zgraditi splošno umetno inteligenco, ki bo varna in koristna. Verjamemo v postopno uvajanje naših orodij, kar nam omogoča izboljšave in natančnejše prilagoditve tveganj skozi čas, hkrati pa pripravlja vse na močnejše sisteme v prihodnosti. Ta strategija postane še pomembnejša pri naprednih modelih, ki vključujejo glas in vid.
Nova glasovna tehnologija, ki omogoča ustvarjanje realističnih sintetičnih glasov iz le nekaj sekund resničnega govora, odpira vrata mnogim kreativnim in dostopnostno usmerjenim aplikacijam. Vendar pa te zmožnosti prinašajo tudi nove tveganja, kot so možnosti zlonamernih akterjev, da se prevarajo za javne osebe ali izvajajo goljufije.
Zato to tehnologijo uporabljamo za napajanje specifičnega primera uporabe glasovnega klepeta. Glasovni klepet je bil ustvarjen z glasovnimi igralci, s katerimi smo neposredno sodelovali. S podobnim načinom sodelujemo tudi z drugimi. Na primer, Spotify uporablja to tehnologijo za pilotno različico funkcionalnosti glasovnega prevajanja(odpre se v novem oknu), ki pomaga podkasterjem širiti doseg svojih zgodb s prevajanjem podkastov v dodatne jezike z glasom podkasterja.
Modeli, ki temeljijo na vidu, prinašajo tudi nove izzive, od halucinacij o ljudeh do zanašanja na interpretacijo modela slik v visokotveganiih področjih. Pred širšo uvedbo smo model testirali z red teamerji za oceno tveganja na področjih, kot sta ekstremizem in znanstvena usposobljenost, ter z raznoliko skupino alfa testerjev. Naše raziskave so omogočile uskladitev nekaterih ključnih podrobnosti za odgovorno uporabo.
Kot druge funkcionalnosti ChatGPT‑ja, tudi funkcionalnost vida pomaga pri vsakodnevnem življenju. Najbolje deluje, ko lahko vidi to, kar vidite vi.
Ta pristop je bil oblikovan z našim sodelovanjem z aplikacijo Be My Eyes, brezplačno mobilno aplikacijo za slepe in slabovidne ljudi, da bi razumeli možnosti in omejitve. Uporabniki so nam povedali, da jim je v pomoč, ko se pogovarjajo o slikah, ki vsebujejo ljudi v ozadju, kot na primer, ko nekdo nastopi na televiziji, medtem ko poskušate nastaviti daljinski upravljalnik.
Vzporedno s tem smo sprejeli tehnične ukrepe, da bi močno omejili sposobnost ChatGPT‑ja za analizo in neposredno izjavljanje o ljudeh, saj ChatGPT ni vedno natančen, te funkcionalnosti pa morajo spoštovati zasebnost posameznikov.
Uporaba v realnem svetu in povratne informacije nam bodo pomagale, da bomo te zaščite še izboljšali in hkrati ohranili uporabnost orodja.
Uporabniki se lahko zanašajo na ChatGPT za specializirane teme, na primer na področjih, kot je raziskovanje. Smo odprti glede omejitev modela in odsvetujemo uporabo v primeru višjih tveganj brez ustrezne verifikacije. Poleg tega je model zelo natančen pri transkripciji besedil v angleščini, vendar deluje slabo pri nekaterih drugih jezikih, zlasti tistih, ki uporabljajo nenavaden pisni sistem. Našim uporabnikom, ki ne govorijo angleško, uporabo ChatGPT‑ja za ta namen odsvetujemo.
Več o našem pristopu k varnosti in naši sodelovanju z aplikacijo Be My Eyes lahko preberete v sistemskem dokumentu za vnos slik..
Uporabniki Plus in Enterprise bodo imeli dostop do glasovnih in slikovnih funkcionalnosti v naslednjih dveh tednih. Z veseljem bomo te zmožnosti kmalu omogočili tudi drugim uporabniškim skupinam, vključno z razvijalci.
Avtor
Zahvala
Glasovni način temeljne raziskave
Alec Radford, Tao Xu, Jong Wook Kim
Glavna raziskava glasovnega načina
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


