Пређите на главни садржај
OpenAI

25. септембар 2023.

Производ

ChatGPT sada može da vidi, čuje i govori

ChatGPT Can Now See Hear And Speak

Počinjemo sa postepenim uvođenjem novih glasovnih i slikovnih mogućnosti u ChatGPT. One nude novi, intuitivniji tip interfejsa tako što vam omogućavaju da vodite glasovni razgovor ili pokažete ChatGPT‑ju o čemu govorite.

Glas i slike vam daju više načina da koristite ChatGPT u svom životu. Fotografišite znamenitost dok putujete i vodite razgovor uživo o tome šta je kod nje zanimljivo. Kada ste kod kuće, fotografišite frižider i ostavu da biste smislili šta je za večeru (i postavite dodatna pitanja za recept korak po korak). Posle večere, pomozite svom detetu sa zadatkom iz matematike tako što ćete uslikati fotografiju, zaokružiti skup zadataka i zatražiti da podeli smernice sa vama oboma.

Uvodimo glas i slike u ChatGPT za Plus i Enterprise korisnike tokom naredne dve nedelje. Glas stiže na iOS i Android (uz uključivanje u podešavanjima), a slike će biti dostupne na svim platformama.

Razgovarajte sa ChatGPT i neka vam odgovori glasom

Sada možete da koristite glas za vođenje dvosmernog razgovora sa svojim asistentom. Razgovarajte s njim u pokretu, zatražite priču za laku noć za svoju porodicu ili razrešite raspravu za stolom tokom večere.

Use voice to engage in a back-and-forth conversation with your assistant.

Da biste počeli sa glasom, idite na Settings → New Features u mobilnoj aplikaciji i uključite se u glasovne razgovore. Zatim dodirnite dugme sa slušalicama u gornjem desnom uglu početnog ekrana i izaberite željeni glas među pet različitih glasova.

Nova glasovna mogućnost pokreće novi model za pretvaranje teksta u govor, sposoban da generiše zvuk nalik ljudskom samo iz teksta i nekoliko sekundi uzorka govora. Sarađivali smo sa profesionalnim glasovnim glumcima kako bismo kreirali svaki od glasova. Takođe koristimo model Whisper, naš open-source sistem za prepoznavanje govora, da prepišemo vaše izgovorene reči u tekst.

Учитавање...

Razgovarajte o slikama

Sada možete da pokažete ChatGPT‑ju jednu ili više slika. Otkrijte zašto vam se roštilj ne pokreće, istražite sadržaj svog frižidera da biste isplanirali obrok ili analizirajte složen grafikon za podatke vezane za posao. Da biste se fokusirali na određeni deo slike, možete koristiti alat za crtanje u našoj mobilnoj aplikaciji.

Show ChatGPT one or more images.

Da biste počeli, dodirnite dugme za fotografiju da snimite ili izaberete sliku. Ako ste na iOS-u ili Androidu, prvo dodirnite dugme plus. Takođe možete razgovarati o više slika ili koristiti naš alat za crtanje da usmerite svog asistenta.

Razumevanje slika pokreću multimodalni GPT‑3.5 i GPT‑4. Ovi modeli primenjuju svoje veštine jezičkog rezonovanja na širok spektar slika, kao što su fotografije, snimci ekrana i dokumenta koja sadrže i tekst i slike.

Slikovne i glasovne mogućnosti uvodimo postepeno

Cilj OpenAI-ja je da izgradi AGI koji je bezbedan i koristan. Verujemo u postepeno stavljanje naših alata na raspolaganje, što nam omogućava da vremenom unapređujemo i usavršavamo ublažavanje rizika, a istovremeno sve pripremamo za moćnije sisteme u budućnosti. Ova strategija postaje još važnija sa naprednim modelima koji uključuju glas i viziju.

Glas

Nova glasovna tehnologija — sposobna da od samo nekoliko sekundi stvarnog govora napravi realistične sintetičke glasove — otvara vrata mnogim kreativnim i pristupačnosti usmerenim primenama. Međutim, ove mogućnosti donose i nove rizike, kao što je mogućnost da zlonamerni akteri oponašaju javne ličnosti ili počine prevaru.

Zato ovu tehnologiju koristimo za konkretnu namenu — glasovno ćaskanje. Glasovno ćaskanje je napravljeno sa glasovnim glumcima sa kojima smo direktno sarađivali. Na sličan način sarađujemo i sa drugima. Na primer, Spotify koristi snagu ove tehnologije za pilot svoje funkcije Voice Translation(отвара се у новом прозору), koja pomaže podkasterima da prošire domet svog pripovedanja prevodeći podkaste na dodatne jezike glasovima samih podkastera.

Unos slike

Modeli zasnovani na viziji takođe donose nove izazove, od halucinacija o ljudima do oslanjanja na tumačenje slika od strane modela u oblastima sa visokim ulozima. Pre šire primene, testirali smo model sa red teamerima na rizike u oblastima kao što su ekstremizam i naučna stručnost, kao i sa raznovrsnom grupom alfa testera. Naše istraživanje nam je omogućilo da uskladimo nekoliko ključnih detalja za odgovornu upotrebu.

Kako viziju učiniti i korisnom i bezbednom

Kao i druge funkcije ChatGPT‑ja, vizija je tu da vam pomaže u svakodnevnom životu. To najbolje radi kada može da vidi ono što vi vidite. 

Ovaj pristup je direktno oblikovan našim radom sa Be My Eyes, besplatnom mobilnom aplikacijom za slepe i slabovide osobe, kako bismo razumeli upotrebe i ograničenja. Korisnici su nam rekli da im je dragoceno da vode opšte razgovore o slikama koje slučajno sadrže ljude u pozadini, na primer ako se neko pojavi na TV-u dok pokušavate da shvatite podešavanja daljinskog upravljača.

Takođe smo preduzeli tehničke mere da značajno ograničimo sposobnost ChatGPT‑ja da analizira ljude i daje direktne tvrdnje o njima, pošto ChatGPT nije uvek tačan i ovi sistemi treba da poštuju privatnost pojedinaca.

Upotreba u stvarnom svetu i povratne informacije pomoći će nam da ove zaštitne mere učinimo još boljim, a da alat ostane koristan.

Transparentnost u vezi sa ograničenjima modela

Korisnici bi mogli da se oslanjaju na ChatGPT za specijalizovane teme, na primer u oblastima kao što su istraživanja. Transparentni smo u vezi sa ograničenjima modela i obeshrabrujemo slučajeve upotrebe sa većim rizikom bez odgovarajuće provere. Pored toga, model je vešt u transkribovanju engleskog teksta, ali loše radi sa nekim drugim jezicima, posebno onima sa nelatiničnim pismom. Savetujemo korisnicima koji ne govore engleski da ne koriste ChatGPT u ovu svrhu.

Možete pročitati više o našem pristupu bezbednosti i našem radu sa Be My Eyes u sistemskoj kartici za unos slike.

Proširićemo pristup

Plus i Enterprise korisnici će moći da isprobaju glas i slike u naredne dve nedelje. Uzbuđeni smo što ćemo ubrzo nakon toga ove mogućnosti uvesti i drugim grupama korisnika, uključujući programere.

Autor

OpenAI

Zahvalnice

Osnovno istraživanje režima glasa

Alec Radford, Tao Xu, Jong Wook Kim

Osnovno istraživanje primene vizije

Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal

Pogledajte tehnički rad i autore za GPT-4V(ision)