Preskočite na glavni sadržaj
OpenAI

25. septembar 2023.

Product

ChatGPT sada može vidjeti, čuti i govoriti

ChatGPT sada može vidjeti, čuti i govoriti

Počinjemo s uvođenjem novih glasovnih i slikovnih mogućnosti u ChatGPT. Ove mogućnosti nude novi, intuitivniji tip sučelja omogućavajući vam da vodite glasovni razgovor ili pokažete ChatGPT‑u o čemu govorite.

Glas i slika vam pružaju više načina za korištenje ChatGPT‑a u vašem životu. Snimite fotografiju znamenitosti dok putujete i vodite razgovor uživo o tome što je zanimljivo u vezi s njom. Kada ste kod kuće, slikajte svoj frižider i ostavu kako biste odlučili šta će biti za večeru (i postavljajte daljnja pitanja za recept korak po korak). Nakon večere, pomozite svom djetetu s matematičkim problemom tako što ćete fotografisati, zaokružiti skup problema i podijeliti savjete s oboje vas.

Uvodimo glas i slike u ChatGPT za Plus i Enterprise korisnike tokom sljedeće dvije sedmice. Glas dolazi na iOS i Android (mogućnost uključivanja u vašim postavkama), a slike će biti dostupne na svim platformama.

Razgovarajte s ChatGPT-om i neka vam on odgovori

Sada možete koristiti glas za vođenje razgovora naprijed-nazad sa svojim asistentom. Razgovarajte s njim u pokretu, zatražite priču za laku noć za svoju porodicu ili razriješite raspravu za porodičnim stolom.

Koristite glas za vođenje dvosmjerne razgovore sa svojim asistentom.

Da biste započeli s glasovnim funkcijama, idite na Postavke → Nove funkcije u mobilnoj aplikaciji i uključite se u glasovne razgovore. Zatim, dodirnite dugme za slušalice koje se nalazi u gornjem desnom uglu početnog ekrana i odaberite željeni glas među pet različitih glasova.

Nova glasovna sposobnost pokreće se novim modelom za pretvaranje teksta u govor, koji je sposoban generirati zvuk nalik ljudskom iz samo teksta i nekoliko sekundi uzorka govora. Sarađivali smo s profesionalnim glumcima za glas kako bismo kreirali svaki glas. Također koristimo Whisper, naš open-source sistem za prepoznavanje govora, kako bismo transkribirali Vaše izgovorene riječi u tekst.

Učitavanje...

Razgovori o slikama

Sada možete prikazati ChatGPT‑u jednu ili više slika. Rješavajte probleme zašto vaš roštilj neće da se upali, istražite sadržaj vašeg frižidera kako biste planirali obrok ili analizirajte složen grafikon za radne podatke. Da biste se fokusirali na određeni dio slike, možete koristiti alat za crtanje u našoj mobilnoj aplikaciji.

Prikažite ChatGPT‑u jednu ili više slika.

Da biste započeli, dodirnite dugme za fotografiju kako biste snimili ili odabrali sliku. Ako ste na iOS-u ili Androidu, prvo dodirnite dugme plus. Također možete raspravljati o više slika ili koristiti naš alat za crtanje kako biste vodili Vašeg asistenta.

Razumijevanje slika pokreću multimodalni GPT‑3.5 i GPT‑4. Ovi modeli primjenjuju svoje jezičke rezonirajuće vještine na širok spektar slika, kao što su fotografije, snimke ekrana i dokumenti koji sadrže i tekst i slike.

Uvodimo mogućnosti slika i glasa postepeno

Cilj OpenAI-a je izgraditi AGI koji je siguran i koristan. Vjerujemo u postepeno omogućavanje dostupnosti naših alata, što nam omogućava da s vremenom unaprijedimo i usavršimo mjere smanjenja rizika, dok istovremeno pripremamo sve za moćnije sisteme u budućnosti. Ova strategija postaje još važnija s naprednim modelima koji uključuju glas i video.

Glas

Nova tehnologija glasovne sinteze—sposobna za kreiranje realističnih sintetičkih glasova iz samo nekoliko sekundi stvarnog govora—otvara vrata mnogim kreativnim i aplikacijama usmjerenim na pristupačnost. Međutim, ove sposobnosti također donose nove rizike, kao što je mogućnost da se zlonamjerni akteri lažno predstavljaju kao javne ličnosti ili počine prevaru.

Zato koristimo ovu tehnologiju za pokretanje specifičnog slučaja upotrebe—glasovni chat. Glasovni chat je kreiran s glasovnim glumcima s kojima smo izravno surađivali. Također surađujemo na sličan način s drugima. Na primjer, Spotify koristi snagu ove tehnologije za pilot verziju svoje funkcije Glasovni prijevod(otvara se u novom prozoru), koja pomaže podcasterima da prošire doseg svojih priča prevodeći podcaste na dodatne jezike u vlastitim glasovima podcastera.

Unos slike

Modeli zasnovani na viziji također predstavljaju nove izazove, od halucinacija o ljudima do oslanjanja na interpretaciju slika modela u domenima visokog uloga. Prije šire implementacije, testirali smo model s članovima crvenog tima za rizike u domenama kao što su ekstremizam i naučna stručnost, te raznovrsnim skupom alfa testera. Naše istraživanje omogućilo nam je da se uskladimo oko nekoliko ključnih detalja za odgovorno korištenje.

Čineći viziju korisnom i sigurnom

Kao i druge funkcije ChatGPT‑a, vizija je tu da vam pomogne u vašem svakodnevnom životu. To najbolje radi kada može vidjeti ono što vi vidite. 

Ovaj pristup je direktno oblikovan našim radom sa Be My Eyes, besplatnom mobilnom aplikacijom za slijepe i slabovidne osobe, kako bismo razumjeli upotrebu i ograničenja. Korisnici su nam rekli da im je važno voditi opće razgovore o slikama koje slučajno sadrže ljude u pozadini, kao kada se neko pojavi na TV-u dok pokušavate podesiti postavke daljinskog upravljača.

Također smo poduzeli tehničke mjere kako bismo značajno ograničili sposobnost ChatGPT‑a da analizira i daje direktne izjave o ljudima, budući da ChatGPT nije uvijek tačan i ovi sistemi trebaju poštovati privatnost pojedinaca.

Korištenje u stvarnom svijetu i povratni odgovori pomoći će nam da ove zaštitne mjere učinimo još boljima, a da alat ostane koristan.

Transparentnost o ograničenjima modela

Korisnici bi mogli oslanjati se na ChatGPT za specijalizirane teme, na primjer u oblastima kao što je istraživanje. Transparentni smo u pogledu ograničenja modela i obeshrabrujemo upotrebu u rizičnijim slučajevima bez odgovarajuće potvrde. Nadalje, model je vješt u transkripciji engleskog teksta, ali loše se snalazi s nekim drugim jezicima, posebno s neromanskim pismom. Savjetujemo našim korisnicima koji ne govore engleski jezik da ne koriste ChatGPT u ovu svrhu.

Više o našem pristupu sigurnosti i radu s Be My Eyes možete pročitati u sistemskoj kartici za unos slika.

Proširit ćemo pristup

Korisnici Plus i Enterprise pretplate će imati priliku iskusiti glas i slike u sljedeće dvije sedmice. Uzbuđeni smo što ćemo uskoro uvesti ove mogućnosti i za druge grupe korisnika, uključujući programere.

Autor

OpenAI

Priznanja

Glasovni način rada osnovna istraživanja

Alec Radford, Tao Xu, Jong Wook Kim

Vizija primjena temeljna istraživanja

Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal

Pogledajte tehnički rad i autore GPT-4V(ision)