25. rujna 2023.

ChatGPT sada može vidjeti, čuti i govoriti

Počinjemo s uvođenjem novih glasovnih i slikovnih potencijala u ChatGPT‑ju. Oni nude novi, intuitivniji tip sučelja omogućujući vam da vodite glasovni razgovor ili pokažete ChatGPT‑ju o čemu govorite.

Glas i slika pružaju vam više načina za upotrebu ChatGPT‑ja u vašem životu. Snimite fotografiju znamenitosti dok putujete i vodite razgovor uživo o tome što je zanimljivo u vezi s njom. Kada ste kod kuće, fotografirajte svoj hladnjak i smočnicu kako biste odlučili što će biti za večeru (i postavljajte dodatna pitanja za recept korak po korak). Nakon večere pomozite svojem djetetu s matematičkim zadatkom tako da snimite fotografiju, zaokružite skup zadataka i zamoliti da vam oboma da savjete.

Tijekom sljedeća dva tjedna uvodimo glas i slike u ChatGPT‑ju za korisnike planova Plus i Enterprise. Glas dolazi na iOS i Android (mogućnost uključivanja u vašim postavkama), a slike će biti dostupne na svim platformama.

Razgovarajte s ChatGPT-jom i neka vam odgovori

Sada se možete koristiti glasom za vođenje dvosmjernog razgovora sa svojim asistentom. Razgovarajte s njim dok hodate, zatražite priču za laku noć za svoju obitelj ili riješite raspravu za večerom.

Koristite se glasom za sudjelovanje u dvosmjernom razgovoru s vašim asistentom.

Za početak s glasom, idite na Postavke → Nove značajke u mobilnoj aplikaciji i uključite se u glasovne razgovore. Zatim dodirnite gumb za slušalice koji se nalazi u gornjem desnom kutu početnog zaslona i odaberite željeni glas među pet različitih glasova.

Novi glasovni potencijal pokreće se novim modelom za pretvaranje teksta u govor, sposobnim smisliti zvuk sličan ljudskom iz samog teksta i nekoliko sekundi uzorka govora. Surađivali smo s profesionalnim glumcima koji posuđuju glasove kako bismo stvorili svaki od glasova. Koristimo i Whisper, naš sustav otvorenog koda za prepoznavanje govora, kako bismo transkribirali vaše izgovorene riječi u tekst.

Učitavanje...

Čavrljanje o slikama

Sada možete prikazati ChatGPT‑ju jednu ili više slika. Rješavajte probleme zašto vaš roštilj ne radi, istražite sadržaj vašeg hladnjaka kako biste planirali obrok ili analizirajte složeni grafikon za radne podatke. Kako biste se usredotočili na određeni dio slike, možete se koristiti alatom za crtanje u našoj mobilnoj aplikaciji.

Prikažite ChatGPT‑ju jednu ili više slika.

Na početku dodirnite gumb za fotografiju kako biste snimili ili odabrali sliku. Ako ste na iOS-u ili Androidu, najprije dodirnite gumb plus. Možete raspravljati i o više slika ili koristiti se našim alatom za crtanje kako biste vodili svojeg asistenta.

Razumijevanje slika pokretano je multimodalnim modelima GPT‑3.5 i GPT‑4. Ovi modeli primjenjuju svoje jezične vještine zaključivanja na širokom spektru slika, uključujući fotografije, snimke zaslona i dokumente koji sadrže i tekst i slike.

Postupno uvodimo potencijale slike i glasa

Cilj OpenAI-ja je programirati AGI koja je sigurna i korisna. Vjerujemo u postupno omogućavanje dostupnosti naših alata, što nam omogućuje da s vremenom poboljšavamo i usavršavamo ublažavanje rizika, dok istovremeno pripremamo sve za moćnije sustave u budućnosti. Ova strategija postaje još važnija s naprednim modelima koji uključuju glas i vid.

Glas

Nova glasovna tehnologija, sposobna stvoriti realistične sintetičke glasove iz samo nekoliko sekundi stvarnog govora, otvara vrata mnogim kreativnim i pristupačnim primjenama. Međutim, ti potencijali također donose nove rizike, poput potencijala da zlonamjerni akteri imitiraju javne osobe ili počine prijevaru.

Zato koristimo ovu tehnologiju za pokretanje specifičnog slučaja upotrebe, glasovnog čavrljanja. Glasovno čavrljanje stvoreno je s glumcima koji posuđuju glasove s kojima smo izravno surađivali. Na sličan način surađujemo i s ostalima. Na primjer, Spotify koristi snagu ove tehnologije za pilotiranje svoje značajke Glasovni prijevod⁠(otvara se u novom prozoru), koja pomaže podcasterima proširiti doseg njihovog pripovijedanja prevođenjem podcasta na dodatne jezike vlastitim glasovima podcastera.

upis slike

Modeli temeljeni na vidu također predstavljaju nove izazove, od halucinacija o ljudima do oslanjanja na interpretaciju slika od strane modela u domenama visokog rizika. Prije šire implementacije testirali smo model s članovima crvenog tima za rizike u domenama kao što su ekstremizam i znanstvena stručnost te s raznolikim skupom alfa testera. Naše istraživanje omogućilo nam je da se usuglasimo oko nekoliko ključnih detalja za odgovorno korištenje.

Učiniti vid i korisnim i sigurnim

Kao i kod ostalih značajki ChatGPT‑ja, vid je usmjeren na pomoć u vašem svakodnevnom životu. To najbolje uspijeva kada može vidjeti ono što vi vidite.

Ovaj pristup je izravno oblikovan našim radom s Be My Eyes, besplatnom mobilnom aplikacijom za slijepe i slabovidne osobe, kako bismo razumjeli upotrebu i ograničenja. Korisnici su nam rekli da im je vrijedno voditi opće razgovore o slikama koje slučajno sadrže ljude u pozadini, kao kada se netko pojavi na TV-u dok pokušavate podesiti postavke daljinskog upravljača.

Također smo poduzeli tehničke mjere kako bismo značajno ograničili sposobnost ChatGPT‑ja da analizira i izravno iznosi izjave o ljudima, budući da ChatGPT nije uvijek točan, a ti sustavi trebaju poštovati privatnost pojedinaca.

Stvarna uporaba i povratne informacije pomoći će nam da ove zaštitne mjere učinimo još boljima, dok alat ostaje koristan.

Transparentnost o ograničenjima modela

Korisnici bi mogli ovisiti o ChatGPT‑ju za specijalizirane teme, primjerice u područjima kao što je istraživanje. Mi smo transparentni u vezi s ograničenjima modela i obeshrabrujemo korištenje u slučajevima s većim rizikom bez odgovarajuće provjere valjanosti. Osim toga, model je vješt u prepisivanju engleskog teksta, ali loše se snalazi s nekim drugim jezicima, posebno onima s nelatiničnim pismom. Savjetujemo našim korisnicima koji ne govore engleski jezik da ne upotrebljavaju ChatGPT u ovu svrhu.

Više o našem pristupu sigurnosti i radu s Be My Eyes možete pročitati u kartici sustava za upis slike⁠.

Proširit ćemo pristup

Korisnici planova Plus i Enterprise imat će priliku iskusiti glas i slike u sljedeća dva tjedna. Uzbuđeni smo što ćemo uskoro nakon toga uvesti ove potencijale i za ostale skupine korisnika, uključujući razvojne inženjere.