Ngayon, puwede nang makakita, makarinig, at makapagsalita ang ChatGPT

Nagsisimula kaming maglunsad ng mga bagong kakayahan sa boses at imahe sa ChatGPT. Nag-aalok sila ng bago, mas madaling maunawaan na uri ng interface sa pamamagitan ng pagpapahintulot sa iyo na magkaroon ng pag-uusap sa boses o ipakita sa ChatGPT kung ano ang iyong pinag-uusapan.
Binibigyan ka ng boses at larawan ng higit pang mga paraan para magamit ang ChatGPT sa iyong buhay. Kunan mo ng larawan ang landmark habang naglalakbay at magkaroon ng live na pag-uusap tungkol sa kung ano ang kawili-wili tungkol dito. Kapag nasa bahay ka, kumuha ng mga larawan ng iyong refrigerator at pantry para malaman kung ano ang lulutuin para sa hapunan (at magtanong ng mga follow-up na tanong para sa sunud-sunod na recipe). Pagkatapos ng hapunan, tulungan ang iyong anak sa isang problema sa matematika sa pamamagitan ng pagkuha ng larawan, pag-ikot sa set ng problema, at pagbahagi ng mga pahiwatig sa inyong dalawa.
Ilulunsad namin ang boses at mga larawan sa ChatGPT para sa mga user ng Plus at Enterprise sa susunod na dalawang linggo. Darating ang boses sa iOS at Android (piliin sa iyong mga setting) at magiging available ang mga larawan sa lahat ng platform.
Puwede mo nang gamitin ang boses para makipag-usap ng pabalik-balik sa iyong assistant. Makipag-usap dito habang naglalakad, humiling ng kuwento bago matulog para sa pamilya mo, o lutasin ang pagtatalo sa hapag-kainan.
Gamitin ang boses para makipagpalitan ng pag-uusap sa iyong assistant.
Para makapagsimula sa feature ng boses, pumunta sa Settings → Mga Bagong Feature sa mobile app at piliin ang pag-uusap na boses. Pagkatapos, i-tap ang button ng headphone na matatagpuan sa kanang sulok sa itaas ng home screen at piliin ang iyong ginustong boses mula sa limang magkakaibang boses.
Pinapagana ang bagong kakayahan sa boses ng bagong modelo ng text-to-speech, na kayang bumuo ng audio na parang tao mula lang sa text at ilang segundo ng sample na pagsasalita. Nakisama kami sa mga propesyonal na voice actor para gumawa ng bawat isa sa mga boses. Gumagamit din kami ng Whisper, ang aming open-source na system ng pagkilala sa pagsasalita, para isalin ang iyong mga sinasalitang salita sa text.
Puwede mo nang ipakita sa ChatGPT ang isa o higit pang mga imahe. Alamin kung bakit hindi umandar ang iyong grill, suriin ang laman ng iyong ref para magplano ng pagkain, o i-analyze ang komplikadong graph para sa data sa trabaho. Para mag-focus sa partikular na bahagi ng imahe, puwede mong gamitin ang tool sa pagguhit sa aming mobile app.
Ipakita mo sa ChatGPT ang isa o higit pang mga larawan.
Para makapagsimula, paki-tap ang button ng larawan para makuha o pumili ng larawan. Kung nasa iOS o Android ka, pindutin muna ang plus button. Puwede mo ring talakayin ang maramihang larawan o gamitin ang aming tool sa pagguhit para gabayan ang iyong assistant.
Ang pag-unawa sa mga larawan ay pinapagana ng multimodal GPT‑3.5 at GPT‑4. Ginagamit ng mga modelong ito ang kanilang skill sa pangangatwiran ng wika sa iba't ibang uri ng mga larawan, tulad ng mga litrato, screenshot, at mga dokumentong naglalaman ng text at mga larawan.
Layunin ng OpenAI ang bumuo ng ligtas at kapaki-pakinabang na AGI. Naniniwala kami sa unti-unting pagpapakilala ng aming mga tool, na nagbibigay-daan sa amin na gumawa ng mga pagpapabuti at pinuhin ang mga hakbang sa pag-iwas sa panganib sa paglipas ng panahon habang inihahanda rin ang lahat para sa mas makapangyarihang mga system sa hinaharap. Nagiging mas mahalaga ang estratehiyang ito sa mga advanced na modelo na may kinalaman sa boses at bisyon.
Ang bagong teknolohiya sa boses—na kayang gumawa ng makatotohanang synthetic na boses mula sa ilang segundo lang ng totoong pagsasalita—ay nagbubukas ng mga pinto sa maraming malikhain at nakatuon sa accessibility na application. Gayunpaman, nagdudulot din ang mga kakayahang ito ng mga bagong panganib, tulad ng potensyal para sa mga mapanlinlang na tao na magpanggap bilang mga pampublikong pigura o gumawa ng pandaraya.
Ito ang dahilan kung bakit ginagamit namin ang teknolohiyang ito para sa use case ng paggamit—voice chat. Ginawa ang voice chat kasama ang mga voice actor na direktang nakatrabaho namin. Nakikipagtulungan din kami sa iba sa katulad na paraan. Halimbawa, ginagamit ng Spotify ang kapangyarihan ng teknolohiyang ito para sa pilot ng kanilang Pagsasalin ng Boses(magbubukas sa bagong window) na feature, na tumutulong sa mga podcaster na palawakin ang abot ng kanilang pagkukuwento sa pamamagitan ng pagsasalin ng mga podcast sa karagdagang mga wika gamit ang sariling boses ng mga podcaster.
Ang mga modelong nakabatay sa bisyon ay nagdadala rin ng mga bagong hamon, mula sa mga halusinasyon tungkol sa mga tao hanggang sa pag-asa sa interpretasyon ng modelo ng mga larawan sa mga domain na may mataas na panganib. Bago ang mas malawak na pag-deploy, sinubukan namin ang modelo kasama ang mga red teamer para sa panganib sa mga domain tulad ng ekstremismo at siyentipikong kasanayan, at isang magkakaibang hanay ng mga alpha tester. Nagbibigay-daan ang aming pananaliksik na magkaisa sa ilang mahahalagang detalye para sa responsableng paggamit.
Tulad ng iba pang mga feature ng ChatGPT, ang vision ay tungkol sa pagtulong sa 'yo sa iyong pang-araw-araw na buhay. Mas maganda ang resulta kapag nakikita nito ang nakikita mo.
Ang pamamaraang ito ay direktang naimpluwensyahan ng aming trabaho sa Be My Eyes, isang libreng mobile app para sa mga bulag at may kapansanan sa paningin, para maunawaan ang mga gamit at limitasyon. Sinabi ng mga user sa amin na mahalaga sa kanila ang magkaroon ng pangkalahatang pag-uusap tungkol sa mga larawan na may mga tao sa background, tulad ng kung may lumalabas sa TV habang inaayos mo ang mga setting ng remote control mo.
Kumuha rin kami ng mga teknikal na hakbang para makabuluhang limitahan ang kakayahan ng ChatGPT na magsuri at gumawa ng direktang pahayag tungkol sa mga tao dahil hindi palaging tumpak ang ChatGPT at dapat igalang ng mga system na ito ang privacy ng mga indibidwal.
Ang aktuwal na paggamit at feedback mula sa totoong mundo ay makakatulong sa amin na gawing mas mahusay ang mga pananggalang na ito habang pinapanatili ang pagiging kapaki-pakinabang ng tool.
Maaaring umasa ang mga user sa ChatGPT para sa mga espesyal na paksa, halimbawa sa mga larangan tulad ng pananaliksik. Bukas kami tungkol sa mga limitasyon ng modelo at hindi natin hinihikayat ang mga paggamit na may mas mataas na panganib nang walang tamang beripikasyon. Bukod dito, mahusay ang modelo sa pag-transcribe ng text sa English pero mahina ang pagganap nito sa ilang ibang mga wika, lalo na sa mga may hindi roman na script. Pinapayuhan namin ang aming mga hindi English na user na huwag gamitin ang ChatGPT para sa layuning ito.
Puwede kang magbasa pa tungkol sa aming diskarte sa kaligtasan at ang aming trabaho sa Be My Eyes sa system card para sa input ng larawan.
Makakaranas ng boses at mga larawan ang mga user ng Plus at Enterprise sa susunod na dalawang linggo. Nasasabik kaming ilunsad ang mga kakayahang ito sa iba pang mga grupo ng user, kabilang ang mga developer, sa lalong madaling panahon.
May-akda
Mga Pagkilala
Pangunahing pananaliksik sa mode ng boses
Alec Radford, Tao Xu, Jong Wook Kim
Pangunahing pananaliksik sa pag-deploy ng bisyon
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal
Tingnan ang teknikal na gawain at mga may-akda ng GPT-4V(ision)


