Liwati menyang isi utama
OpenAI

25 September 2023

Produk

ChatGPT saiki bisa ndelok, ngrungokke, lan ngomong

ChatGPT Can Now See Hear And Speak

Kita wiwit ngluncurake kemampuan swara lan gambar anyar ing ChatGPT. Fitur iki menehi antarmuka anyar sing luwih intuitif kanthi ngidini sampeyan ngobrol nganggo swara utawa nuduhake menyang ChatGPT apa sing lagi sampeyan omongake.

Swara lan gambar menehi luwih akeh cara kanggo nggunakake ChatGPT ing urip sampeyan. Jepret foto sawijining landmark nalika lelungan lan obrolana langsung babagan apa sing menarik saka kana. Nalika sampeyan ana ing omah, jepret foto kulkas lan pantry kanggo ngerti apa menu nedha bengi (lan takon pitakon susulan kanggo resep langkah demi langkah). Sawise nedha bengi, tulung anak sampeyan nggarap soal matematika kanthi motret, menehi lingkaran ing kumpulan soal, lan njaluk supaya menehi pitunjuk kanggo sampeyan loro.

Kita ngluncurake swara lan gambar ing ChatGPT kanggo pangguna Plus lan Enterprise sajrone rong minggu sabanjure. Swara bakal teka ing iOS lan Android (pilih melu ing setelan), lan gambar bakal kasedhiya ing kabeh platform.

Ngobrol nganggo ChatGPT lan rungokna wangsulane

Saiki sampeyan bisa nggunakake swara kanggo ngobrol bolak-balik karo asisten sampeyan. Ngomonga karo dheweke nalika lagi ing perjalanan, njaluk dongeng turu kanggo kulawarga, utawa ngrampungake debat ing meja nedha bengi.

Use voice to engage in a back-and-forth conversation with your assistant.

Kanggo miwiti nganggo swara, bukak Setelan → Fitur Anyar ing app seluler lan pilih melu obrolan swara. Banjur, tutul tombol headphone ing pojok tengen ndhuwur layar ngarep lan pilih swara sing disenengi saka limang pilihan swara.

Kemampuan swara anyar iki didhukung model text-to-speech anyar, sing bisa ngasilake audio kaya swara manungsa mung saka teks lan sawetara detik conto tuturan. Kita kerja bareng aktor swara profesional kanggo nggawe saben swara. Kita uga nggunakake Whisper, sistem pangenalan swara open-source saka kita, kanggo nranskripsi tembung sing sampeyan ucapake dadi teks.

Lagi dimuat...

Ngobrol babagan gambar

Saiki sampeyan bisa nuduhake siji utawa luwih gambar menyang ChatGPT. Goleki sebab kenapa panggangan sampeyan ora gelem nyala, jelajahi isi kulkas kanggo ngrancang panganan, utawa analisis grafik rumit kanggo data kerja. Kanggo fokus ing bagean gambar tartamtu, sampeyan bisa nggunakake alat gambar ing app seluler kita.

Show ChatGPT one or more images.

Kanggo miwiti, tutul tombol foto kanggo njupuk utawa milih gambar. Yen sampeyan nggunakake iOS utawa Android, tutul tombol plus dhisik. Sampeyan uga bisa ngrembug pirang-pirang gambar utawa nggunakake alat gambar kanggo nuntun asisten sampeyan.

Pemahaman gambar didhukung multimodal GPT‑3.5 lan GPT‑4. model-model iki nerapake katrampilan nalar basa marang macem-macem gambar, kayata foto, screenshot, lan dokumen sing ngemot teks lan gambar.

Kita ngluncurake kemampuan gambar lan swara kanthi bertahap

Tujuan OpenAI yaiku mbangun AGI sing aman lan migunani. Kita percaya yen piranti kita kudu kasedhiya kanthi bertahap, supaya kita bisa terus ngapikake lan nyempurnakake mitigasi risiko saka wektu ke wektu, uga nyiapake kabeh wong kanggo sistem sing luwih kuat ing mangsa ngarep. Strategi iki dadi luwih penting maneh kanggo model canggih sing nglibatake swara lan visi.

Swara

Teknologi swara anyar iki—sing bisa nggawe swara sintetis realistis mung saka sawetara detik swara nyata—mbukak lawang kanggo akeh aplikasi kreatif lan aksesibilitas. Nanging, kemampuan iki uga nggawa risiko anyar, kayata kemungkinan aktor jahat nyamar dadi tokoh publik utawa nindakake penipuan.

Mula, kita nggunakake teknologi iki kanggo ndhukung kasus panggunaan tartamtu, yaiku obrolan swara. Obrolan swara digawe bebarengan karo aktor swara sing wis langsung kerja bareng karo kita. Kita uga kerja bareng kanthi cara sing padha karo pihak liya. Contone, Spotify nggunakake kekuwatan teknologi iki kanggo pilot fitur Terjemahan Swara(mbukak ing jendhela anyar), sing mbantu podcaster nggedhekake jangkauan critane kanthi nerjemahake podcast menyang basa tambahan nganggo swara podcaster dhewe.

Input gambar

Model berbasis visi uga nggawa tantangan anyar, saka halusinasi babagan wong nganti ngandelake interpretasi gambar saka model ing domain berisiko tinggi. Sadurunge deployment sing luwih jembar, kita nguji model iki karo red teamer kanggo risiko ing domain kayata ekstremisme lan kaprigelan ilmiah, uga karo sekumpulan alpha tester sing maneka warna. Riset kita nggawe kita bisa sepakat babagan sawetara rincian kunci kanggo panggunaan sing tanggung jawab.

Nggawe visi migunani lan aman

Kaya fitur ChatGPT liyane, visi dirancang kanggo mbantu urip saben dina sampeyan. Cara paling apik yaiku nalika bisa ndelok apa sing sampeyan delok.

Pendekatan iki dibentuk langsung saka kerja kita karo Be My Eyes, app seluler gratis kanggo wong wuta lan sing nduweni penglihatan kurang, supaya paham panggunaan lan watesane. Pangguna ngomong yen iki migunani kanggo obrolan umum babagan gambar sing kebeneran ana wong ing latar mburi, kaya nalika ana wong muncul ing TV nalika sampeyan lagi nyoba ngerti setelan remote control.

Kita uga wis njupuk langkah teknis kanggo matesi kanthi signifikan kemampuan ChatGPT kanggo nganalisis lan nggawe pernyataan langsung babagan wong, amarga ChatGPT ora tansah akurat lan sistem kaya iki kudu ngajeni privasi individu.

Panggunaan ing donya nyata lan umpan balik bakal mbantu kita nggawe perlindungan iki luwih apik maneh, nalika tetep njaga alat iki migunani.

Transparansi babagan watesan model

Pangguna bisa waé gumantung marang ChatGPT kanggo topik khusus, contone ing bidang kaya riset. Kita transparan babagan watesan model lan ora nyaranake kasus panggunaan berisiko luwih dhuwur tanpa verifikasi sing pas. Kajaba iku, model iki trampil nranskripsi teks basa Inggris nanging asile kurang apik kanggo sawetara basa liyane, utamane sing nganggo aksara non-Romawi. Kita nyaranake pangguna non-Inggris supaya ora nggunakake ChatGPT kanggo tujuan iki.

Sampeyan bisa maca luwih lengkap babagan pendekatan keamanan kita lan kerja kita karo Be My Eyes ing kertu sistem kanggo input gambar.

Kita bakal nggedhekake akses

Pangguna Plus lan Enterprise bakal bisa ngrasakake swara lan gambar sajrone rong minggu sabanjure. Kita bungah bisa enggal ngluncurake kemampuan iki menyang klompok pangguna liyane, kalebu developer.

Panulis

OpenAI

Pangajab matur nuwun

Riset inti mode swara

Alec Radford, Tao Xu, Jong Wook Kim

Riset inti deployment visi

Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal

Deleng karya teknis lan panulis GPT-4V(ision)