ChatGPT kini mampu melihat, mendengar, dan berbicara

Kami mulai meluncurkan kemampuan suara dan gambar baru di ChatGPT. Kemampuan ini menawarkan jenis antarmuka baru yang lebih intuitif, karena memungkinkan Anda untuk memiliki percakapan suara atau menunjukkan kepada ChatGPT apa yang Anda bicarakan.
Suara dan gambar memberi Anda lebih banyak cara untuk menggunakan ChatGPT dalam kehidupan Anda. Ambil gambar tempat ikonik saat bepergian dan mulailah percakapan langsung tentang apa yang menarik dari tempat tersebut. Saat berada di rumah, ambil foto isi kulkas dan dapur Anda untuk mencari tahu apa yang bisa jadi menu makan malam (dan ajukan pertanyaan lanjutan untuk resep langkah demi langkah). Setelah makan malam, bantu anak Anda menyelesaikan soal matematika dengan memotretnya, melingkari kumpulan soal, dan meminta ChatGPT berbagi petunjuk dengan Anda berdua.
Kami meluncurkan kemampuan suara dan gambar di ChatGPT untuk pengguna Plus dan Enterprise dalam dua minggu ke depan. Suara akan tersedia di iOS dan Android (dapat diaktifkan di pengaturan Anda), dan gambar akan tersedia di semua platform.
Kini Anda dapat menggunakan suara untuk terlibat dalam percakapan dua arah dengan asisten Anda. Berbicaralah dengannya saat bepergian, mintalah dongeng pengantar tidur untuk keluarga Anda, atau selesaikan debat di meja makan.
Gunakan suara untuk terlibat dalam percakapan dua arah dengan asisten Anda.
Untuk memulai dengan suara, buka Pengaturan → Fitur Baru di aplikasi seluler, lalu pilih untuk mengaktifkan percakapan suara. Kemudian, ketuk tombol headphone yang terletak di sudut kanan atas layar beranda, lalu pilih suara pilihan Anda dari lima opsi yang berbeda.
Kemampuan suara baru ini didukung oleh model text-to-speech baru, yang mampu menghasilkan audio mirip suara manusia hanya dari teks dan beberapa detik sampel ucapan. Kami berkolaborasi dengan pengisi suara profesional untuk menciptakan setiap suara tersebut. Kami juga menggunakan Whisper, sistem pengenalan suara sumber terbuka kami, untuk mentranskripsikan ucapan Anda menjadi teks.
Kini Anda dapat menampilkan satu atau beberapa gambar kepada ChatGPT. Atasi masalah mengapa panggangan Anda tidak menyala, jelajahi isi kulkas Anda untuk merencanakan hidangan, atau analisis grafik kompleks untuk data terkait pekerjaan. Untuk memfokuskan pada bagian gambar tertentu, Anda dapat menggunakan alat gambar di aplikasi seluler kami.
Tampilkan satu atau beberapa gambar kepada ChatGPT.
Untuk memulai, ketuk tombol foto untuk menangkap atau memilih gambar. Jika Anda menggunakan iOS atau Android, ketuk tombol plus terlebih dahulu. Anda juga dapat mendiskusikan beberapa gambar atau menggunakan alat gambar kami untuk memandu asisten Anda.
Pemahaman gambar didukung oleh GPT‑3.5 dan GPT‑4 multimodal. Model-model ini menerapkan keterampilan penalaran bahasa mereka pada berbagai jenis gambar, seperti foto, tangkapan layar, dan dokumen yang memuat teks serta gambar.
Tujuan OpenAI adalah membangun AGI yang aman dan bermanfaat. Kami percaya bahwa menyediakan alat kami secara bertahap memungkinkan kami melakukan perbaikan dan menyempurnakan mitigasi risiko seiring waktu, sekaligus mempersiapkan semua orang untuk sistem yang lebih canggih di masa depan. Strategi ini menjadi makin penting dengan model-model canggih yang melibatkan suara dan visi.
Teknologi suara baru ini—yang mampu menghasilkan suara sintetis realistis hanya dari beberapa detik ucapan asli—membuka banyak peluang untuk aplikasi kreatif dan berfokus pada aksesibilitas. Namun, kemampuan ini juga menghadirkan risiko baru, seperti potensi pihak tidak bertanggung jawab untuk meniru figur publik atau melakukan penipuan.
Inilah mengapa kami menggunakan teknologi ini untuk mendukung kasus penggunaan spesifik, yaitu obrolan suara. Obrolan suara dibuat dengan pengisi suara yang bekerja langsung dengan kami. Kami juga berkolaborasi dengan pihak lain dengan cara yang serupa. Misalnya, Spotify menggunakan teknologi ini dalam uji coba fitur Terjemahan Suara(terbuka di jendela baru), yang membantu para podcaster memperluas jangkauan cerita mereka dengan menerjemahkan podcast ke dalam berbagai bahasa dengan suara asli mereka.
Model berbasis visi juga menghadirkan tantangan baru, mulai dari halusinasi terkait individu hingga ketergantungan pada interpretasi model terhadap gambar di domain berisiko tinggi. Sebelum peluncuran yang lebih luas, kami menguji model ini dengan tim red team untuk menilai risiko di domain seperti ekstremisme dan kompetensi ilmiah, serta melibatkan beragam penguji alfa. Riset kami memungkinkan kami untuk menyelaraskan beberapa detail penting untuk penggunaan yang bertanggung jawab.
Seperti fitur ChatGPT lainnya, visi bertujuan untuk membantu Anda dalam kehidupan sehari-hari. Fitur ini berfungsi paling baik saat ia bisa melihat apa yang Anda lihat.
Pendekatan ini diinformasikan langsung oleh kolaborasi kami dengan Be My Eyes, sebuah aplikasi seluler gratis untuk penyandang tunanetra dan rabun, guna memahami penggunaan serta keterbatasannya. Pengguna menyampaikan bahwa mereka merasa terbantu untuk melakukan percakapan umum mengenai gambar yang kebetulan memuat orang di latar belakang, misalnya jika ada orang muncul di TV saat Anda mencoba mencari tahu pengaturan remote control.
Kami juga telah mengambil langkah teknis untuk secara signifikan membatasi kemampuan ChatGPT dalam menganalisis dan membuat pernyataan langsung tentang individu, mengingat ChatGPT tidak selalu akurat dan sistem ini harus menghormati privasi pribadi.
Penggunaan di dunia nyata dan masukan dari pengguna akan membantu kami menyempurnakan perlindungan ini sambil tetap membuat alat tetap berguna.
Pengguna mungkin bergantung pada ChatGPT untuk topik khusus, misalnya dalam bidang riset. Kami transparan mengenai keterbatasan model dan tidak menganjurkan kasus penggunaan berisiko tinggi tanpa verifikasi yang tepat. Selain itu, model ini mahir dalam mentranskripsikan teks bahasa Inggris, namun menunjukkan kinerja yang buruk pada beberapa bahasa lain, terutama yang menggunakan aksara non-Latin. Kami menyarankan pengguna non-bahasa Inggris agar tidak menggunakan ChatGPT untuk tujuan ini.
Anda dapat membaca lebih lanjut tentang pendekatan kami terhadap keamanan dan kolaborasi kami dengan Be My Eyes di kartu sistem untuk masukan gambar.
Pengguna Plus dan Enterprise akan dapat merasakan kemampuan suara dan gambar dalam dua minggu ke depan. Kami sangat antusias untuk meluncurkan kemampuan ini bagi kelompok pengguna lainnya, termasuk pengembang, segera setelahnya.
Penulis
Ucapan Terima Kasih
Riset inti mode suara
Alec Radford, Tao Xu, Jong Wook Kim
Riset inti penerapan visi
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


