Berpikir dengan gambar
OpenAI o3 dan o4-mini mewakili terobosan penting dalam persepsi visual dengan melakukan penalaran gambar dalam rantai pemikirannya.
OpenAI o3 dan o4-mini adalah model penalaran visual terbaru dari seri-o kami. Untuk pertama kalinya, model kami dapat berpikir dengan gambar dalam rantai pemikirannya—tidak hanya melihatnya saja.
Mirip dengan model OpenAI o1 sebelumnya, o3 dan o4-mini dilatih untuk berpikir lebih lama sebelum memberikan jawaban—dan menggunakan rantai pemikiran internal yang panjang sebelum memberikan respons kepada pengguna. o3 dan o4-mini makin memperluas kemampuan ini dengan berpikir menggunakan gambar di rantai pemikirannya, yang dicapai dengan mengubah gambar yang diunggah pengguna menggunakan alat bantu, memungkinkan model tersebut memotong, memperbesar, dan melakukan rotasi, di samping berbagai teknik pemrosesan gambar sederhana lainnya. Yang lebih penting, kemampuan ini menjadi lebih alami, tanpa mengandalkan model khusus terpisah.
Kecerdasan visual yang ditingkatkan dari ChatGPT membantu Anda mengatasi masalah yang lebih berat dengan menganalisis gambar lebih mendalam, lebih akurat, dan lebih dapat diandalkan dari sebelumnya. Kemampuan ini dapat secara mulus menggabungkan penalaran lanjutan dengan berbagai alat bantu seperti pencarian web dan manipulasi gambar—otomatis melakukan pembesaran atau pengecilan, memotong, membalikan, atau meningkatkan gambar Anda—untuk mengekstrak wawasan bahkan dari foto yang tidak sempurna. Misalnya, Anda dapat mengunggah kumpulan foto masalah ekonomi untuk mendapatkan penjelasan langkah demi langkah, atau membagikan cuplikan layar dari kesalahan pembuatan untuk mendapatkan analisis akar masalahnya dengan cepat.
Pendekatan ini memungkinkan sumbu baru untuk waktu uji, menghitung skala yang memadukan penalaran visual dan tekstual dengan lancar, seperti yang diperlihatkan dalam kinerja kecanggihannya di seluruh tolok ukur multimodal, yang menandakan langkah signifikan terhadap penalaran multimodal.
Berpikir dengan gambar memungkinkan Anda untuk berinteraksi dengan ChatGPT dengan lebih mudah. Anda dapat mengajukan pertanyaan dengan mengambil sebuah foto tanpa merisaukan posisi objeknya—baik teksnya jungkir balik atau ada beberapa masalah fisik dalam satu foto. Bahkan jika objeknya tidak jelas saat pandangan pertama, penalaran visual memungkinkan model untuk melakukan pembesaran guna melihatnya dengan lebih jelas.
Semua contoh diselesaikan dengan OpenAI o3.
Model penalaran visual terbaru kami berfungsi bersamaan dengan alat-alat bantu lainnya seperti analisis data Python, pencarian web, pembuatan gambar agar secara kreatif dan efektif menyelesaikan masalah yang lebih rumit, memberikan pengalaman agen multimodal pertama kami kepada para pengguna.
Untuk menyoroti peningkatan penalaran visual terhadap model multimodal kami sebelumnya, kami telah menguji OpenAI o3 dan o4-mini dalam berbagai kumpulan ujian manusia dan tolok ukur ML. Model penalaran visual baru ini secara signifikan mengungguli pendahulunya di seluruh tugas multimodal yang telah kami uji.
Semua model dievaluasi pada pengaturan ‘upaya penalaran’ yang tinggi—serupa dengan varian seperti ‘o4-mini-high’ di ChatGPT.
Terutama, berpikir dengan gambar—tanpa mengandalkan penjelajahan—mengakibatkan pencapaian signifikan di seluruh tolok ukur persepsi yang telah kami evaluasi. Model kami menetapkan kinerja kecanggihan baru dalam menjawab pertanyaan STEM (MMMU, MathVista), membaca dan menalar grafik (CharXiv), persepsi sederhana (VLMs are Blind), dan pencarian visual (V*). Di V*, pendekatan penalaran visual kami mencapai akurasi 95,7%, hampir memenuhi tolok ukur.
Berpikir dengan gambar saat ini memiliki berbagai batasan berikut:
- Rantai penalaran yang terlalu panjang: Model mungkin melakukan sesuatu yang berlebihan atau memanggil alat bantu dan pengambilan langkah manipulasi gambar yang tidak diperlukan, yang mengakibatkan rantai berpikir yang terlalu panjang.
- Kesalahan persepsi: Model masih mungkin melakukan kesalahan persepsi dasar. Bahkan saat alat bantu memanggil proses penalaran lanjutan dengan baik, kesalahan interpretasi visual mungkin mengakibatkan jawaban akhir yang keliru.
- Keandalan: Model mungkin mencoba proses penalaran visual yang berbeda di antara berbagai percobaan masalah, yang beberapa di antaranya mungkin mengakibatkan hasil yang keliru.
OpenAI o3 dan o4-mini secara signifikan meningkatkan kecanggihan kemampuan penalaran visual, menunjukkan langkah penting terhadap penalaran multimodal yang lebih luas. Model-model ini memberikan keakuratan terbaik di kelasnya pada tugas persepsi visual, sehingga memungkinkannya untuk memecahkan pertanyaan yang sebelumnya tidak dapat dicapai.
Kami terus menyempurnakan kemampuan penalaran model dengan gambar agar lebih ringkas, tidak terlalu berlebihan, dan makin dapat diandalkan. Kami sangat bersemangat untuk melanjutkan riset kami dalam penalaran multimodal, dan bagi orang-orang untuk menjelajahi bagaimana peningkatan ini dapat menyempurnakan pekerjaan sehari-harinya.
Pembaruan 16 April: hasil untuk o3 pada Charxiv-r, Mathvista dan vlmsareblind telah diperbarui untuk mencerminkan perubahan prompt sistem yang tidak ada dalam evaluasi awal.
Penulis
Contributors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








