OpenAI o3 lan o4-mini yaiku model nalar visual paling anyar ing seri o kita. Kanggo pisanan, model kita bisa mikir nganggo gambar ing ranté pikirané—ora mung ndeleng.
Kaya model OpenAI o1 sadurungé, o3 lan o4-mini dilatih kanggo mikir luwih suwe sadurunge njawab—lan nggunakake ranté pikiran internal sing dawa sadurunge nanggapi pangguna. o3 lan o4-mini luwih ngembangake kemampuan iki kanthi mikir nganggo gambar ing ranté pikirané, sing digayuh kanthi ngowahi gambar sing diunggah pangguna nganggo alat, supaya bisa motong, nge-zoom, lan muter, saliyané teknik pangolahan gambar prasaja liyane. Sing luwih penting, kemampuan iki teka kanthi native, tanpa gumantung marang model khusus sing kapisah.
Kecerdasan visual ChatGPT sing luwih apik mbantu sampeyan ngrampungake masalah sing luwih angel kanthi nganalisis gambar luwih jero, luwih akurat, lan luwih andal tinimbang sadurungé. Iki bisa nggabungake nalar canggih kanthi mulus karo alat kaya panelusuran web lan manipulasi gambar—kanthi otomatis nge-zoom, motong, mbalik, utawa ningkatake gambar sampeyan—kanggo njupuk wawasan malah saka foto sing ora sampurna. Contoné, sampeyan bisa ngunggah foto kumpulan soal ekonomi kanggo nampa panjelasan langkah demi langkah, utawa nuduhake screenshot build error supaya cepet entuk analisis sebab utama.
Pendekatan iki mbukak sumbu anyar kanggo scaling compute wektu-uji sing nyampur nalar visual lan tekstual kanthi mulus, kaya katon ing kinerja state-of-the-art ing benchmark multimodal, lan dadi langkah penting menyang nalar multimodal.
Mikir nganggo gambar ngidini sampeyan sesambungan karo ChatGPT kanthi luwih gampang. Sampeyan bisa takon kanthi njupuk foto tanpa kuwatir karo posisi objek—apa teksé kuwalik utawa ana luwih saka siji soal fisika ing siji foto. Sanajan objeke ora langsung cetha nalika didelok sepisanan, nalar visual ngidini model nge-zoom supaya bisa ndeleng luwih cetha.
Kabeh conto rampung nganggo OpenAI o3.
Model nalar visual paling anyar kita bisa kerja bareng karo alat liya kaya analisis data Python, panelusuran web, lan generasi gambar kanggo ngrampungake masalah sing luwih kompleks kanthi kreatif lan efektif, lan menehi pengalaman agen multimodal pisanan kita marang pangguna.
Kanggo negesake peningkatan nalar visual dibandhingake model multimodal sadurunge, kita nguji OpenAI o3 lan o4-mini ing macem-macem ujian manungsa lan benchmark ML. Model nalar visual anyar iki ngluwihi pendhahulune kanthi signifikan ing kabeh tugas multimodal sing dites.
Kabeh model dievaluasi ing setelan “upaya nalar” dhuwur—padha karo varian kaya “o4-mini-high” ing ChatGPT.
Khususe, mikir nganggo gambar—tanpa gumantung marang browsing—ndadekake peningkatan gedhe ing kabeh benchmark persepsi sing wis dievaluasi. Model-model kita nyetel kinerja state-of-the-art anyar ing tanya-jawab pitakon STEM (MMMU, MathVista), maca grafik lan nalar (CharXiv), primitif persepsi (VLMs are Blind), lan panelusuran visual (V*). Ing V*, pendekatan nalar visual kita nggayuh akurasi 95.7%, sing ateges benchmark iki meh rampung kaatasi.
Mikir nganggo gambar saiki nduweni watesan kaya ing ngisor iki:
- Ranté nalar kakehan dawa: Model bisa nindakake panggilan alat lan langkah manipulasi gambar sing mbaleni utawa ora perlu, sing ndadekake ranté pikiran dawa banget.
- Kesalahan persepsi: Model isih bisa nggawe kesalahan persepsi dhasar. Sanajan panggilan alat kanthi bener majokake proses nalar, salah tafsir visual bisa nyebabake jawaban pungkasan sing salah.
- Keandalan: Model bisa nyoba proses nalar visual sing beda-beda ing pirang-pirang upaya kanggo sawijining masalah, lan sawetara bisa nuwuhake asil sing salah.
OpenAI o3 lan o4-mini maju kanthi signifikan ing kemampuan nalar visual state-of-the-art, dadi langkah penting menyang nalar multimodal sing luwih amba. Model-model iki menehi akurasi paling apik ing kelasé kanggo tugas persepsi visual, saéngga bisa ngrampungake pitakon sing sadurunge ora bisa digayuh.
Kita terus nyampurnakake kemampuan nalar model nganggo gambar supaya luwih ringkes, ora mbaleni, lan luwih andal. Kita bungah nerusake riset kita ing nalar multimodal, lan supaya wong-wong bisa njelajah carane perbaikan iki bisa nambah pakaryan saben dinané.
Pembaruan 16 April: asil kanggo o3 ing Charxiv-r, Mathvista, lan vlmsareblind dianyari kanggo nggambarake owah-owahan system prompt sing ora ana ing evaluasi asli.
Panulis
Kontributor
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








