OpenAI o3 u o4-mini huma l-aktar mudelli ġodda tar-raġunament viżiv fis-serje o tagħna. Għall-ewwel darba, il-mudelli tagħna jistgħu jaħsbu bl-immaġnijiet fil-katina tal-ħsieb tagħhom—mhux biss jarawhom.
Simili għall-mudell preċedenti tagħna OpenAI o1, o3 u o4-mini huma mħarrġa biex jaħsbu aktar fit-tul qabel iwieġbu—u jużaw katina tal-ħsieb interna twila qabel ma jwieġbu lill-utent. o3 u o4-mini jestendu aktar din il-kapaċità billi jaħsbu bl-immaġnijiet fil-katina tal-ħsieb tagħhom, ħaġa li tinkiseb billi jittrasformaw immaġnijiet imtellgħin mill-utent bl-għodod, u b’hekk ikunu jistgħu jaqtgħu, jagħmlu zoom, u jdawruhom, minbarra tekniki oħra sempliċi tal-ipproċessar tal-immaġni. Aktar importanti minn hekk, dawn il-kapaċitajiet jiġu b’mod nattiv, mingħajr ma jiddependu fuq mudelli speċjalizzati separati.
L-intelliġenza viżiva msaħħa ta’ ChatGPT tgħinek issolvi problemi aktar diffiċli billi tanalizza l-immaġnijiet b’mod aktar bir-reqqa, preċiż u affidabbli minn qatt qabel. Tista’ tgħaqqad bla xkiel raġunament avvanzat ma’ għodod bħat-tfittxija fuq il-web u l-manipulazzjoni tal-immaġnijiet—billi awtomatikament tagħmel zoom, taqta’, taqleb jew ittejjeb l-immaġnijiet tiegħek—biex toħroġ għarfien anki minn ritratti imperfetti. Pereżempju, tista’ ttella’ ritratt ta’ sett ta’ problemi tal-ekonomija biex tirċievi spjegazzjonijiet pass pass, jew taqsam screenshot ta’ żball f’build biex malajr tikseb analiżi tal-kawża ewlenija.
Dan l-approċċ jippermetti assi ġdid għall-iskalar tal-komputazzjoni fil-ħin tat-test li jħallat bla xkiel ir-raġunament viżiv u testwali, kif rifless fil-prestazzjoni tagħhom state-of-the-art madwar benchmarks multimodali, u dan jimmarka pass sinifikanti lejn raġunament multimodali.
Il-ħsieb bl-immaġnijiet jippermettilek tinteraġixxi ma’ ChatGPT aktar faċilment. Tista’ tistaqsi mistoqsijiet billi tieħu ritratt mingħajr ma tinkwieta dwar il-pożizzjoni tal-oġġetti—jekk it-test huwiex rasu ’l isfel jew jekk hemmx aktar minn problema waħda tal-fiżika f’ritratt wieħed. Anki jekk l-oġġetti ma jkunux ovvji mal-ewwel daqqa t’għajn, ir-raġunament viżiv jippermetti lill-mudell jagħmel zoom biex jara b’mod aktar ċar.
L-eżempji kollha tlestew b’OpenAI o3.
L-aħħar mudelli tagħna tar-raġunament viżiv jaħdmu flimkien ma’ għodod oħra bħall-analiżi tad-data bil-Python, it-tfittxija fuq il-web, u l-ġenerazzjoni tal-immaġnijiet biex isolvu problemi aktar kumplessi b’mod kreattiv u effettiv, u b’hekk iwasslu lill-utenti l-ewwel esperjenza tagħna ta’ aġent multimodali.
Biex nenfasizzaw it-titjib fir-raġunament viżiv meta mqabbel mal-mudelli multimodali preċedenti tagħna, ittestjajna OpenAI o3 u o4-mini fuq sett divers ta’ eżamijiet umani u benchmarks tal-ML. Dawn il-mudelli ġodda tar-raġunament viżiv jaqbżu b’mod sinifikanti lill-predeċessuri tagħhom fuq il-kompiti multimodali kollha li ttestjajna.
Il-mudelli kollha huma evalwati b’settings għoljin ta’ ‘reasoning effort’—simili għal varjanti bħal ‘o4-mini-high’ f’ChatGPT.
B’mod partikolari, il-ħsieb bl-immaġnijiet—mingħajr ma jiddependi fuq browsing—iwassal għal titjib sinifikanti fil-benchmarks kollha tal-perċezzjoni li evalwajna. Il-mudelli tagħna stabbilew prestazzjoni ġdida state-of-the-art fit-tweġibiet għal mistoqsijiet STEM (MMMU, MathVista), fil-qari u r-raġunament fuq charts (CharXiv), fil-primitives tal-perċezzjoni (VLMs are Blind), u fit-tfittxija viżiva (V*). Fuq V*, l-approċċ tagħna għar-raġunament viżiv jilħaq preċiżjoni ta’ 95.7%, u kważi jsolvi kompletament il-benchmark.
Il-ħsieb bl-immaġnijiet bħalissa għandu dawn il-limitazzjonijiet:
- Ktajjen ta’ raġunament twal żżejjed: Il-mudelli jistgħu jagħmlu sejħiet għall-għodod u passi ta’ manipulazzjoni tal-immaġni ridondanti jew mhux meħtieġa, u b’hekk jirriżultaw f’katina tal-ħsieb twila żżejjed.
- Żbalji ta’ perċezzjoni: Il-mudelli xorta jistgħu jagħmlu żbalji bażiċi ta’ perċezzjoni. Anki meta s-sejħiet għall-għodod javvanzaw b’mod korrett il-proċess tar-raġunament, interpretazzjonijiet viżivi żbaljati jistgħu jwasslu għal tweġibiet finali żbaljati.
- Affidabbiltà: Il-mudelli jistgħu jippruvaw proċessi differenti ta’ raġunament viżiv fost diversi tentattivi tal-istess problema, li wħud minnhom jistgħu jwasslu għal riżultati żbaljati.
OpenAI o3 u o4-mini javvanzaw b’mod sinifikanti l-kapaċitajiet state-of-the-art tar-raġunament viżiv, u jirrappreżentaw pass importanti lejn raġunament multimodali usa’. Dawn il-mudelli jagħtu preċiżjoni mill-aqwa fil-klassi fuq kompiti ta’ perċezzjoni viżiva, u b’hekk jippermettulhom isolvu mistoqsijiet li qabel kienu lil hinn mill-possibbli.
Aħna qed inkomplu nirfinaw il-kapaċitajiet ta’ raġunament tal-mudelli bl-immaġnijiet biex ikunu aktar konċiżi, inqas ridondanti u aktar affidabbli. Ninsabu eċċitati li nkomplu r-riċerka tagħna fir-raġunament multimodali, u li n-nies jesploraw kif dan it-titjib jista’ jtejjeb ix-xogħol tagħhom ta’ kuljum.
Aġġornament tas-16 ta’ April: ir-riżultati għal o3 fuq Charxiv-r, Mathvista, u vlmsareblind ġew aġġornati biex jirriflettu bidla fis-system prompt li ma kinitx preżenti fl-evalwazzjoni oriġinali.
Awturi
Kontributuri
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








