OpenAI o3 и o4-mini су најновији модели визуелног резоновања у нашој o-серији. По први пут, наши модели могу да размишљају уз слике у свом начину резоновања — не само да их виде.
Слично нашем ранијем OpenAI o1 моделу, o3 и o4-mini су обучени да дуже размишљају пре него што одговоре — и да користе дугачак интерни начин резоновања пре него што одговоре кориснику. o3 и o4-mini додатно проширују ову способност тако што размишљају уз слике у свом начину резоновања, што се постиже трансформисањем слика које корисник отпреми помоћу алата, омогућавајући им да их исеку, увећају и ротирају, поред других једноставних техника обраде слике. Још важније, ове могућности долазе природно, без ослањања на засебне специјализоване моделе.
ChatGPT‑ова унапређена визуелна интелигенција помаже вам да решавате теже проблеме тако што анализира слике темељније, прецизније и поузданије него икада раније. Може неприметно да комбинује напредно резоновање са алатима као што су веб претрага и обрада слика — аутоматски увећавајући, исецајући, окрећући или побољшавајући ваше слике — како би извукла увиде чак и из несавршених фотографија. На пример, можете отпремити фотографију скупа задатака из економије да бисте добили објашњења корак по корак, или поделити снимак екрана грешке при компилацији да бисте брзо добили анализу основног узрока.
Овај приступ омогућава нову осу скалирања рачунарских ресурса у време тестирања која неприметно спаја визуелно и текстуално резоновање, што се огледа у њиховим најсавременијим резултатима на мултимодалним бенчмарцима и представља значајан корак ка мултимодалном резоновању.
Размишљање уз слике вам омогућава лакшу интеракцију са ChatGPT‑ом. Можете да постављате питања тако што ћете фотографисати, без бриге о распореду објеката — било да је текст наопачке или да на једној фотографији има више задатака из физике. Чак и ако објекти нису очигледни на први поглед, визуелно резоновање омогућава моделу да увећа приказ како би јасније видео.
Сви примери су завршени са OpenAI o3.
Наши најновији модели визуелног резоновања раде у спрези са другим алатима као што су Python анализа података, веб претрага и генерисање слика, како би креативно и ефикасно решавали сложеније проблеме, доносећи корисницима наше прво мултимодално агентско искуство.
Да бисмо истакли побољшање визуелног резоновања у односу на наше претходне мултимодалне моделе, тестирали смо OpenAI o3 и o4-mini на разноврсном скупу испита за људе и ML бенчмарка. Ови нови модели визуелног резоновања значајно надмашују своје претходнике на свим мултимодалним задацима које смо тестирали.
Сви модели се процењују при подешавањима високог „напора резоновања“ — слично варијантама као што је „o4-mini-high“ у ChatGPT‑у.
Нарочито, размишљање уз слике — без ослањања на прегледање веба — доноси значајна побољшања на свим бенчмарцима перцепције које смо проценили. Наши модели постављају нове најбоље резултате у STEM питањима и одговорима (MMMU, MathVista), читању и резоновању над графиконима (CharXiv), основама перцепције (VLMs are Blind) и визуелној претрази (V*). На V*, наш приступ визуелног резоновања постиже тачност од 95,7%, чиме у великој мери решава овај бенчмарк.
Размишљање уз слике тренутно има следећа ограничења:
- Претерано дуги ланци резоновања: Модели могу да изводе сувишне или непотребне позиве алата и кораке обраде слике, што доводи до претерано дугих начина резоновања.
- Грешке у перцепцији: Модели и даље могу да праве основне грешке у перцепцији. Чак и када позиви алата исправно унапређују процес резоновања, погрешна визуелна тумачења могу довести до нетачних коначних одговора.
- Поузданост: Модели могу покушати различите процесе визуелног резоновања у више покушаја истог проблема, од којих неки могу довести до нетачних резултата.
OpenAI o3 и o4-mini значајно унапређују најсавременије могућности визуелног резоновања и представљају важан корак ка ширем мултимодалном резоновању. Ови модели пружају најбољу у класи тачност на задацима визуелне перцепције, омогућавајући им да решавају питања која су раније била ван домашаја.
Непрестано усавршавамо могућности резоновања модела са сликама како би били сажетији, мање редундантни и поузданији. Радујемо се наставку нашег истраживања у мултимодалном резоновању, као и томе да људи истраже како ова побољшања могу унапредити њихов свакодневни рад.
Ажурирање од 16. априла: резултати за o3 на Charxiv-r, Mathvista и vlmsareblind су ажурирани како би одражавали промену системске инструкције која није била присутна у оригиналној евалуацији.
Аутори
Сарадници
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








