OpenAI o3 and o4-mini — біздің o-сериямыздағы ең соңғы визуалды ойлайтын модельдер. Алғаш рет біздің модельдер ойлау тізбегінде кескіндермен ойлай алады — оларды жай ғана көріп қоймайды.
Бұрынғы OpenAI o1 моделімізге ұқсас, o3 және o4-mini жауап бермес бұрын ұзағырақ ойлануға үйретілген және пайдаланушыға жауап берер алдында ұзын ішкі ойлау тізбегін қолданады. o3 және o4-mini бұл қабілетті одан әрі кеңейтіп, ойлау тізбегінде кескіндермен ойлайды; бұған пайдаланушы жүктеген кескіндерді құралдар арқылы түрлендіру арқылы қол жеткізіледі, бұл оларға кесу, үлкейту және бұрумен қатар, басқа да қарапайым кескін өңдеу тәсілдерін қолдануға мүмкіндік береді. Ең маңыздысы, бұл қабілеттер бөлек мамандандырылған модельдерге сүйенбей, табиғи түрде кіріктірілген.
ChatGPT‑тің күшейтілген визуалды интеллекті кескіндерді бұрынғыдан да мұқият, дәл және сенімді талдау арқылы күрделірек мәселелерді шешуге көмектеседі. Ол кеңейтілген ой қорыту мүмкіндіктерін веб-іздеу және кескінді өңдеу сияқты құралдармен табиғи түрде біріктіре алады — түсінік шығару үшін кескіндеріңізді автоматты түрде үлкейтіп, қиып, аударып немесе жақсартып, тіпті мінсіз емес фотолардан да ақпарат алады. Мысалы, қадам-қадамымен түсіндірме алу үшін экономика есептері жинағының фотосын жүктей аласыз немесе түпкі себепті жедел талдау алу үшін құрастыру қатесінің скриншотын бөлісе аласыз.
Бұл тәсіл тест уақытындағы есептеу масштабының визуалды және мәтіндік ой қорытуды табиғи біріктіретін жаңа осін ашады, бұл олардың мультимодальды бенчмарктердегі state-of-the-art нәтижелерінен көрінеді және мультимодальды ой қорытуға қарай елеулі қадамды білдіреді.
Кескіндермен ойлау ChatGPT‑пен өзара әрекеттесуді оңайлатады. Нысандардың қалай орналасқанына алаңдамай, фотоға түсіріп сұрақ қоя аласыз — мәтін төңкеріліп тұрса да немесе бір фотода бірнеше физика есебі болса да. Тіпті нысандар бір қарағанда анық көрінбесе де, визуалды ой қорыту модельге анық көру үшін үлкейтуге мүмкіндік береді.
Барлық мысалдар OpenAI o3 көмегімен орындалды.
Біздің ең соңғы визуалды ойлайтын модельдер Python арқылы деректерді талдау, веб-іздеу, суретті генерациялау сияқты өзге құралдармен қатар жұмыс істеп, күрделірек мәселелерді шығармашылықпен әрі тиімді шешеді және пайдаланушыларға алғашқы мультимодальды агенттік тәжірибемізді ұсынады.
Алдыңғы мультимодальды модельдерімізбен салыстырғанда визуалды ой қорытудағы жақсаруды көрсету үшін біз OpenAI o3 және o4-mini-ді адам емтихандары мен ML бенчмарктерінің алуан жиынтығында сынадық. Бұл жаңа визуалды ойлайтын модельдер біз сынаған барлық мультимодальды тапсырмаларда өзінен бұрынғылардан едәуір озып түсті.
Барлық модельдер жоғары «ой қорыту күші» баптауларында бағаланады — бұл ChatGPT‑тегі «o4-mini-high» сияқты нұсқаларға ұқсас.
Атап айтқанда, браузингке сүйенбей-ақ кескіндермен ойлау біз бағалаған барлық қабылдау бенчмарктерінде елеулі жетістіктерге әкеледі. Біздің модельдер STEM сұрақ-жауап беруінде (MMMU, MathVista), диаграммаларды оқу және ой қорытуда (CharXiv), қабылдаудың базалық элементтерінде (VLMs are Blind) және визуалды іздеуде (V*) жаңа state-of-the-art нәтижелер орнатты. V* бойынша біздің визуалды ой қорыту тәсіліміз 95,7% дәлдікке жетіп, бенчмаркті іс жүзінде шешіп шықты.
Кескіндермен ойлаудың қазір мынадай шектеулері бар:
- Шамадан тыс ұзын ой қорыту тізбектері: Модельдер артық не қажетсіз құрал шақыруларын және кескінді өңдеу қадамдарын орындап, нәтижесінде ойлау тізбегін шамадан тыс ұзартып жіберуі мүмкін.
- Қабылдау қателері: Модельдер әлі де негізгі қабылдау қателерін жібере алады. Құрал шақырулары ой қорыту үдерісін дұрыс ілгерілеткен күннің өзінде, визуалды қате түсіндірулер қате қорытынды жауапқа әкелуі мүмкін.
- Сенімділік: Модельдер бір есепті бірнеше рет шешкенде әртүрлі визуалды ой қорыту үдерістерін қолдануы мүмкін, олардың кейбірі қате нәтижелерге әкеледі.
OpenAI o3 және o4-mini визуалды ой қорыту қабілеттерінің state-of-the-art деңгейін едәуір ілгерілетіп, кеңірек мультимодальды ой қорытуға қарай маңызды қадам жасайды. Бұл модельдер визуалды қабылдау тапсырмаларында өз класындағы ең жоғары дәлдікті ұсынып, бұрын қол жетпеген сұрақтарды шешуге мүмкіндік береді.
Біз модельдердің кескіндермен ой қорыту қабілеттерін үнемі жетілдіріп, оларды ықшамырақ, артық қайталауы аз және сенімдірек ету үстіндеміз. Біз мультимодальды ой қорыту зерттеулерін жалғастыруға және адамдардың бұл жақсартулардың күнделікті жұмысын қалай күшейтетінін зерттеуіне қуаныштымыз.
16 сәуір жаңартуы: o3 үшін Charxiv-r, Mathvista және vlmsareblind нәтижелері бастапқы бағалауда болмаған жүйелік көмексөз өзгерісін көрсету үшін жаңартылды.
Авторлар
Қатысушылар
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








