OpenAI o3 and o4-mini અમારી o-series માંના તાજા વિઝ્યુઅલ રિઝનિંગ મોડેલ્સ છે. પ્રથમ વખત, અમારા મોડેલ્સ તેમની ચેન-ઓફ-થોટમાં ઇમેજ સાથે વિચાર કરી શકે છે—માત્ર તેને જોઈ જ નહીં.
અમારા અગાઉના OpenAI o1 મોડલ જેવી જ રીતે, o3 અને o4-mini ને જવાબ આપતા પહેલાં વધુ સમય વિચારવા માટે તાલીમ આપવામાં આવી છે—અને વપરાશકર્તાને પ્રતિસાદ આપતા પહેલાં લાંબી આંતરિક ચેન-ઓફ-થોટનો ઉપયોગ કરે છે. o3 અને o4-mini આ ક્ષમતાને વધુ વિસ્તારે છે, કારણ કે તેઓ તેમની ચેન-ઓફ-થોટમાં ઇમેજ સાથે વિચાર કરે છે, જે વપરાશકર્તા અપલોડ કરેલી ઇમેજને ટૂલ્સથી રૂપાંતરિત કરીને હાંસલ થાય છે. આ તેમને અન્ય સરળ ઇમેજ પ્રોસેસિંગ તકનીકો ઉપરાંત ક્રોપ, ઝૂમ ઇન અને રોટેટ કરવાની મંજૂરી આપે છે. વધુ મહત્વનું એ છે કે આ ક્ષમતાઓ અલગ વિશેષ મોડેલ્સ પર નિર્ભર રહ્યા વગર સ્વભાવતઃ ઉપલબ્ધ આવે છે.
ChatGPT ની સુધારેલી વિઝ્યુઅલ બુદ્ધિમત્તા તમને પહેલાં કરતાં વધુ ઊંડાણપૂર્વક, ચોકસાઈથી અને વિશ્વસનીય રીતે ઇમેજનું વિશ્લેષણ કરીને વધુ મુશ્કેલ સમસ્યાઓ ઉકેલવામાં મદદ કરે છે. તે વેબ સર્ચ અને ઇમેજ મેનિપ્યુલેશન જેવા ટૂલ્સ સાથે અદ્યતન રિઝનિંગને સરળતાથી જોડે છે—તમારી ઇમેજમાંથી સમજ મેળવવા માટે આપમેળે ઝૂમ, ક્રોપ, ફ્લિપ અથવા સુધારો કરે છે, ભલે ફોટા પરિપૂર્ણ ન હોય. ઉદાહરણ તરીકે, તમે પગલું-દર-પગલું સમજૂતી મેળવવા અર્થશાસ્ત્રની સમસ્યાઓના સેટનો ફોટો અપલોડ કરી શકો છો, અથવા મૂળ કારણનું વિશ્લેષણ ઝડપથી મેળવવા બિલ્ડ એરરનો સ્ક્રીનશોટ શેર કરી શકો છો.
આ અભિગમ ટેસ્ટ-ટાઈમ કમ્પ્યુટ સ્કેલિંગ માટે એક નવી દિશા સક્ષમ બનાવે છે, જે વિઝ્યુઅલ અને ટેક્સ્ટ્યુઅલ રિઝનિંગને સહજ રીતે મિશ્રિત કરે છે. આ તેમની મલ્ટીમોડલ બેન્ચમાર્ક્સમાં state-of-the-art કામગીરીમાં પ્રતિબિંબિત થાય છે, અને મલ્ટીમોડલ રિઝનિંગ તરફનું મહત્વપૂર્ણ પગલું દર્શાવે છે.
ઇમેજ સાથે વિચારવાથી તમે ChatGPT સાથે વધુ સરળતાથી ઇન્ટરએક્ટ કરી શકો છો. તમે વસ્તુઓ ક્યાં છે તેની ચિંતા કર્યા વગર ફક્ત ફોટો લઈ પ્રશ્નો પૂછી શકો છો—લખાણ ઊંધું હોય અથવા એક જ ફોટોમાં ભૌતિકશાસ્ત્રની ઘણી સમસ્યાઓ હોય તો પણ. ભલે વસ્તુઓ પહેલી નજરે સ્પષ્ટ ન હોય, વિઝ્યુઅલ રિઝનિંગ મોડલને વધુ સ્પષ્ટ જોવા માટે ઝૂમ ઇન કરવાની મંજૂરી આપે છે.
બધા ઉદાહરણો OpenAI o3 સાથે પૂર્ણ કરવામાં આવ્યા હતા.
અમારા તાજેતરના વિઝ્યુઅલ રિઝનિંગ મોડેલ્સ Python ડેટા વિશ્લેષણ, વેબ સર્ચ અને ઇમેજ જનરેશન જેવા અન્ય ટૂલ્સ સાથે મળીને વધુ જટિલ સમસ્યાઓને સર્જનાત્મક અને અસરકારક રીતે ઉકેલે છે, અને વપરાશકર્તાઓને અમારો પ્રથમ મલ્ટીમોડલ એજન્ટિક અનુભવ આપે છે.
અમારા અગાઉના મલ્ટીમોડલ મોડેલ્સની સરખામણીમાં વિઝ્યુઅલ રિઝનિંગમાં થયેલો સુધારો દર્શાવવા માટે, અમે OpenAI o3 અને o4-mini ને વિવિધ માનવીય પરીક્ષાઓ અને ML બેન્ચમાર્ક્સના સમૂહ પર ચકાસ્યા. આ નવા વિઝ્યુઅલ રિઝનિંગ મોડેલ્સ અમે પરીક્ષણ કરેલા બધા મલ્ટીમોડલ કાર્યો પર તેમના પૂર્વગામીઓ કરતાં નોંધપાત્ર રીતે વધુ સારું પ્રદર્શન કરે છે.
બધા મોડેલ્સનું મૂલ્યાંકન ઊંચી ‘reasoning effort’ સેટિંગ્સ પર થાય છે—ChatGPT માં ‘o4-mini-high’ જેવા વેરિઅન્ટ્સ સમાન.
ખાસ કરીને, બ્રાઉઝિંગ પર નિર્ભર રહ્યા વગર ઇમેજ સાથે વિચારવાથી અમે મૂલ્યાંકન કરેલા તમામ પરસેપ્શન બેન્ચમાર્ક્સમાં નોંધપાત્ર સુધારો થાય છે. અમારા મોડેલ્સ STEM પ્રશ્ન-ઉત્તર (MMMU, MathVista), ચાર્ટ વાંચન અને રિઝનિંગ (CharXiv), પરસેપ્શન પ્રિમિટિવ્સ (VLMs are Blind), અને વિઝ્યુઅલ સર્ચ (V*) માં નવી state-of-the-art કામગીરી સ્થાપિત કરે છે. V* પર, અમારી વિઝ્યુઅલ રિઝનિંગ પદ્ધતિ 95.7% ચોકસાઈ હાંસલ કરે છે, જે મોટા ભાગે આ બેન્ચમાર્કને ઉકેલી દે છે.
ઇમેજ સાથે વિચારવાની હાલમાં નીચેની મર્યાદાઓ છે.
- અતિ લાંબી રિઝનિંગ શૃંખલાઓ: મોડેલ્સ પુનરાવર્તિત અથવા અનાવશ્યક ટૂલ કૉલ્સ અને ઇમેજ મેનિપ્યુલેશનના પગલાં કરી શકે છે, જેના પરિણામે ચેન-ઓફ-થોટ ખૂબ લાંબી બને છે.
- પરસેપ્શન ભૂલો: મોડેલ્સ હજુ પણ મૂળભૂત પરસેપ્શન ભૂલો કરી શકે છે. ટૂલ કૉલ્સ રિઝનિંગ પ્રક્રિયાને યોગ્ય રીતે આગળ વધારે ત્યારે પણ, દૃશ્યના ખોટા અર્થઘટનથી અંતિમ જવાબ ખોટો આવી શકે છે.
- વિશ્વસનીયતા: સમસ્યાના અનેક પ્રયાસોમાં મોડેલ્સ અલગ અલગ વિઝ્યુઅલ રિઝનિંગ પ્રક્રિયાઓ અજમાવી શકે છે, જેમાંથી કેટલીક ખોટા પરિણામ સુધી લઈ જઈ શકે છે.
OpenAI o3 અને o4-mini state-of-the-art વિઝ્યુઅલ રિઝનિંગ ક્ષમતાઓમાં નોંધપાત્ર પ્રગતિ કરે છે, જે વધુ વ્યાપક મલ્ટીમોડલ રિઝનિંગ તરફનું મહત્વપૂર્ણ પગલું દર્શાવે છે. આ મોડેલ્સ વિઝ્યુઅલ પરસેપ્શન કાર્યોમાં શ્રેષ્ઠ-સ્તરની ચોકસાઈ આપે છે, જેના દ્વારા તે એવા પ્રશ્નો ઉકેલી શકે છે જે અગાઉ પહોંચની બહાર હતા.
અમે ઇમેજ સાથે મોડેલ્સની રિઝનિંગ ક્ષમતાઓને વધુ સંક્ષિપ્ત, ઓછી પુનરાવર્તિત અને વધુ વિશ્વસનીય બનાવવા સતત સુધારી રહ્યા છીએ. મલ્ટીમોડલ રિઝનિંગમાં સંશોધન ચાલુ રાખવા અને લોકો આ સુધારાઓ તેમના રોજિંદા કામને કેવી રીતે સુધારી શકે તે શોધે તે માટે અમે ઉત્સાહિત છીએ.
16 એપ્રિલ અપડેટ: Charxiv-r, Mathvista અને vlmsareblind પર o3 માટેના પરિણામો મૂળ મૂલ્યાંકનમાં હાજર ન રહેલા સિસ્ટમ પ્રોમ્પ્ટ ફેરફારને દર્શાવવા માટે અપડેટ કરવામાં આવ્યા.
લેખકો
યોગદાનકર્તાઓ
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








