इमेज के साथ सोचना
OpenAI o3 और o4-mini अपनी Chain-of-Thought में इमेज के साथ रीज़निंग करके विज़ुअल पर्सेप्शन में काफ़ी कामयाब साबित होते हैं.
OpenAI o3 और o4-mini हमारी o-सीरीज़ में सबसे नए रीज़निंग मॉडल हैं. पहली बार, हमारे मॉडल अपनी Chain-of-Thought में इमेज के साथ सोच सकते हैं—सिर्फ़ उन्हें देखते भर नहीं हैं.
हमारे पहले के OpenAI o1 मॉडल की तरह ही, o3 और o4-mini को जवाब देने से पहले देर तक सोचने के लिए ट्रेन किया जाता है – और यूज़र को जवाब देने से पहले लंबी इंटर्नल Chain-of-Thought से गुज़रना होता है. o3 और o4-mini अपनी Chain-of-Thought में इमेज के साथ सोचकर इस क्षमता को आगे बढ़ाते हैं, जो कि यूज़र द्वारा अपलोड की गई इमेज को टूल से बदलने, क्रॉप करने, ज़ूम इन करने और घुमाने देने के अलावा अन्य आसान इमेज प्रोसेसिंग तकनीकों की मदद से हासिल होती है. मुख्य बात यह है कि ये क्षमताएं इनमें शुरू से ही इन-बिल्ट हैं, बिना अलग से किसी ख़ास मॉडल पर निर्भर हुए.
ChatGPT की ज़्यादा विज़ुअल इंटेलिजेंस आपको पहले से कहीं ज़्यादा बारीक़ी से, एकदम सही और भरोसेमंद तरीक़े से इमेल को एनालाइज़ करके मुश्किल प्रॉब्लम को हल करने में मदद करती है. यह एड्वांस्ड रीज़निंग को वेब सर्च और इमेज मैनिपुलेशन जैसे टूल के साथ बड़े आराम से जोड़ सकता है – आपकी इमेज को अपने आप ज़ूम करना, क्रॉप करना, फ़्लिप करना या बढ़ाना – यहां तक कि आधी-अधूरी फ़ोटो से भी इनसाइट एक्सट्रैक्ट करने के लिए. उदाहरण के लिए, आप किसी इकोनॉमिक्स की प्रॉब्लम के सेट की फ़ोटो अपलोड करके क़दम-दर-क़दम उसका ब्यौरा पा सकते हैं, या बिल्ड एरर का स्क्रीनशॉट शेयर करके जल्दी से रूट-कॉज़ एनालिसिस पा सकते हैं.
यह अप्रोच टेस्ट-टाइम कंप्यूट स्केलिंग के लिए नए एक्सिस को इनेबल बनाता है, जो विज़ुअल और टेक्ट रीज़निंग को आसानी से घुलने-मिलने देता है, जैसा कि मल्टीमोडल बेंचमार्क में उनके स्टेट-ऑफ़-द-आर्ट यानी सबसे ज़्यादा आधुनिक परफ़ॉर्मेंस में दिखाई देता है, जो मल्टीमोडल रीज़निंग की ओर एक अहम क़दम है.
इमेज के साथ सोचना आपको ChatGPT के साथ और भी ज़्यादा आसानी से इंटरैक्ट करने देता है. आप कैसी भी फ़ोटो लेकर सवाल पूछ सकते हैं, बिना इस बात की चिंता किए कि उसकी हालत कैसी है – फिर चाहे टेक्ट उल्टा-पुल्टा हो या फिर एक ही फ़ोटो में फ़िज़िक्स की कई सारी प्रॉब्लम हों. वैसे अगर पहली नज़र में चीज़ समझ न आ रही हों, तो विज़ुअल रीज़निंग से मॉडल को ज़ूम करके ज़्यादा साफ़-साफ़ देखा जा सकता है.
सभी उदाहरण OpenAI o3 के साथ पूरे हुए थे.
हमारे सबसे नए विज़ुअल रीज़निंग मॉडल अन्य टूल्स के साथ बहुत तालमेल बैठाकर काम करते हैं, जैसे Python डेटा एनालिसिस, वेब सर्च, इमेज जेनरेशन, ताकि ज़्यादा पेचीदा प्रॉब्लम को क्रिएटिव और असरदार तरीक़े से हल किया जा सके, जिससे यूज़र हमारा पहला मल्टीमोडल एजेंटिक अनुभव ले सकें.
हमारे पिछले मल्टीमोडल मॉडल की तुलना में विज़ुअल रीज़निंग में बेहतरी को दिखाने के लिए, हमने लोगों के एग्ज़ाम के अलग-अलग सेट और ML बेंचमार्क पर OpenAI o3 और o4-mini को टेस्ट किया. जिन भी मल्टीमोडल टास्क में हमने टेस्ट किए, वहीं-वहीं इन नए विज़ुअल रीज़निंग मॉडल ने अपने प्रेडिसेसर से काफ़ी बेहतर परफ़ॉर्मेंस दी.
सभी मॉडल का हाई ‘रीज़निंग कोशिश’ सेटिंग्स पर मूल्यांकन किया जाता है—बिल्कुल ChatGPT में ‘o4-mini-high’ की तरह.
ख़ासकर, इमेज के साथ सोचना – बिना ब्राउज़िंग पर निर्भर हुए – से हमारे द्वारा मूल्यांकन किए गए सभी पर्सेप्शन बेंचमार्क में काफ़ी फ़ायदा मिलता है. हमारे मॉडल STEM सवाल-जवाब (MMMU, MathVista), चार्ट रीडिंग और रीज़निंग (CharXiv), पर्सेप्शन प्रिमिटिव्स (VLMs ब्लाइंड हैं) और विज़ुअल सर्च (V*) में नए स्टेट-ऑफ़-द-आर्ट यानी सबसे ज़्यादा आधुनिक परफ़ॉर्मेंस सेट करते हैं. V* पर, हमारी विज़ुअल रीज़निंग अप्रोच 95.7% एक्यूरेसी हासिल करती है, जो बड़े पैमाने पर बेंचमार्क को इस्तेमाल में लाती है.
इमेज के साथ सोचने की अभी ये सीमाएं हैं:
- बहुत ही ज़्यादा लंबी रीज़निंग चेन: मॉडल फ़ालतू या ग़ैर-ज़रूरी टूल कॉल और इमेज मैनिपुलेशन स्टेप्स उठा सकते हैं, जिसकी वजह से बहुत ही लंबी chains of thought बन सकती है.
- पर्सेप्शन एरर: मॉडल अभी बुनियादी पर्सेप्शन ग़लतियां कर सकते हैं. यहां तक कि जब टूल कॉल रीज़निंग प्रोसेस को सही तरीक़े से आगे बढ़ा रहे होते हैं, तब भी विज़ुअल की ग़लत जानकारी ग़लत फ़ाइनल जवाब पेश कर सकती है.
- भरोसा: मॉडल किसी प्रॉब्लम के लिए कई कोशिशों के दौरान अलग-अलग विज़ुअल रीज़निंग प्रोसेस को आज़मा सकते हैं, जिनमें से कुछ नतीजे ग़लत भी हो सकते हैं.
OpenAI o3 और o4-mini स्टेट-ऑफ़-द-आर्ट यानी सबसे ज़्यादा आधुनिक विज़ुअल रीज़निंग की क्षमताओं को काफ़ी ज़्यादा आगे बढ़ाते हैं, जो बड़े पैमाने पर मल्टीमोडल रीज़निंग की ओर एक अहम क़दम है. ये मॉडल विज़ुअल पर्सेप्शन टास्क में सबसे बेहतरीन एक्यूरेसी पेश करते हैं, इसे उन सवालों को हल करने में इनेबल बना देते हैं, जो पहले उनकी पहुंच में नहीं थे.
हम इमेज के साथ मॉडल की रीज़निंग क्षमताओं को लगातार बेहतर बना रहे हैं, ताकि वे ज़्यादा संक्षिप्त, कम फ़ालतू और ज़्यादा भरोसेमंद हों. हम मल्टीमोडल रीज़निंग में लगातार अपनी रिसर्च को शिद्दत से आगे बढ़ा रहे हैं, और लोगों के लिए यह पता लगाने में जुटे हुए हैं कि ये सुधार कैसे इनके रोज़मर्रा के काम को बेहतर बना सकते हैं.
16 अप्रैल का अपडेट: Charxiv-r, Mathvista और vlmsareblind पर o3 के नतीजों को सिस्टम प्रॉम्प्ट बदलाव को दिखाने के लिए अपडेट किया गया था, जो ओरिजनल मूल्यांकन में नहीं था.
लेखक
Contributors
Aditya Ramesh, Aidan Clark, Aleksandra Spyra, Alex Tachard Passos, Alexander Kirillov, Ali Kalami, Amy McDonald Sandjideh, Andrei Gheorghe, Andrew Gibiansky, Andrew Tulloch, Angela Baek, Anubha Srivastava, Avital Oliver, Behrooz Ghorbani, Ben Leimberger, Borys Minaiev, Bowen Cheng, Brandon McKinzie, Carpus Chang, Cary Hudson, Casey Chu, Charlotte Cole, Chen Shen, Dan Roberts, Dana Palmie, Daniel Kappler, David Medina, Edmund Wong, Eric Mitchell, Eric Ning, Freddie Sulit, Haiming Bao, Haitang Hu, Hongyu Ren, Hyeonwoo Noh, Jakub Pachocki, James Betker, James Qin, Jamie Kiros, Jason Ai, Jerry Tworek, Jessica Liang, Ji Lin, Jiahui Yu, Jianfeng Wang, Joseph Mo, Kenji Hata, Kevin King, Kristian Georgiev, Kshitij Gupta, Lauren Yang, Li Jing, Lin Yang, Linden Li, Mark Chen, Martin Li, Max Schwarzer, Mia Glaese, Michael Malek, Minnia Feng, Nacho Soto, Nat McAleese, Niko Felix, Peter Faiman, Prafulla Dhariwal, Rajkumar Samuel, Rapha Gontijo Lopes, Ravi Teja Mullapudi, Reiichiro Nakano, Rennie Song, Ricky Xu, Sam Altman, Sean Fitzgerald, Shengjia Zhao, Shengli Hu, Shuchao Bi, Spencer Papay, Szi-chieh Yu, Wenda Zhou, Yang Lu, Yara Khakbaz, Yunxing Dai, Zhishuai Zhang








