24 एप्रिल, 2026 रोजीचे अपडेट: GPT‑5.5 आणि GPT‑5.5 Pro आता API मध्ये उपलब्ध आहेत. सिस्टम कार्ड लागू होणाऱ्या अतिरिक्त सुरक्षात्मक उपायांचे वर्णन करण्यासाठी देखील अपडेट करण्यात आले आहे.
आम्ही GPT‑5.5 रिलीज करत आहोत, आमचे आतापर्यंतचे सर्वात स्मार्ट आणि वापरण्यास सर्वात सहज मॉडेल, आणि कॉम्प्युटरवर काम करण्याच्या नव्या पद्धतीकडे पुढचे पाऊल.
GPT‑5.5 तुम्ही काय करण्याचा प्रयत्न करत आहात हे अधिक लवकर समजते आणि स्वतःच अधिक काम करू शकते. कोड लिहिणे आणि डीबग करणे, ऑनलाइन संशोधन करणे, डेटाचे विश्लेषण करणे, डॉक्युमेंट्स आणि स्प्रेडशीट्स तयार करणे, सॉफ्टवेअर ऑपरेट करणे आणि एखादे कार्य पूर्ण होईपर्यंत विविध टूल्समध्ये काम करणे यामध्ये ते उत्कृष्ट आहे. प्रत्येक टप्प्याचे काळजीपूर्वक व्यवस्थापन करण्याऐवजी, तुम्ही GPT‑5.5 ला एक अव्यवस्थित, अनेक भागांचे काम देऊ शकता आणि ते योजना करेल, साधने वापरेल, स्वतःचे काम तपासेल, संदिग्धतेतून मार्ग काढेल आणि पुढे चालू ठेवेल यावर विश्वास ठेवू शकता.
एजंटिक कोडिंग, संगणक वापर, ज्ञानाधारित काम, आणि प्रारंभिक वैज्ञानिक संशोधन या क्षेत्रांमध्ये ही वाढ विशेषतः मजबूत आहे—अशी क्षेत्रे जिथे प्रगती संदर्भांमध्ये रीझनिंग करणे आणि कालांतराने कृती करणे यावर अवलंबून असते. GPT‑5.5 वेगाशी तडजोड न करता बुद्धिमत्तेतील ही झेप प्रदान करते: मोठी, अधिक सक्षम मॉडेल्स अनेकदा प्रतिसाद देण्यात मंद असतात, पण GPT‑5.5 वास्तविक वापरातील सर्व्हिंगमध्ये GPT‑5.4 च्या प्रति-टोकन विलंबाशी जुळते, आणि त्याच वेळी बुद्धिमत्तेच्या खूप उच्च स्तरावर कार्य करते. तीच Codex कार्ये पूर्ण करण्यासाठी हे लक्षणीय कमी टोकन देखील वापरते, ज्यामुळे ते अधिक कार्यक्षम तसेच अधिक सक्षम बनते.
आम्ही GPT‑5.5 आमच्या आतापर्यंतच्या सर्वात मजबूत सुरक्षा उपायांसह प्रकाशित करत आहोत, जे गैरवापर कमी करण्यासाठी आणि उपयुक्त कामासाठीचा प्रवेश कायम ठेवण्यासाठी डिझाइन केलेले आहेत. रिलीजपूर्वी, आम्ही या मॉडेलचे आमच्या सेफ्टी आणि प्रिपेअर्डनेस फ्रेमवर्क्सच्या संपूर्ण संचामध्ये मूल्यांकन केले, अंतर्गत आणि बाह्य रेड टीमर्ससोबत काम केले, प्रगत सायबरसिक्युरिटी आणि जैविक क्षमतांसाठी लक्ष्यित चाचणी केली, आणि जवळपास 200 विश्वसनीय प्रारंभिक-प्रवेश भागीदारांकडून वास्तविक वापर प्रकरणांवरील अभिप्राय गोळा केला.
आज, ChatGPT आणि Codex मध्ये GPT‑5.5 चे रोलआउट Plus, Pro, Business, आणि Enterprise वापरकर्त्यांसाठी सुरू होत आहे. तसेच, ChatGPT मध्ये GPT‑5.5 Pro चे रोलआउट Pro, Business, आणि Enterprise वापरकर्त्यांसाठी सुरू होत आहे. API तैनातींसाठी विविध सुरक्षात्मक उपाय आवश्यक असतात. मोठ्या प्रमाणावर सेवा देण्यासाठी लागणाऱ्या सुरक्षा आणि संरक्षेच्या आवश्यकतांवर आम्ही भागीदार आणि ग्राहकांसोबत जवळून काम करत आहोत. आम्ही लवकरच GPT‑5.5 आणि GPT‑5.5 Pro API मध्ये उपलब्ध करून देऊ.
GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro | |
Terminal-Bench 2.0 | 82.7% | 75.1% | - | - | 69.4% | 68.5% |
एक्सपर्ट-SWE (इंटरनल) | 73.1% | 68.5% | - | - | - | - |
GDPval (विजय किंवा बरोबरी) | 84.9% | 83.0% | 82.3 % | 82.0% | 80.3% | 67.3% |
OSWorld-व्हेरिफाइड | 78.7% | 75.0% | - | - | 78.0% | - |
Toolathlon | 55.6% | 54.6% | - | - | - | 48.8% |
BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
FrontierMath स्तर 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
FrontierMath स्तर 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
CyberGym | 81.8% | 79.0 % | - | - | 73.1% | - |
OpenAI एजंटिक AI साठी जागतिक पायाभूत सुविधा तयार करत आहे, ज्यामुळे जगभरातील लोक आणि व्यवसायांना AI च्या मदतीने काम पूर्ण करणे शक्य होते. गेल्या वर्षभरात, आम्ही पाहिले आहे की AI ने सॉफ्टवेअर अभियांत्रिकीला लक्षणीय वेग दिला आहे. Codex आणि ChatGPT मधील GPT‑5.5 मुळे, त्याच परिवर्तनाचा विस्तार आता वैज्ञानिक संशोधन आणि संगणकांवरील व्यापक कामांपर्यंत होऊ लागला आहे.
या सर्व क्षेत्रांमध्ये, GPT‑5.5 केवळ अधिक बुद्धिमान नाही; तर समस्यांवर काम करण्याच्या पद्धतीत अधिक कार्यक्षम आहे आणि अनेकदा कमी टोकन आणि कमी प्रयत्नांसह उच्च-गुणवत्तेचे परिणाम साध्य करते. Artificial Analysis च्या Coding Index मध्ये, GPT‑5.5 स्पर्धात्मक अत्याधुनिक कोडिंग मॉडेल्सच्या निम्म्या खर्चात अत्याधुनिक बुद्धिमत्ता प्रदान करते.
Artificial Analysis Intelligence Index(नवीन विंडोमध्ये उघडेल) ही बाह्य पक्षाने चालवलेल्या 10 मूल्यमापनांची भारित सरासरी आहे: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.
GPT‑5.5 हे आमचे आतापर्यंतचे सर्वात शक्तिशाली एजंटिक कोडिंग मॉडेल आहे. Terminal-Bench 2.0 वर, जे नियोजन, पुनरावृत्ती आणि साधनांच्या समन्वयाची आवश्यकता असलेल्या जटिल कमांड-लाइन कार्यप्रवाहांची चाचणी घेते, ते 82.7% इतकी अत्याधुनिक अचूकता साध्य करते. SWE-Bench Pro वर, जे वास्तविक-जगातील GitHub इश्यू निराकरणाचे मूल्यांकन करते, ते 58.6% पर्यंत पोहोचते आणि मागील मॉडेल्सपेक्षा एका सिंगल पासमध्ये अधिक कार्ये एंड-टू-एंड सोडवते. Expert-SWE वर, मानवाला पूर्ण करण्यासाठी अंदाजे मध्यम 20 तास लागणाऱ्या दीर्घकालीन कोडिंग टास्क्ससाठीच्या आमच्या अंतर्गत अत्याधुनिक इव्हॅलमध्ये, GPT‑5.5 हे GPT‑5.4 पेक्षाही चांगली कामगिरी करते.
सर्व तीन मूल्यांकनांमध्ये, GPT‑5.5 हे GPT‑5.4 पेक्षा सुधारणा करते कमी टोकन वापरताना स्कोअर.
मॉडेलची कोडिंगमधील ताकद विशेषतः Codex मध्ये स्पष्टपणे दिसून येते, जिथे ते इम्प्लिमेंटेशन आणि रीफॅक्टर्सपासून डीबगिंग, टेस्टिंग आणि व्हॅलिडेशनपर्यंतचे इंजिनिअरिंग काम हाताळू शकते. प्रारंभिक चाचण्या सूचित करतात की GPT‑5.5 वास्तविक अभियांत्रिकी काम ज्या वर्तनांवर अवलंबून असते त्यात अधिक चांगले आहे, जसे की मोठ्या सिस्टिम्समध्ये कॉन्टेक्स्ट टिकवून ठेवणे, अस्पष्ट फेल्यर्समधून रीझनिंग करणे, टूल्सच्या मदतीने गृहितके तपासणे, आणि आसपासच्या कोडबेसमध्ये बदल पुढे नेणे.
रेंडर केलेला प्रक्षेपपथ Orion, चंद्र आणि सूर्य यांच्यासाठी NASA/JPL Horizons व्हेक्टर डेटा वापरतो, आणि वाचनीयतेसाठी डिस्प्ले स्केलिंग लागू केले आहे.
प्रॉम्प्ट: [attached image] हे webgl आणि vite वापरून, Artemis II मोहिमेतील वास्तविक डेटा वापरून नवीन अॅप म्हणून तयार करा. ॲप पूर्णपणे कार्यक्षम होईपर्यंत आणि चित्रातील ॲपसारखे दिसेपर्यंत त्याची सखोल चाचणी करा. ग्रहांच्या चित्रणाकडे आणि उड्डाण मार्गांकडे बारकाईने लक्ष द्या. मला 3D रेंडरिंगशी परस्परसंवाद साधता यावा. त्यात वास्तववादी कक्षीय यांत्रिकी असल्याची खात्री करा.
बेंचमार्क्सच्या पलीकडे, सुरुवातीच्या परीक्षकांनी सांगितले की GPT‑5.5 एखाद्या प्रणालीची रचना समजून घेण्याची अधिक मजबूत क्षमता दाखवते: एखादी गोष्ट का अयशस्वी होत आहे, दुरुस्ती नेमकी कुठे करणे आवश्यक आहे, आणि कोडबेसमधील आणखी कोणत्या गोष्टींवर त्याचा परिणाम होईल.

“मी वापरलेले पहिले कोडिंग मॉडेल ज्यामध्ये खरोखर गंभीर संकल्पनात्मक स्पष्टता आहे.”
डॅन शिपर, Every चे संस्थापक आणि CEO, यांनी GPT‑5.5 चे वर्णन “मी वापरलेल्या कोडिंग मॉडेल्सपैकी हे पहिले मॉडेल आहे ज्यामध्ये गंभीर संकल्पनात्मक स्पष्टता आहे.” असे केले.
ॲप लाँच केल्यानंतर, त्यांनी लाँचनंतरच्या समस्येचे डीबग करण्यात अनेक दिवस घालवले आणि नंतर सिस्टमचा एक भाग पुन्हा लिहिण्यासाठी त्यांच्या सर्वोत्तम अभियंत्यांपैकी एकाला बोलावले. GPT‑5.5 ची चाचणी करण्यासाठी, त्याने प्रभावीपणे घड्याळ मागे फिरवले: मॉडेल बिघडलेल्या स्थितीकडे पाहून इंजिनियरने शेवटी ठरवलेल्या प्रकारचेच पुनर्लेखन तयार करू शकते का? GPT‑5.4 करू शकले नाही. GPT‑5.5 करू शकले.

“खरोखर असे वाटते की मी उच्च बुद्धिमत्तेसोबत काम करत आहे आणि आदराची भावना निर्माण होते.”
Pietro Schirano, MagicPath चे CEO, यांनीही असाच एक मोठा बदल पाहिला, जेव्हा GPT‑5.5 ने शेकडो फ्रंटएंड आणि रिफॅक्टर बदल असलेली एक शाखा, मोठ्या प्रमाणात बदललेल्या मुख्य शाखेत विलीन केली आणि हे काम वन-शॉट सुमारे 20 मिनिटांत पूर्ण केले.
मॉडेलची चाचणी करणाऱ्या वरिष्ठ अभियंत्यांनी सांगितले की, GPT‑5.5 हे रीझनिंग आणि स्वायत्ततेच्या बाबतीत GPT‑5.4 आणि Claude Opus 4.7 पेक्षा लक्षणीयरीत्या अधिक सक्षम होते; ते समस्या आधीच ओळखत होते आणि स्पष्ट प्रॉम्प्टिंगशिवाय चाचणी आणि पुनरावलोकनाच्या गरजांचा अंदाज लावत होते. एका प्रकरणात, एका अभियंत्याने त्याला सहयोगी मार्कडाउन एडिटरमधील टिप्पणी प्रणाली पुन्हा आर्किटेक्ट करण्यास सांगितले आणि तो जवळजवळ पूर्ण झालेल्या 12-डिफ स्टॅककडे परतला. इतरांनी सांगितले की त्यांना आश्चर्यकारकरित्या अंमलबजावणीतील फारच कमी दुरुस्तीची गरज पडली आणि GPT‑5.4 च्या तुलनेत GPT‑5.5 च्या योजनांबद्दल त्यांना अधिक आत्मविश्वास वाटला.
NVIDIA मधील एका अभियंत्याने, ज्याला मॉडेलसाठी लवकर प्रवेश मिळाला होता, इतकेही म्हटले: "GPT‑5.5 चा प्रवेश गमावणे म्हणजे माझा एक अवयव गमावल्यासारखे वाटते."
“GPT-5.5 हा GPT-5.4 पेक्षा लक्षणीयरीत्या अधिक हुशार आणि अधिक सातत्यपूर्ण आहे, अधिक मजबूत कोडिंग कार्यक्षमतेसह आणि टूल्सचा अधिक विश्वासार्ह वापर करून. ते लवकर न थांबता लक्षणीयरीत्या अधिक काळ दिलेल्या कामावर टिकून राहते—आणि आमचे वापरकर्ते Cursor कडे सोपवतात त्या जटिल, दीर्घकाळ चालणाऱ्या कामांसाठी हेच सर्वाधिक महत्त्वाचे ठरते.”
GPT‑5.5 ला कोडिंगमध्ये उत्कृष्ट बनवणारी जी सामर्थ्ये आहेत, तीच त्याला संगणकावरच्या दैनंदिन कामासाठीही शक्तिशाली बनवतात. मॉडेल हेतू समजण्यात अधिक चांगले असल्यामुळे, ते ज्ञानाधारित कामाच्या संपूर्ण लूपमधून अधिक नैसर्गिकपणे पुढे जाऊ शकते: माहिती शोधणे, काय महत्त्वाचे आहे हे समजून घेणे, साधने वापरणे, आउटपुट तपासणे आणि कच्च्या सामग्रीचे उपयुक्त गोष्टीत रूपांतर करणे.
Codex मध्ये, GPT‑5.5 दस्तऐवज, स्प्रेडशीट्स आणि स्लाइड प्रेझेंटेशन्स तयार करण्यात GPT‑5.4 पेक्षा अधिक सक्षम आहे. अल्फा टेस्टर्सनी सांगितले की ऑपरेशनल रिसर्च, स्प्रेडशीट मॉडेलिंग आणि व्यवसायाशी संबंधित गोंधळलेल्या इनपुट्सचे योजनांमध्ये रूपांतर करण्यासारख्या कामांमध्ये त्याने मागील मॉडेल्सपेक्षा सरस कामगिरी केली. Codex च्या संगणक वापर कौशल्यांसह एकत्रित केल्यावर, GPT‑5.5 आम्हाला या जाणिवेच्या अधिक जवळ घेऊन जाते की मॉडेल प्रत्यक्षात तुमच्यासोबत संगणक वापरू शकते: स्क्रीनवर काय आहे ते पाहणे, क्लिक करणे, टाइप करणे, इंटरफेसमध्ये नेव्हिगेट करणे, आणि साधनांदरम्यान अचूकपणे हालचाल करणे.
OpenAI मधील संघ या ताकदींचा आधीच वास्तविक वर्कफ्लोमध्ये वापर करत आहेत. आज, कंपनीतील 85% पेक्षा अधिक लोक सॉफ्टवेअर इंजिनिअरिंग, फायनान्स, कम्युनिकेशन्स, मार्केटिंग, डेटा सायन्स आणि प्रॉडक्ट मॅनेजमेंट यांसह विविध कार्यक्षेत्रांमध्ये दर आठवड्याला Codex वापरतात. Comms मध्ये, टीमने Codex मधील GPT‑5.5 चा वापर करून सहा महिन्यांच्या स्पीकिंग रिक्वेस्ट डेटाचे विश्लेषण केले, स्कोअरिंग आणि जोखीम फ्रेमवर्क तयार केले, आणि एक स्वयंचलित Slack एजंट वैध ठरवला, ज्यामुळे कमी-जोखमीच्या विनंत्या आपोआप हाताळल्या जाऊ शकतील, तर जास्त-जोखमीच्या विनंत्या अजूनही मानवी पुनरावलोकनाकडे पाठवल्या जातील. वित्त विभागात, टीमने वैयक्तिक माहिती वगळणारा वर्कफ्लो वापरून एकूण 71,637 पानांचे 24,771 K-1 कर फॉर्म्स पुनरावलोकन करण्यासाठी Codex चा वापर केला, ज्यामुळे मागील वर्षाच्या तुलनेत हे काम दोन आठवडे लवकर पूर्ण करण्यास टीमला मदत झाली. गो-टू-मार्केट टीममध्ये, एका कर्मचाऱ्याने साप्ताहिक व्यवसाय अहवाल तयार करणे स्वयंचलित केले, ज्यामुळे आठवड्याला 5-10 तासांची बचत झाली.
ChatGPT मध्ये, GPT‑5.5 Thinking मुळे कठीण समस्यांसाठी अधिक जलद मदत मिळते. अधिक हुशार आणि अधिक संक्षिप्त उत्तरांमुळे तुम्ही गुंतागुंतीचे काम अधिक कार्यक्षमतेने पुढे नेऊ शकता. हे कोडिंग, संशोधन, माहितीचे संश्लेषण व विश्लेषण, तसेच दस्तऐवज-प्रधान कामे यांसारख्या व्यावसायिक कामांसाठी खास प्रभावी आहे—विशेषतः प्लगइन्स वापरताना.
GPT‑5.5 Pro मध्ये, सुरुवातीच्या परीक्षकांना ChatGPT हाताळू शकणाऱ्या कामांच्या जटिलतेत आणि गुणवत्तेत लक्षणीय वाढ दिसून येत आहे, तसेच विलंबातील सुधारणांमुळे ते आव्हानात्मक कामांसाठी अधिक व्यावहारिक बनते. GPT‑5.4 Pro च्या तुलनेत, चाचणीकर्त्यांना आढळले की GPT‑5.5 Pro ची उत्तरे लक्षणीयरीत्या अधिक सर्वसमावेशक, सुव्यवस्थित, अचूक, संबंधित आणि उपयुक्त होती, तसेच व्यवसाय, कायदा, शिक्षण आणि डेटा सायन्स या क्षेत्रांमध्ये त्याची कामगिरी विशेषतः उत्कृष्ट होती.
GPT‑5.5 अनेक बेंचमार्क्सवर स्टेट-ऑफ-द-आर्ट परफॉर्मन्स साध्य करतो, जे या प्रकारच्या कामाचे प्रतिबिंब दर्शवतात. On GDPval, जे 44 व्यवसायांमध्ये चांगल्या प्रकारे निर्दिष्ट ज्ञान काम तयार करण्यासाठी एजंट्सच्या क्षमतांची चाचणी करते, GPT‑5.5 84.9% स्कोअर करते. OSWorld-व्हेरिफाइड वर—जे मॉडेल स्वतःहून वास्तविक संगणक वातावरणे चालवू शकते का हे मोजते—GPT‑5.5 78.7% पर्यंत पोहोचते. आणि Tau2-bench Telecom वर, जे जटिल ग्राहक-सेवा कार्यप्रवाहांची चाचणी करते, ते प्रॉम्प्ट ट्यूनिंगशिवाय 98.0% पर्यंत पोहोचते. GPT‑5.5 इतर ज्ञानकेंद्रित कामाच्या बेंचमार्क्सवरही उत्कृष्ट कामगिरी करते: FinanceAgent वर 60.0%, अंतर्गत इन्व्हेस्टमेंट-बँकिंग मॉडेलिंग टास्क वर 88.5%, आणि OfficeQA Pro वर 54.1%.
Tau2-bench Telecom प्रॉम्प्ट ट्यूनिंगशिवाय चालवले गेले (आणि GPT‑4.1 वापरकर्ता मॉडेल म्हणून वापरले गेले). GPT‑5.5 कामाचा हेतू अधिक चांगल्या प्रकारे समजते आणि त्याच्या पूर्ववर्ती मॉडेल्सपेक्षा अधिक टोकन-कार्यक्षम आहे.
“GPT-5.5 अंमलबजावणी-केंद्रित कामासाठी आवश्यक असलेली सातत्यपूर्ण कार्यक्षमता प्रदान करतो. NVIDIA GB200 NVL72 प्रणालींवर तयार केलेले आणि सेवा दिलेले हे मॉडेल आमच्या टीम्सना नैसर्गिक-भाषेतील प्रॉम्प्ट्सपासून एंड-टू-एंड वैशिष्ट्ये वितरित करण्यास, डीबगिंगचा वेळ दिवसांवरून तासांपर्यंत कमी करण्यास, आणि जटिल कोडबेसमध्ये अनेक आठवड्यांच्या प्रयोगांना एका रात्रीतील प्रगतीत रूपांतरित करण्यास सक्षम करते. हे केवळ अधिक जलद कोडिंगपेक्षा अधिक आहे—ही काम करण्याची एक नवीन पद्धत आहे जी लोकांना मूलभूतपणे वेगळ्या गतीने काम करण्यास मदत करते.”
GPT‑5.5 वैज्ञानिक आणि तांत्रिक संशोधन कार्यप्रवाहांमध्येही सुधारणा दर्शवते, ज्यासाठी केवळ कठीण प्रश्नाचे उत्तर देण्यापेक्षा अधिक काही आवश्यक असते. संशोधकांना एखाद्या कल्पनेचा शोध घेणे, पुरावे गोळा करणे, गृहीतकांची चाचणी घेणे, निकालांचा अर्थ लावणे आणि पुढे काय करून पाहायचे हे ठरवणे आवश्यक असते. GPT‑5.5 त्या लूपमध्ये टिकून राहण्यात इतर मॉडेल्सपेक्षा अधिक चांगला आहे.
उल्लेखनीय म्हणजे, GPT‑5.5 ने GeneBench(नवीन विंडोमध्ये उघडेल) वर GPT‑5.4 च्या तुलनेत स्पष्ट सुधारणा दर्शवली आहे, जे आनुवंशिकी आणि परिमाणात्मक जीवशास्त्रातील बहु-टप्प्यांच्या वैज्ञानिक डेटा विश्लेषणावर केंद्रित असलेले एक नवीन मूल्यमापन आहे. या समस्यांसाठी मॉडेल्सना किमान पर्यवेक्षी मार्गदर्शनासह संभाव्यतः अस्पष्ट किंवा त्रुटीयुक्त डेटाबद्दल विचार करणे, लपलेले confounders किंवा QC अपयश यांसारख्या वास्तववादी अडथळ्यांना सामोरे जाणे, आणि आधुनिक सांख्यिकीय पद्धतींची योग्यरीत्या अंमलबजावणी करणे व त्यांचा अर्थ लावणे आवश्यक आहे. येथील कामे अनेकदा वैज्ञानिक तज्ज्ञांसाठी अनेक दिवस चालणाऱ्या प्रकल्पांशी समतुल्य असतात, हे लक्षात घेतल्यास मॉडेलचे कार्यप्रदर्शन लक्षणीय आहे.
त्याचप्रमाणे, वास्तविक जगातील जैवमाहितीशास्त्र आणि डेटा विश्लेषणासाठी डिझाइन केलेल्या BixBench(नवीन विंडोमध्ये उघडेल) या बेंचमार्कवर GPT‑5.5 ने प्रकाशित गुण असलेल्या सर्व मॉडेल्समध्ये सर्वोत्तम कामगिरी केली. मॉडेलच्या वैज्ञानिक क्षमता आता इतक्या प्रबळ झाल्या आहेत की ते खऱ्या सह-शास्त्रज्ञासारखे बायोमेडिकल संशोधनाच्या अत्याधुनिक सीमांवर अर्थपूर्ण प्रगतीला गती देऊ शकते.
आणखी एका उदाहरणात, सानुकूलित हार्नेससह GPT‑5.5 च्या अंतर्गत आवृत्तीने कॉम्बिनेटरिक्समधील एक महत्त्वाची संकल्पना असलेल्या राम्से संख्यांबद्दल नवीन पुरावा(नवीन विंडोमध्ये उघडेल) शोधण्यात मदत केली. संयोजनशास्त्र विच्छिन्न वस्तू कशा एकत्र येतात याचा अभ्यास करते: आलेख, जाळे, संच आणि नमुने. राम्से संख्या साधारणपणे विचारतात की काही प्रकारची सुव्यवस्था हमखास दिसण्यासाठी जाळे किती मोठे असावे लागते. या क्षेत्रातील परिणाम दुर्मिळ असतात आणि अनेकदा तांत्रिकदृष्ट्या कठीण असतात. येथे, GPT‑5.5 ने ऑफ-डायगोनल राम्से संख्यांबद्दल दीर्घकाळापासून ज्ञात असलेले एक आसिम्प्टोटिक तथ्य सिद्ध करणारा पुरावा शोधला, ज्याची नंतर Lean मध्ये पडताळणी करण्यात आली. हा परिणाम GPT‑5.5 च्या योगदानाचे ठोस उदाहरण आहे, जे फक्त कोड किंवा स्पष्टीकरण पुरवण्यापलीकडे जाऊन मुख्य संशोधन क्षेत्रात एक आश्चर्यकारक आणि उपयुक्त गणितीय युक्तिवाद सादर करते.
सुरुवातीच्या परीक्षकांनी ChatGPT मधील GPT‑5.5 Pro चा वापर वन-शॉट उत्तर इंजिनप्रमाणे कमी आणि संशोधन भागीदाराप्रमाणे अधिक केला: अनेक फेऱ्यांमध्ये हस्तलिखितांचे परीक्षण करणे, तांत्रिक युक्तिवादांची कसोटी पाहणे, विश्लेषणे सुचवणे, आणि कोड, नोंदी, व PDF संदर्भासह काम करणे. सामायिक धागा असा आहे की GPT‑5.5 संशोधकांना प्रश्नापासून प्रयोगापर्यंत आणि त्यानंतर निष्पत्तीपर्यंत जाण्यास मदत करण्यात अधिक चांगले आहे.
डेरिया उनुतमाझ, द जॅक्सन लॅबोरेटरी फॉर जीनोमिक मेडिसिन येथील इम्युनोलॉजीचे प्राध्यापक आणि संशोधक, यांनी 62 नमुने आणि जवळपास 28,000 जीन्स असलेल्या जीन-एक्सप्रेशन डेटासेटचे विश्लेषण करण्यासाठी GPT‑5.5 Pro वापरले. त्यातून एक सविस्तर संशोधन अहवाल तयार झाला, ज्याने निष्कर्षांचा सारांश तर दिलाच, शिवाय महत्त्वाचे प्रश्न आणि अंतर्दृष्टीही समोर आणल्या—त्यांच्या म्हणण्यानुसार, हे काम त्यांच्या टीमला पूर्ण करायला अनेक महिने लागले असते.
बार्तोश नास्क्रेंत्स्की, पोलंडमधील पोजनान येथील Adam Mickiewicz University मधील गणिताचे असिस्टंट प्रोफेसर, यांनी Codex मधील GPT‑5.5 वापरून एका प्रॉम्प्टवरून 11 मिनिटांत बीजगणितीय-भूमितीचे ॲप तयार केले. या ॲपमध्ये द्विघाती पृष्ठभागांचा छेद दृश्यरूपात दाखवला गेला आणि त्यातून मिळालेल्या वक्राचे Weierstrass मॉडेलमध्ये रूपांतर करण्यात आले.
नंतर त्याने अॅपचा विस्तार केला आणि त्यात अधिक स्थिर सिंग्युलॅरिटी व्हिज्युअलायझेशन तसेच अचूक गुणांक समाविष्ट केले, जे पुढील कामासाठी पुन्हा वापरता येऊ शकतात. त्याच्यासाठी, मोठा बदल असा आहे की Codex आता कस्टम गणितीय व्हिज्युअलायझेशन आणि संगणक बीजगणित वर्कफ्लोज अंमलात आणण्यात मदत करू शकतो, ज्यासाठी पूर्वी समर्पित साधनांची आवश्यकता होती. एकत्रितपणे, ही उदाहरणे GPT‑5.5 तज्ज्ञांचा हेतू कार्यरत संशोधन साधने आणि विश्लेषणांमध्ये रूपांतरित करत असल्याचे दर्शवतात.

क्रेडिट: बार्टोझ नास्क्रेंत्स्की(नवीन विंडोमध्ये उघडेल)
प्रॉम्प्ट: # बीजगणितीय भूमिती सर्फेस छेदन
दोन द्विघाती पृष्ठभाग रेखाटणारे आणि त्यांचा छेदन वक्र लाल रंगाने दाखवणारे असे अॅप तयार करा. हे वायरस्ट्रास वक्रामध्ये रूपांतरित करण्यासाठी संगणकीय रीमान-रॉख प्रमेय वापरा.
## मुख्य विंडो
किंचित पारदर्शक छायांकन असलेले, उच्च-गुणवत्तेने रेंडर केलेले दोन रंगीत पृष्ठभाग लाल रंगाच्या बीजगणितीय वक्ररेषेवर एकमेकांना छेदतात
माउसद्वारे दोन्ही दिशांनी फिरवणे, झूमसाठी पूर्ण पिंच यंत्रणा, प्रत्येक पृष्ठभागाचे गुणांक बदलण्यासाठी स्लायडर्ससह लहान मेन्यू दाखवण्यासाठी हॅप्टिक प्रेस; Z-बफर स्तराद्वारे शोध
## उजवीकडील विंडो
लघु वायर्स्ट्रास समीकरण (Q किंवा द्विघात क्षेत्र विस्तारावर) प्रभावी रामानन-रोच प्रमेय सूत्रांद्वारे तत्काळ गणना
## अॅम्बियंट मोड, जिथे सर्व नियंत्रणे लपवली जातात आणि वापरकर्ता आकारांचे सौंदर्य न्याहाळू शकतो
## तपशील
अॅप ब्राउझरमध्ये चालत आहे, हलकी व कार्यक्षम अंमलबजावणीसह नवीनतम फुल स्टॅक लायब्ररी, पोर्टेबल आणि सहज उपयोज्य
## डॉक्युमेंट्स
Git रेपो, जर्नल, योजना (Markdown फाइल्स)
“आमच्या हार्नेसमध्ये OpenAI चे नवीन GPT-5.5 मॉडेल वापरणे, त्याला प्रचंड जैवरासायनिक डेटासेट्सवर तर्क करून मानवांमधील औषधांच्या परिणामांचे भाकीत करायला लावणे, आणि त्यानंतर औषध शोधाशी संबंधित आमच्या सर्वात कठीण मूल्यांकनांमध्ये अचूकतेत लक्षणीय वाढ घडवून आणताना पाहणे, हे अविश्वसनीयरीत्या ऊर्जा देणारे आहे. जर OpenAI अशीच दमदार कामगिरी करत राहिली, तर वर्षअखेरीस औषध शोधाचा पाया बदलून जाईल.”
GPT‑5.4 च्या विलंबतेवर GPT‑5.5 प्रदान करण्यासाठी, अनुमान प्रक्रियेचा एकात्मिक प्रणाली म्हणून पुनर्विचार करणे आवश्यक होते, स्वतंत्र ऑप्टिमायझेशन्सच्या संचाप्रमाणे नव्हे. GPT‑5.5 हे NVIDIA GB200 आणि GB300 NVL72 प्रणालींसाठी सह-डिझाइन केले गेले, त्यांच्यासह प्रशिक्षित केले गेले आणि त्यांच्यावर सेवा दिली गेली. Codex आणि GPT‑5.5 आमची कामगिरीची उद्दिष्टे साध्य करण्यात महत्त्वपूर्ण ठरले. Codex ने संघाला कल्पनेपासून बेंचमार्क करता येण्याजोग्या अंमलबजावणीपर्यंत अधिक वेगाने पोहोचण्यास मदत केली, दृष्टिकोनांची रूपरेषा तयार केली, प्रयोगांचे जाळे तयार केले, आणि कोणते ऑप्टिमायझेशन्स अधिक सखोल गुंतवणुकीसाठी योग्य आहेत हे ओळखण्यात मदत केली. GPT‑5.5 ने स्टॅकमध्ये महत्त्वाच्या सुधारणा शोधण्यात आणि अंमलात आणण्यात मदत केली. सोप्या शब्दांत सांगायचे तर, मॉडेलने त्याला सेवा देणाऱ्या पायाभूत सुविधांमध्ये सुधारणा करण्यात मदत केली.
अशी एक सुधारणा म्हणजे लोड-बॅलन्सिंग आणि पार्टिशनिंगसाठी ह्युरिस्टिक पद्धती होत्या. GPT‑5.5 पूर्वी, संगणकीय कोअर्समध्ये कामाचा समतोल राखण्यासाठी आम्ही अॅक्सेलरेटरवरील विनंत्या निश्चित संख्येच्या भागांमध्ये विभागत असू, ज्यामुळे मोठ्या आणि लहान विनंत्या एकाच GPU वर चालवता येत असत. तथापि, स्थिर भागांची पूर्वनिर्धारित संख्या रहदारीच्या सर्व प्रकारांसाठी इष्टतम ठरत नाही. GPU चा अधिक चांगला उपयोग करण्यासाठी, Codex ने अनेक आठवड्यांच्या उत्पादन ट्रॅफिक पॅटर्नचे विश्लेषण केले आणि कामाचे इष्टतम विभाजन व संतुलन साधण्यासाठी सानुकूल ह्युरिस्टिक अल्गोरिदम तयार केले. या प्रयत्नाचा मोठा परिणाम झाला, ज्यामुळे टोकन निर्मितीचा वेग 20% पेक्षा जास्त वाढला.
सुरक्षा असुरक्षा शोधण्यात आणि त्यांचे निराकरण करण्यात अत्यंत कुशल असलेल्या मॉडेल्ससाठी जगाची तयारी करणे हा एक सामूहिक प्रयत्न आहे. सायबर संरक्षणाच्या पुढील युगासाठी लवचिकता निर्माण करण्यासाठी, मॉडेल्सचा प्रवेश सर्वांसाठी खुला ठेवणे आणि टप्प्याटप्प्याने तैनात करणे आवश्यक आहे. यासाठी संपूर्ण परिसंस्थेने कठोर परिश्रम करणे गरजेचे आहे.
अत्याधुनिक मॉडेल सायबरसुरक्षेमध्ये अधिकाधिक सक्षम होत आहेत. त्या क्षमता व्यापकपणे उपलब्ध होतील आणि आम्हाला वाटते की पुढे जाण्याचा सर्वोत्तम मार्ग म्हणजे सायबर संरक्षणाला गती देण्यासाठी आणि परिसंस्था अधिक मजबूत करण्यासाठी त्यांचा उपयोग करता येईल याची खात्री करणे.
GPT‑5.5 हे जगातील काही सर्वात कठीण आव्हाने, जसे की सायबरसुरक्षा, सोडवू शकणाऱ्या AI च्या दिशेने एक क्रमिक पण महत्त्वाचे पाऊल आहे. डिसेंबरमध्ये GPT‑5.2 सह, आम्ही आमच्या मॉडेल्ससह संभाव्य सायबर गैरवापर मर्यादित करण्यासाठी आवश्यक सायबर सुरक्षा उपाय सक्रियपणे तैनात केले; आता GPT‑5.5 सह, आम्ही संभाव्य सायबर जोखमीसाठी अधिक कठोर वर्गीकरण प्रणाली तैनात करत आहोत, जे काही वापरकर्त्यांना सुरुवातीला त्रासदायक वाटू शकतात, कारण आम्ही कालांतराने त्यांचे ट्यूनिंग करत आहोत.
आमची मॉडेल्स टप्प्याटप्प्याने सुधारत गेली आहेत आणि आम्ही उपाययोजना पुनरावृत्तीच्या पद्धतीने विकसित व समायोजित करत असताना, अर्थपूर्ण सायबरसुरक्षा क्षमता असलेली मॉडेल्स जबाबदारीने जारी करता यावीत यासाठी आम्ही अनेक वर्षांपासून आमच्या प्रिपेयर्डनेस फ्रेमवर्क(नवीन विंडोमध्ये उघडेल) मध्ये सायबरसुरक्षेला एक श्रेणी म्हणून ओळखले आहे.
- या स्तराच्या सायबर क्षमतेसाठी आम्ही उद्योगातील आघाडीचे सुरक्षा उपाय तैनात करत आहोत. आम्ही गेल्या वर्षी GPT‑5.2(नवीन विंडोमध्ये उघडेल) सह सायबर-विशिष्ट सुरक्षा उपाय प्रथम सादर केले, ज्यांची आम्ही त्यानंतरच्या तैनातींमध्ये चाचणी करणे, परिष्कृत करणे आणि त्यावर पुढे काम करणे सुरू ठेवले. GPT‑5.5 साठी, आम्ही उच्च-जोखीम असलेल्या क्रियाकलापांभोवती आणि संवेदनशील सायबर विनंत्यांसाठी अधिक कडक नियंत्रणे डिझाइन केली, तसेच पुन्हा पुन्हा होणाऱ्या गैरवापरासाठी अतिरिक्त संरक्षणे जोडली. मॉडेल सुरक्षितता, प्रमाणीकृत वापर आणि अस्वीकार्य वापरावर देखरेख यांमधील आमच्या गुंतवणुकीमुळे व्यापक प्रवेश शक्य होतो. या सुरक्षा उपायांच्या मजबुतीचा विकास, चाचणी आणि पुनरावृत्तीपूर्ण सुधारणा करण्यासाठी आम्ही काही महिन्यांपासून बाह्य तज्ञांसोबत काम करत आहोत. GPT‑5.5 सह, आम्ही विकसक त्यांचा कोड सहजपणे सुरक्षित करू शकतील याची खात्री करत आहोत, तसेच दुर्भावनापूर्ण घटकांकडून हानी पोहोचवण्याची सर्वाधिक शक्यता असलेल्या सायबर वर्कफ्लोवर अधिक मजबूत नियंत्रणे लागू करत आहोत.
- सायबर संरक्षणाला प्रत्येक स्तरावर गती देण्यासाठी आम्ही प्रवेशाचा विस्तार करत आहोत. आम्ही आमची सायबरसाठी अधिक अनुमती देणारी मॉडेल Trusted Access for Cyber द्वारे उपलब्ध करून देत आहोत, ज्याची सुरुवात Codex पासून होते, ज्यामध्ये लॉन्चच्या वेळी काही trust signals(नवीन विंडोमध्ये उघडेल) पूर्ण करणाऱ्या पडताळलेल्या वापरकर्त्यांसाठी कमी निर्बंधांसह GPT‑5.5 च्या प्रगत सायबरसुरक्षा क्षमतांपर्यंत विस्तारित प्रवेश समाविष्ट आहे. महत्त्वपूर्ण पायाभूत सुविधांचे संरक्षण करण्यासाठी जबाबदार असलेल्या संस्था GPT‑5.4‑Cyber सारख्या सायबर-अनुमतिशील मॉडेल्सच्या प्रवेशासाठी अर्ज करू शकतात, तसेच त्यांच्या अंतर्गत प्रणाली सुरक्षित करण्यासाठी या मॉडेल्सचा वापर करण्यासाठी कठोर सुरक्षा आवश्यकतांची पूर्तता करत. यामुळे आम्ही सत्यापित रक्षणकर्त्यांच्या विस्तृत गटाला वैध सुरक्षा कार्यासाठी अधिक सक्षम साधने, अनावश्यक अडथळे कमी ठेवून, उपलब्ध करून देऊ शकतो, ज्यायोगे महत्त्वाच्या संरक्षणात्मक क्षमतांमध्ये प्रवेशाचे लोकशाहीकरण होईल. वापरकर्ते सत्यापित संरक्षणात्मक कामासाठी GPT‑5.5 वापरताना अनावश्यक नकार कमी करण्यासाठी chatgpt.com/cyber(नवीन विंडोमध्ये उघडेल) येथे विश्वसनीय प्रवेशासाठी अर्ज करू शकतात.
- जनतेसाठी महत्त्वपूर्ण पायाभूत सुविधांचे संरक्षण करण्यासाठी आम्ही सरकारी भागीदारांसोबत काम करत आहोत. तुम्ही एकत्रितपणे शोध घेत आहोत की प्रगत AI लोक अवलंबून असलेल्या प्रणालींसाठी जबाबदार असलेल्या विश्वासार्ह अधिकाऱ्यांच्या संरक्षणात्मक कार्याला कसे समर्थन देऊ शकते—महत्त्वपूर्ण करदात्यांच्या डेटाचे संरक्षण करणाऱ्या डिजिटल प्रणालींपासून ते स्थानिक समुदायांतील वीजपुरवठा आणि पाणीपुरवठ्यापर्यंत.
आम्ही आमच्या प्रिपेयर्डनेस फ्रेमवर्क(नवीन विंडोमध्ये उघडेल) अंतर्गत GPT‑5.5 च्या जैविक/रासायनिक आणि सायबरसुरक्षा क्षमतांना उच्च म्हणून मानत आहोत. जरी GPT‑5.5 ने सायबरसुरक्षा क्षमतेची 'क्रिटिकल' पातळी गाठली नाही, तरी आमच्या मूल्यांकन आणि चाचण्यांमधून असे दिसून आले की त्याच्या सायबरसुरक्षा क्षमता GPT‑5.4 च्या तुलनेत एक पायरी पुढे आहेत.
याव्यतिरिक्त, GPT‑5.5 ला रिलीजपूर्वी आमच्या संपूर्ण सुरक्षा आणि गव्हर्नन्स प्रक्रियेतून नेण्यात आले, ज्यामध्ये तयारीचे मूल्यांकन, डोमेन-विशिष्ट चाचणी, प्रगत जीवशास्त्र आणि सायबरसुरक्षा क्षमतांसाठी नवीन लक्षित मूल्यांकन, तसेच बाह्य तज्ज्ञांसह सखोल चाचणी यांचा समावेश होता. आम्ही GPT‑5.5 सिस्टम कार्ड(नवीन विंडोमध्ये उघडेल)मध्ये अधिक तपशील सामायिक करतो.
हे कार्य आमच्या व्यापक AI प्रतिकारशक्ती दृष्टिकोनाचे प्रतिबिंब आहे, जे मॉडेलच्या क्षमतांमध्ये प्रगती होत असताना आवश्यक आहे असे आम्हाला वाटते. आम्हाला शक्तिशाली AI प्रणाली, संस्था आणि जनतेचे संरक्षण करण्यासाठी वापरणाऱ्या लोकांसाठी उपलब्ध असावी असे वाटते. व्यवहार्य मार्ग म्हणजे विश्वासार्ह प्रवेश, क्षमतांनुसार वाढणारे मजबूत सुरक्षात्मक उपाय आणि गंभीर गैरवापर शोधून प्रतिसाद देण्याची कार्यात्मक क्षमता.
आज, ChatGPT आणि Codex मध्ये GPT‑5.5 चे रोलआउट Plus, Pro, Business, आणि Enterprise वापरकर्त्यांसाठी सुरू होत आहे. तसेच, ChatGPT मध्ये GPT‑5.5 Pro चे रोलआउट Pro, Business, आणि Enterprise वापरकर्त्यांसाठी सुरू होत आहे. आम्ही लवकरच GPT‑5.5 आणि GPT‑5.5 Pro API मध्ये उपलब्ध करून देऊ.
ChatGPT मध्ये GPT‑5.5 Thinking Plus, Pro, Business आणि Enterprise वापरकर्त्यांसाठी उपलब्ध आहे. अधिक कठीण प्रश्न आणि उच्च अचूकतेच्या कामांसाठी डिझाइन केलेले GPT‑5.5 Pro, Pro, Business आणि Enterprise वापरकर्त्यांसाठी उपलब्ध आहे.
Codex मध्ये, GPT‑5.5 हे Plus, Pro, Business, Enterprise, Edu आणि Go प्लॅन्ससाठी 400K कॉन्टेक्स्ट विंडोसह उपलब्ध आहे. GPT‑5.5 Fast mode मध्येही उपलब्ध आहे, आणि 2.5x खर्चात 1.5x अधिक वेगाने टोकन निर्माण करते.
API विकसकांसाठी, gpt-5.5 लवकरच रिस्पॉन्सेस API आणि चॅट कम्प्लीशन्स API मध्ये उपलब्ध होईल आणि त्याची किंमत प्रति 1M इनपुट टोकन्ससाठी $5 (सुमारे 415 रुपये) आणि प्रति 1M आउटपुट टोकन्ससाठी $30 (सुमारे 2,490 रुपये) अशी असेल, 1M संदर्भ विंडोसह. Batch आणि Flex प्राइसिंग मानक API दराच्या निम्म्या दरात उपलब्ध आहेत, तर Priority प्रोसेसिंग मानक दराच्या 2.5 पट दरात उपलब्ध आहे. आम्ही आणखी जास्त अचूकतेसाठी API मध्ये gpt-5.5-pro देखील जारी करू, ज्याची किंमत प्रति 1M इनपुट टोकनसाठी $30 (सुमारे 2,490 रुपये) आणि प्रति 1M आउटपुट टोकनसाठी $180 (सुमारे 14,940 रुपये) आहे. संपूर्ण तपशीलांसाठी किंमत पृष्ठ पहा.
GPT‑5.5 ची किंमत GPT‑5.4 पेक्षा जास्त आहे ते दोन्ही अधिक बुद्धिमान आणि खूपच अधिक टोकन-कार्यक्षम आहे. Codex मध्ये, आम्ही अनुभव काळजीपूर्वक अनुकूल केला आहे, त्यामुळे GPT‑5.5 बहुतेक वापरकर्त्यांसाठी GPT‑5.4 पेक्षा कमी टोकनमध्ये अधिक चांगले परिणाम देते, तसेच सदस्यता स्तरांमध्ये उदार वापर उपलब्ध करून देत राहतो.
कोडिंग
मुल्यांकन | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
SWE-bench Pro (सार्वजनिक) * | 58.6% | 57.7% | - | - | 64.3% | 54.2% |
Terminal-Bench 2.0 | 82.7% | 75.1% | - | - | 69.4% | 68.5% |
एक्सपर्ट-SWE (आंतरर्गत) | 73.1% | 68.5% | - | - | - | - |
*लॅब्सनी पाठांतराचे पुरावे(नवीन विंडोमध्ये उघडेल) या मूल्यमापनात नोंदवले आहे
व्यावसायिक
मुल्यांकन | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GDPval (विजय किंवा बरोबरी) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
FinanceAgent v1.1 | 60.0% | 56.0% | - | 61.5% | 64.4% | 59.7% |
इन्व्हेस्टमेंट बँकिंग मॉडेलिंग टास्क (अंतर्गत) | 88.5% | 87.3% | 88.6% | 83.6% | - | - |
OfficeQA Pro | 54.1% | 53.2% | - | - | 43.6% | 18.1% |
कम्प्युटर वापर आणि दृष्टी
मुल्यांकन | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
OSWorld-व्हेरिफाइड | 78.7% | 75.0% | - | - | 78.0% | - |
MMMU Pro (साधने नाहीत) | 81.2% | 81.2% | - | - | - | 80.5% |
MMMU Pro (साधनांसह) | 83.2% | 82.1% | - | - | - | - |
साधनांचा वापर
मुल्यांकन | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
MCP Atlas** | 75.3% | 70.6% | - | - | 79.1% | 78.2% |
Toolathlon | 55.6% | 54.6% | - | - | - | 48.8% |
Tau2-bench टेलिकॉम*** | 98.0% | 92.8% | - | - | - | - |
** MCP Atlas: एप्रिल 2026 मधील नवीनतम अपडेटनंतर Scale AI कडील निकाल.
*** Tau2-bench telecom: मूळ प्रॉम्प्टसह 5.5 आणि 5.4 साठीचे निकाल, म्हणजे प्रॉम्प्टमध्ये कोणताही बदल नाही. हे प्रॉम्प्ट समायोजनांसह मूल्यांकन केलेल्या इतर लॅबमधील निकाल वगळते.
अकॅडमिक
मुल्यांकन | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GeneBench | 25.0% | 19.0% | 33.2% | 25.6% | - | - |
FrontierMath स्तर 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
FrontierMath स्तर 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
BixBench | 80.5% | 74.0% | - | - | - | - |
GPQA Diamond | 93.6% | 92.8% | - | 94.4% | 94.2% | 94.3% |
मानवतेची शेवटची परीक्षा (नो टूल्स) | 41.4% | 39.8% | 43.1% | 42.7% | 46.9% | 44.4% |
ह्यूमॅनिटीचा शेवटचा परीक्षेचा पेपर (साधनांसह) | 52.2% | 52.1% | 57.2% | 58.7% | 54.7% | 51.4% |
सायबरसिक्युरिटी
मुल्यांकन | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
ध्वज हस्तगत करण्याचे आव्हान कार्ये (अंतर्गत)**** | 88.1% | 83.7% | - | - | - | - |
CyberGym | 81.8% | 79.0 % | - | - | 73.1% | - |
**** सिस्टम कार्ड्समध्ये वापरल्या जाणाऱ्या सर्वात कठीण CTFs चा अतिरिक्त कठीण आव्हानांसह विस्तार.
लांब संदर्भ
मुल्यांकन | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Graphwalks BFS 256k f1 | 73.7% | 62.5% | - | - | 76.9% | - |
Graphwalks BFS 1mil f1 | 45.4% | 9,4% | - | - | 41.2% (Opus 4.6) | - |
Graphwalks parents 256K f1 | 90.1% | 82.8% | - | - | 93.6% | - |
Graphwalks parents 1mil f1 | 58.5% | 44.4% | - | - | 72.0% (Opus 4.6) | - |
OpenAI MRCR v2 8-needle 4K-8K | 98.1% | 97.3% | - | - | - | - |
OpenAI MRCR v2 8-needle 8K-16K | 93.0% | 91.4% | - | - | - | - |
OpenAI MRCR v2 8-needle 16K-32K | 96.5% | 97.2% | - | - | - | - |
OpenAI MRCR v2 8-needle 32K-64K | 90.0% | 90.5% | - | - | - | - |
OpenAI MRCR v2 8-needle 64K-128K | 83.1% | 86.0% | - | - | - | - |
OpenAI MRCR v2 8-needle 128K-256K | 87.5% | 79.3% | - | - | 59.2% | - |
OpenAI MRCR v2 8-needle 256K-512K | 81.5% | 57.5% | - | - | - | - |
OpenAI MRCR v2 8-needle 512K-1M | 74.0% | 36.6% | - | - | 32.2% | - |
अमूर्त तर्क
मुल्यांकन | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
ARC-AGI-1 (व्हेरीफाईड) | 95.0% | 93.7% | - | 94.5% | 93.5% | 98.0% |
ARC-AGI-2 (व्हेरीफाईड) | 85.0% | 73.3% | - | 83.3% | 75.8% | 77.1% |
GPT चे मूल्यांकन रीझनिंग प्रयत्न xhigh वर सेट करून संशोधन वातावरणात चालवले गेले, ज्यामुळे काही प्रकरणांमध्ये उत्पादन ChatGPT पेक्षा थोडे वेगळे निकाल मिळू शकतात.








