GPT‑5 सादर करत आहे
आमचे आतापर्यंतचे सर्वात हुशार, वेगवान आणि उपयुक्त मॉडेल, ज्यात अंगभूत विचारशक्ती आहे जी प्रत्येकाच्या हातात तज्ज्ञ-स्तरीय बुद्धिमत्ता देते.
आम्ही GPT‑5 सादर करत आहोत, आमची आतापर्यंतची सर्वोत्तम AI प्रणाली. GPT‑5 हे आमच्या आधीच्या सर्व मॉडेल्सपेक्षा बुद्धिमत्तेत एक मोठी झेप आहे, ज्यात कोडिंग, गणित, लेखन, आरोग्य, दृश्य समज आणि इतर अनेक क्षेत्रांमध्ये अत्याधुनिक कार्यक्षमता आहे. ही एक एकत्रित प्रणाली आहे जिला कधी जलद प्रतिसाद द्यायचा आणि कधी अधिक वेळ घेऊन तज्ज्ञ-स्तरीय उत्तरे द्यायची हे माहीत असते. GPT‑5 सर्व वापरकर्त्यांसाठी उपलब्ध आहे, ज्यात Plus सदस्यांना अधिक वापराची सुविधा मिळते आणि Pro सदस्यांना GPT‑5 pro चा प्रवेश मिळतो, जो अधिक सखोल तर्कशक्ती असलेला आवृत्ती आहे आणि त्यामुळे अधिक व्यापक आणि अचूक उत्तरे देतो.
GPT‑5 ही एक एकत्रित प्रणाली आहे ज्यात स्मार्ट, कार्यक्षम मॉडेल आहे जे बहुतेक प्रश्नांची उत्तरे देते, कठीण समस्यांसाठी सखोल विचार मॉडेल (GPT‑5 thinking) आहे आणि रिअल-टाइम राउटर आहे जे संभाषणचा प्रकार, जटिलता, टूलची गरज आणि तुमचा स्पष्ट उद्देश (उदा. तुम्ही प्रॉम्प्टमध्ये “याबद्दल नीट विचार करा” म्हणालात तर) यावर आधारित पटकन कोणते वापरायचे ते ठरवते. राउटर सतत रिअल सिग्नल्सवर प्रशिक्षित केला जातो, ज्यामध्ये वापरकर्ते मॉडेल्स बदलतात तेव्हा, प्रतिसादसाठी प्राधान्य दर आणि मोजलेली अचूकता यांचा समावेश होतो, आणि तो वेळोवेळी सुधारतो. एकदा युसेज लिमिट गाठल्यावर, प्रत्येक मॉडेलची मिनी व्हर्जन उर्वरित क्वेरीज हाताळते. निकट भविष्यात, आम्ही या क्षमतांना एका सिंगल मॉडेलमध्ये एकत्र करण्याची योजना आखतो.
GPT‑5 केवळ मागील मॉडेल्सना बेंचमार्क्सवर मागे टाकत नाही आणि प्रश्नांना अधिक वेगाने उत्तरे देतो, तर सर्वात महत्त्वाचे म्हणजे तो प्रत्यक्ष जीवनातील प्रश्नांसाठी अधिक उपयुक्त आहे. आम्ही भ्रम कमी करण्यात, निर्देशांचे पालन सुधारण्यात आणि चापलूसी कमी करण्यात मोठी प्रगती केली आहे, तसेच ChatGPT च्या तीन सर्वात सामान्य वापरांमध्ये—लेखन, कोडिंग आणि आरोग्य—GPT‑5 ची कार्यक्षमता वाढवली आहे.
GPT‑5 हे आमचे आतापर्यंतचे सर्वात शक्तिशाली कोडिंग मॉडेल आहे. हे जटिल फ्रंट-एंड जनरेशन आणि मोठ्या रिपॉझिटरीजचे डीबगिंग मध्ये विशेष सुधारणा दर्शवते. हे अनेकदा फक्त एका प्रॉम्प्टमध्ये सुंदर आणि प्रतिसाद देणारे वेबसाईट्स, अॅप्स आणि गेम्स तयार करू शकते, ज्यात सौंदर्यपूर्ण जाणिवेची दृष्टी आहे आणि कल्पना सहज व अभिरुचिपूर्ण पद्धतीने वास्तवात आणते. सुरुवातीच्या परीक्षकांनी देखील अंतर, टायपोग्राफी आणि रिक्त जागा यांसारख्या गोष्टींबाबत याची उत्कृष्ट समज आणि उत्तम डिझाइन निवडी नोंदवल्या. विकसकांसाठी GPT‑5 काय अनलॉक करते याबद्दल संपूर्ण तपशीलांसाठी येथे पहा.
GPT‑5 ने केवळ एका प्रॉम्प्टवर काय तयार केले आहे याची काही उदाहरणे येथे दिली आहेत:
प्रॉम्प्ट: खालील आवश्यकतांसह एकाच HTML फाइलमध्ये एकल-पृष्ठ ॲप तयार करा:
- नाव: जंपिंग बॉल रनर
- उद्दिष्ट: शक्य तितक्या काळ टिकण्यासाठी अडथळ्यांवर उडी मारणे.
- वैशिष्ट्ये: वाढती गती, उच्च स्कोअर ट्रॅकिंग, पुन्हा प्रयत्न बटण, आणि क्रिया व कार्यक्रमांसाठी मजेदार ध्वनी.
-UI रंगीबेरंगी असावी, पारॅलॅक्स स्क्रोलिंग बॅकग्राउंडसह.
- कॅरेक्टर्स कार्टूनसारखी दिसावीत आणि पाहताना मजा यावी.
- हा गेम सर्वांसाठी आनंददायी असावा.
GPT‑5 हा आमचा आतापर्यंतचा सर्वात सक्षम लेखन सहयोगी आहे, जो तुम्हाला कच्च्या कल्पनांना साहित्यिक खोली आणि लयीसह आकर्षक, प्रतिध्वनी लेखनात रूपांतरित करण्यात आणि मार्गदर्शन करण्यात सक्षम आहे. हे structural अस्पष्टतेचा समावेश असलेल्या लेखनाला अधिक विश्वासार्हतेने हाताळते, जसे की बिनतुक्याच्या आयॅम्बिक पेंटामीटरचे पालन करणे किंवा नैसर्गिकरीत्या वाहणारी मुक्त छंद कविता लिहिणे—ज्यात स्वरूपाचा आदर आणि अभिव्यक्तीतील स्पष्टता यांचा संगम असतो. या सुधारित लेखन क्षमतांमुळे ChatGPT तुम्हाला दैनंदिन कामांमध्ये, जसे की अहवाल, ईमेल्स, मेमोजचे मसुदा तयार करणे आणि संपादित करणे यांसारख्या गोष्टींमध्ये अधिक चांगल्या प्रकारे मदत करू शकतो. GPT‑5 आणि GPT‑4o यांच्या लेखनशैलींची तुलना खालील तक्त्यात केली जाऊ शकते.
आरोग्याशी संबंधित प्रश्नांसाठी GPT‑5 हे आमचे आतापर्यंतचे सर्वोत्तम मॉडेल आहे, जे वापरकर्त्यांना त्यांच्या आरोग्याबद्दल माहिती ठेवण्यास आणि स्वतःसाठी बाजू मांडण्यास सक्षम बनवते. हे मॉडेल HealthBench वर कोणत्याही मागील मॉडेलपेक्षा लक्षणीय उच्च स्कोअर करते, हे मूल्यांकन आम्ही या वर्षाच्या सुरुवातीला वास्तववादी परिस्थिती आणि चिकित्सक-परिभाषित निकषांवर आधारित प्रकाशित केले होते. आधीच्या मॉडेल्सच्या तुलनेत, हे अधिक सक्रिय विचारसहकारीसारखे कार्य करते, संभाव्य चिंतांकडे स्वतःहून लक्ष वेधते आणि अधिक उपयुक्त उत्तरे देण्यासाठी प्रश्न विचारते. हे मॉडेल आता वापरकर्त्याच्या संदर्भ, ज्ञानपातळी आणि भौगोलिक स्थानानुसार जुळवून अधिक अचूक आणि विश्वासार्ह प्रतिसाद देते, ज्यामुळे ते विविध परिस्थितींमध्ये अधिक सुरक्षित आणि उपयुक्त प्रतिसाद देऊ शकते. महत्त्वाचे म्हणजे, ChatGPT वैद्यकीय व्यावसायिकांची जागा घेत नाही—त्याला असा सहकारी समजा जो तुम्हाला निकाल समजून घेण्यात, तुमच्या डॉक्टरांकडे असलेल्या वेळेत योग्य प्रश्न विचारण्यात आणि निर्णय घेताना पर्यायांचे वजन करण्यास मदत करतो.
या उदाहरणांमध्ये तुम्ही पाहू शकता की GPT‑5 आमच्या आधीच्या मॉडेल्सपेक्षा विविध डोमेनमध्ये—अधिक समृद्ध, अधिक तपशीलवार आणि उपयुक्त—कसा चांगला आहे:
GPT-4o
GPT-5
GPT‑5 चे उत्तर मोठा भावनिक arc पकडते, अधिक ताकदीचा शेवट, स्पष्ट प्रतिमा आणि प्रभावी रूपके (“आता अस्तित्वात नसलेल्या देशाचे काळे ध्वज,” “क्योटोची घंटा टेकडीवर संध्याकाळ ओघळते”) जी संस्कृती आणि जागेची जिवंत अनुभूती निर्माण करतात. GPT‑4o चे आवृत्ती अधिक अंदाज येणाऱ्या रचने आणि छंद योजनेचे पालन करते, दाखवण्याऐवजी सांगते (“ती रडते पण सांगत नाही”).
*दिलेल्या प्रॉम्प्टसाठी 4o आणि OpenAI o3 यांपैकी ज्या मॉडेलने चांगले काम केले ते आम्ही निवडले.
GPT‑5 शैक्षणिक आणि मानवी-आधारित बेंचमार्क्सवरील कार्यक्षमतेतून दिसतो की सर्वच क्षेत्रांमध्ये खूपच हुशार आहे, विशेषतः गणित, कोडिंग, दृश्य समज आणि आरोग्य क्षेत्रात. हे गणित (AIME 2025 वर साधनांशिवाय 94.6%), वास्तविक-जगातील कोडिंग (SWE-बेंच सत्यापित करा वर 74.9%, Aider Polyglot वर 88%), मल्टीमॉडल समज (MMMU वर 84.2%), आणि आरोग्य (HealthBench Hard वर 46.2%) मध्ये एक नवीन अत्याधुनिकता स्थापित करते—आणि हे फायदे दैनंदिन वापरात दिसून येतात. GPT‑5 प्रोच्या विस्तारित तर्कासह, मॉडेल GPQA वर एक नवीन SOTA देखील सेट करते, ज्यात टूल्सशिवाय 88.4% गुण मिळवले आहेत.
*टूल्ससह मिळालेल्या AIME परिणामांची तुलना थेट टूल ऍक्सेस नसलेल्या मॉडेल्सच्या कामगिरीशी करू नये; हे GPT‑5 उपलब्ध टूल्स किती प्रभावीपणे वापरते याचे उदाहरण आहे.
सर्व SWE-बेंच इव्हॅल्युएशन रन आमच्या इंटरनल इन्फ्रास्ट्रक्चरवर व्हॅलिडेट केलेल्या n=477 व्हेरिफाइड टास्क्सच्या फिक्स्ड सबसेटवर चालवले जातात.
GPT‑5 मध्ये अशा बेंचमार्क्समध्ये लक्षणीय सुधारणा दिसते ज्यात निर्देशांचे पालन आणि एजेंटिक टूल वापर तपासले जातात—या क्षमता त्याला मल्टी-स्टेप विनंत्या विश्वासार्हपणे पूर्ण करण्यास, विविध टूल्समधील समन्वय साधण्यास आणि संदर्भातील बदलांशी जुळवून घेण्यास सक्षम करतात. प्रत्यक्षात, याचा अर्थ असा की हे जटिल आणि सतत बदलणाऱ्या कामांना हाताळण्यात अधिक चांगले आहे; GPT‑5 तुमच्या सूचनांचे अधिक विश्वासपूर्वक पालन करू शकतो आणि त्याच्या हातातील टूल्स वापरून संपूर्ण काम पूर्ण करू शकतो.
हे मॉडेल दृश्य, व्हिडिओ-आधारित, अवकाशीय आणि वैज्ञानिक तर्कशक्ती अशा विविध मल्टिमोडल बेंचमार्क्समध्ये उत्कृष्ट कामगिरी करते. अधिक शक्तिशाली मल्टिमोडल कार्यक्षमतेचा अर्थ असा की ChatGPT प्रतिमा आणि इतर non-text इनपुट्सवर अधिक अचूकपणे विचार करू शकतो—ते चार्टचे अर्थ लावणे असो, प्रेझेंटेशनच्या फोटोचा सारांश देणे असो किंवा एखाद्या आकृतीबद्दल प्रश्नांची उत्तरे देणे असो.
जटिल आणि आर्थिकदृष्ट्या मौल्यवान ज्ञानकेंद्रित कामांवरील कार्यक्षमता मोजणाऱ्या अंतर्गत बेंचमार्कमध्ये GPT‑5 हे आमचे सर्वात उत्कृष्ट कार्य करणारे मॉडेल आहे. रिझनिंग वापरताना, GPT‑5 सुमारे निम्म्या प्रकरणांमध्ये तज्ज्ञांच्या बरोबरीचे किंवा त्यापेक्षा चांगले आहे, तसेच कायदा, लॉजिस्टिक्स, विक्री आणि अभियांत्रिकी यांसह 40 हून अधिक व्यवसायांतील कामांमध्ये o3 आणि ChatGPT Agent पेक्षा चांगले कामगिरी करते.
वरील मूल्यांकनांसाठी कार्यपद्धती: GPT‑4o चे निकाल ऑगस्ट 2025 पर्यंत ChatGPT मधील मॉडेलची सर्वात अलीकडील आवृत्ती दर्शवतात. सर्व मॉडेल्सचे मूल्यांकन उच्च ‘तार्किक प्रयत्न’ सेटिंग्जवर केले जाते. ChatGPT मध्ये तार्किक प्रयत्न वेगवेगळे असू शकतात, ज्यात उच्च म्हणजे वापरकर्त्याला मॉडेल वापरताना अनुभवता येणाऱ्या प्रयत्नांची उच्चतम मर्यादा दर्शवते.
GPT‑5 कमी विचाराच्या वेळेत अधिक मूल्य निर्माण करतो. आमच्या मूल्यांकनांमध्ये, GPT‑5 (thinking सह) OpenAI o3 पेक्षा 50-80% कमी आउटपुट टोकन्स वापरून दृश्य तर्क, एजेंटिक कोडिंग, आणि पदवीधर-स्तरीय वैज्ञानिक समस्या सोडवण्यासारख्या क्षमतांमध्ये अधिक चांगले कार्य करते.
GPT‑5 ला Microsoft Azure AI सुपरकॉम्प्युटर्सवर प्रशिक्षित केले गेले.
GPT‑5 आमच्या मागील मॉडेलपेक्षा भ्रम होण्याची शक्यता कमी आहे. ChatGPT प्रॉडक्शन ट्रॅफिकचे प्रतिनिधित्व करणाऱ्या अनामित सूचनांवर वेब शोध सक्षम असताना, GPT‑5 ची उत्तरे GPT‑4o पेक्षा सुमारे ४५% कमी तथ्यात्मक चूक असण्याची शक्यता असते, आणि thinking मोडमध्ये GPT‑5 ची उत्तरे OpenAI o3 पेक्षा सुमारे ८०% कमी तथ्यात्मक चूक असण्याची शक्यता असते.
जटिल आणि ओपन-एंडेड प्रश्नांवर रिझनिंग करताना आमची मॉडेल्स अधिक विश्वासार्ह बनवण्यासाठी आम्ही विशेषतः गुंतवणूक केली आहे. त्यानुसार, आम्ही ओपन-एंडेड वस्तुस्थितीची कसोटी घेण्यासाठी नवीन मूल्यांकन जोडले आहेत. आम्ही दोन सार्वजनिक तथ्यात्मकता बेंचमार्कवरून ओपन-एंडेड तथ्य-शोध प्रॉम्प्टवर विचार करताना GPT‑5 चा भ्रम दर मोजला: LongFact(नवीन विंडोमध्ये उघडेल) (संकल्पना आणि वस्तू) आणि FActScore(नवीन विंडोमध्ये उघडेल). या सर्व बेंचमार्क्समध्ये, “GPT‑5 thinking” मध्ये भ्रम मध्ये तीव्र घट दिसते—o3 पेक्षा सुमारे सहापट कमी—जे सातत्याने अचूक लांब-फॉर्म कंटेंट तयार करण्यात मोठी झेप दर्शवते. या बेंचमार्कवरील आमच्या मूल्यांकनांसाठी अंमलबजावणी आणि ग्रेडिंगचे तपशील सिस्टम कार्डमध्ये आढळू शकतात.
सुधारित factuality बरोबरच, GPT‑5 (with thinking) आपल्या कृती आणि क्षमतांविषयी वापरकर्त्याशी अधिक प्रामाणिकपणे संवाद साधतो—विशेषतः अशा कामांसाठी जी अशक्य आहेत, अपुरी स्पष्ट आहेत किंवा ज्यामध्ये आवश्यक टूल्सचा अभाव आहे. प्रशिक्षणादरम्यान उच्च बक्षीस मिळवण्यासाठी, रिझनिंग मॉडेल्स कधी कधी एखादे काम यशस्वीरित्या पूर्ण केल्याबद्दल खोटे बोलायला शिकतात किंवा अनिश्चित उत्तरांबद्दल अती आत्मविश्वास दाखवतात. उदाहरणार्थ, हे तपासण्यासाठी आम्ही मल्टिमोडल बेंचमार्क CharXiv च्या प्रॉम्प्टमधून सर्व प्रतिमा काढून टाकल्या आणि आढळले की OpenAI o3 ने अस्तित्वात नसलेल्या प्रतिमांबद्दल ८६.७% वेळा आत्मविश्वासपूर्ण उत्तरे दिली, तर GPT‑5 साठी हे फक्त ९% होते.
रिझनिंग करताना, GPT‑5 कोणती कामे पूर्ण होऊ शकत नाहीत हे अधिक अचूकपणे ओळखतो आणि आपली मर्यादा स्पष्टपणे सांगतो. आम्ही अशक्य कोडिंग कामे आणि हरवलेल्या मल्टिमोडल अॅसेट्स असलेल्या सेटिंग्जमध्ये फसवणुकीचे प्रमाण मोजले आणि आढळले की GPT‑5 (thinking सह) सर्वच बाबतीत o3 पेक्षा कमी फसवे आहे. वास्तविक प्रॉडक्शन ChatGPT ट्रॅफिकचे प्रतिनिधित्व करणाऱ्या मोठ्या संभाषण संचावर, आम्ही फसवणुकीचे प्रमाण o3 साठी 4.8% वरून GPT‑5 च्या तर्क प्रतिसादांसाठी 2.1% पर्यंत कमी केले आहे. हे वापरकर्त्यांसाठी अर्थपूर्ण सुधारणा असली तरी आणखी काम बाकी आहे, आणि आमच्या मॉडेल्सची तथ्यनिष्ठता व प्रामाणिकता वाढवण्यासाठी आम्ही संशोधन सुरूच ठेवले आहे. अधिक तपशील सिस्टम कार्डमध्ये आ ढळू शक तात.
शमनापूर्वी
शमनानंतर
सुरक्षेच्या बाबतीत GPT‑5 ने पातळी आणखी उंचावली आहे. पूर्वी, ChatGPT मुख्यत्वे रिफ्युजल-आधारित सेफ्टी प्रशिक्षणावर अवलंबून होता: वापरकर्त्याच्या प्रॉम्प्टनुसार मॉडेलने किंवा तर मान्य करावे किंवा नकार द्यावा. हा प्रकार स्पष्टपणे घातक प्रॉम्प्ट्ससाठी चांगला काम करतो, पण वापरकर्त्याचा हेतू अस्पष्ट असताना किंवा माहितीचा उपयोग निरुपद्रवी तसेच घातक अशा दोन्ही प्रकारे होऊ शकतो अशा परिस्थितींमध्ये तो अडखळतो. रिफ्युजल प्रशिक्षण dual-use क्षेत्रांसाठी, जसे की विषाणूशास्त्र, विशेषतः कडक असते, जिथे निरुपद्रवी विनंती उच्च-स्तरीय पातळीवर सुरक्षितपणे पूर्ण करता येते, पण तपशीलवार पूर्ण केल्यास एखाद्या दुष्ट कर्त्याला मदत होऊ शकते.
GPT‑5 साठी आम्ही सेफ्टी-ट्रेनिंगचा नवा प्रकार—सेफ कम्प्लिशन्स—सादर केला, जो मॉडेलला शक्य तिथे सर्वाधिक उपयुक्त उत्तर देताना सेफ्टीच्या मर्यादांमध्ये राहायला शिकवतो. कधी कधी याचा अर्थ वापरकर्त्याच्या प्रश्नाचे अंशतः उत्तर देणे किंवा फक्त उच्च-स्तरीय उत्तर देणे असा असू शकतो. जर मॉडेलला नकार द्यावा लागला, तर GPT‑5 यासाठी प्रशिक्षित आहे की ते पारदर्शकपणे तुम्हाला का नकार देत आहे हे सांगेल आणि सुरक्षित पर्यायही प्रदान करेल. नियंत्रित प्रयोगांमध्ये आणि आमच्या प्रॉडक्शन मॉडेल्समध्ये, आम्हाला आढळले की हा दृष्टिकोन अधिक सूक्ष्म आहे, ज्यामुळे दुहेरी वापर प्रश्नांमध्ये अधिक योग्य नेव्हिगेशन, अस्पष्ट हेतूंविरुद्ध अधिक मजबुती आणि अनावश्यक नकार कमी होतात. आमच्या सुरक्षितता-प्रशिक्षणाच्या नवीन दृष्टिकोनाबद्दल अधिक वाचा, तसेच कार्यपद्धती, मेट्रिक्स आणि निकालांबद्दल संपूर्ण तपशील आमच्या सुरक्षितता पूर्णता पेपरमध्ये वाचा.
प्रॉम्प्ट इंटेंट प्रकारांमध्ये (सेफ प्रतिसाद दिले असता) सुरक्षा आणि उपयुक्तता. GPT‑5 (थिंकिंगसह) सर्व प्रॉम्प्ट इंटेंट प्रकारांमध्ये अधिक सुरक्षा आणि जास्त उपयुक्तता दर्शवते.
एकंदरीत, GPT‑5 कमी उत्स्फूर्तपणे सहमत आहे, कमी अनावश्यक इमोजी वापरतो आणि GPT‑4o च्या तुलनेत फॉलो-अपमध्ये अधिक सूक्ष्म आणि विचारशील आहे. हे "एआयशी बोलणे" कमी आणि पीएचडी-स्तरीय बुद्धिमत्ता असलेल्या उपयुक्त मित्राशी गप्पा मारण्यासारखे अधिक वाटले पाहिजे.
या वर्षाच्या सुरुवातीला, आम्ही GPT‑4o चे एक अपडेट जारी केले ज्यामुळे अनवधानाने मॉडेल खूपच खुशामत करणारे, किंवा जास्त चापलूस किंवा सहमत बनले. आम्ही बदल त्वरित मागे घेतला आणि तेव्हापासून हे वर्तन समजून घेण्यासाठी आणि कमी करण्यासाठी काम केले आहे:
- चापलुसीची पातळी मोजण्यासाठी नवी मूल्यांकनं विकसित करणे
- आमचे प्रशिक्षण सुधारणे, जेणेकरून मॉडेल कमी चापलुसी करणारे बनेल—उदा., साधारणतः अति-सहमतीकडे नेणारी उदाहरणे समाविष्ट करून तसे करू नये हे शिकवणे.
चापलुसीजन्य प्रतिसाद निर्माण करण्यासाठी खास डिझाइन केलेल्या प्रॉम्प्ट्सवर आधारित लक्षित चापलुसी मूल्यांकनांमध्ये, GPT‑5 ने चापलुसीपूर्ण प्रतिसाद अर्थपूर्णरीत्या कमी केले (14.5% वरून 6% पेक्षा कमी). कधीकधी, चापलुसी कमी केल्याने वापरकर्त्याच्या समाधानात घट होऊ शकते, परंतु आम्ही केलेल्या सुधारणांमुळे चापलुसी अर्ध्याहून अधिक कमी झाली आहे आणि इतर मोजण्यायोग्य फायदे देखील मिळाले आहेत, त्यामुळे वापरकर्ते उच्च-गुणवत्तेची, रचनात्मक संभाषणे सुरू ठेवतात - लोकांना ChatGPT चांगल्या प्रकारे वापरण्यात मदत करण्याच्या आमच्या ध्येयाच्या अनुषंगाने.
निर्देशांचे पालन करण्यामध्ये GPT‑5 लक्षणीयरीत्या चांगले आहे, आणि आम्हाला सानुकूल निर्देशांचे पालन करण्याच्या क्षमतेतही तशीच सुधारणा दिसते.
चालण्याची क्षमतेतील सुधारणा मुळे शक्य झालेल्या, आम्ही सर्व ChatGPT वापरकर्त्यांसाठी चार नवीन प्रीसेट व्यक्तिमत्त्वांचे रिसर्च प्रिव्ह्यू देखील लाँच करत आहोत. ही व्यक्तिमत्त्वे, सुरुवातीला टेक्स्ट चॅटसाठी उपलब्ध आणि नंतर व्हॉइससाठी येणारी, तुम्हाला कस्टम प्रॉम्प्ट्स न लिहिता ChatGPT कसे संवाद साधतो हे ठरवू देतात—संक्षिप्त आणि व्यावसायिक, विचारशील आणि आधार देणारे किंवा थोडे उपहासात्मक. चार प्रारंभिक पर्याय—Cynic, Robot, Listener आणि Nerd—opt-in आहेत, सेटिंग्जमध्ये कधीही बदलता येतात आणि तुमच्या संवादशैलीशी जुळवून तयार केलेले आहेत.
या सर्व नवीन व्यक्तिमत्त्वांनी चापलुसी कमी करण्यासाठी आमच्या आंतरगत evals मधील मापदंड पूर्ण केले किंवा त्याहून अधिक गाठले.
आम्ही प्रारंभीच्या अभिप्रायाच्या आधारे शिकण्याची आणि सुधारणा करण्याची अपेक्षा करतो.
आम्ही “GPT‑5 thinking” मॉडेलला Biological आणि Chemical क्षेत्रात उच्च क्षमता म्हणून वर्गीकृत केले आहे, आणि संबंधित जोखमी पुरेशा प्रमाणात कमी करण्यासाठी कणखर सुरक्षितता उपाय लागू केले आहेत. आम्ही आमच्या तयारी फ्रेमवर्कअंतर्गत आमच्या सुरक्षा मूल्यां कनासह मॉडेलची कठोर चाचणी केली, CAISI आणि UK AISI सारख्या भागीदारांसह.
चॅटजीपीटी एजंटसाठी आमच्या दृष्टिकोनासारखेच, जरी आमच्याकडे ठोस पुरावा नाही की हे मॉडेल नवशिक्या व्यक्तीला गंभीर जैविक हानी तयार करण्यात अर्थपूर्ण मदत करू शकते - उच्च क्षमतेसाठी आमची परिभाषित मर्यादा(नवीन विंडोमध्ये उघडेल) - आम्ही सावधगिरीचा दृष्टिकोन घेत आहोत आणि अशा क्षमता उपलब्ध झाल्यावर तत्परता वाढवण्यासाठी आवश्यक सुरक्षा उपाय आता सक्रिय करत आहोत. परिणामी, “GPT‑5 thinking” कडे जीवशास्त्रासाठी बहु-स्तरीय संरक्षण प्रणालीसह भक्कम सेफ्टी स्टॅक आहे: सर्वसमावेशक थ्रेट मॉडेलिंग, आमच्या नवीन सेफ कम्प्लिशन्स पॅराडाइमद्वारे हानिकारक कंटेंट न देण्यासाठी मॉडेलचे प्रशिक्षण, ऑलवेज-ऑन क्लासिफायर्स आणि रिझनिंग मॉनिटर्स, आणि स्पष्ट एन्फोर्समेंट पाइपलाइन्स.
आमच्या सिस्टम कार्डमध्ये GPT‑5 साठी आमच्या मजबूत सुरक्षा दृष्टिकोनाबद्दल अधिक वाचा.
सर्वात आव्हानात्मक आणि गुंतागुंतीच्या कामांसाठी, आम्ही GPT‑5 pro देखील रिलीज करत आहोत, जो OpenAI o3‑pro ची जागा घेणारा GPT‑5 चा एक variant आहे, जो अधिक काळ विचार करण्यासाठी स्केल्ड पण कार्यक्षम पॅरलेल टेस्ट-टाइम कम्प्युट वापरतो, ज्यामुळे सर्वोच्च दर्जाची आणि सर्वाधिक व्यापक उत्तरे प्रदान करता येतात. GPT‑5 pro ने GPT‑5 परिवारातील अनेक कठीण इंटेलिजन्स बेंचमार्क्सवर सर्वोच्च कामगिरी साध्य केली आहे, ज्यात GPQA वर अत्याधुनिक कार्यक्षमता देखील समाविष्ट आहे, ज्यामध्ये अत्यंत कठीण विज्ञान प्रश्न असतात.
1,000 हून अधिक आर्थिकदृष्ट्या मौल्यवान, वास्तविक-जगातील रिझनिंग प्रॉम्प्ट्सवरील मूल्यांकनांत, बाह्य तज्ज्ञांनी 67.8% वेळा "GPT‑5 thinking" पेक्षा GPT‑5 pro ला प्राधान्य दिले. GPT‑5 pro ने मोठ्या चुका 22% ने कमी केल्या आणि आरोग्य, विज्ञान, गणित आणि कोडिंगमध्ये उत्कृष्ट कामगिरी केली. तज्ज्ञांनी त्याच्या प्रतिसादांना संबंधित, उपयुक्त आणि व्यापक असे रेट केले.
GPT‑5 आता ChatGPT मधील नवा डिफॉल्ट आहे, साइन-इन वापरकर्त्यांसाठी GPT‑4o, OpenAI o3, OpenAI o4-mini, GPT‑4.1 आणि GPT‑4.5 ची जागा घेत आहे. फक्त ChatGPT उघडा आणि आपला प्रश्न टाइप करा; GPT‑5 बाकीचे हाताळते, जेव्हा प्रतिसादाचा फायदा होईल तेव्हा तर्क स्वयंचलितपणे लागू करते. सशुल्क वापरकर्ते मॉडेल पिकरमधून “GPT‑5 Thinking” निवडू शकतात किंवा प्रतिसाद उत्पन्न करताना तर्क वापरला जात आहे याची खात्री करण्यासाठी प्रॉम्प्टमध्ये 'याबद्दल खूप विचार करा' असे काहीतरी टाइप करू शकतात.
जीपीटी-5 आजपासून सर्व Plus, Pro, Team, आणि Free वापरकर्त्यांसाठी रोलआउट होत आहे, ज्यांना पुढील आठवड्यात Enterprise आणि Edu साठी प्रवेश मिळेल. Pro, Plus, आणि Team वापरकर्ते ChatGPT सह साइन इन करून कोडेक्स CLI(नवीन विंडोमध्ये उघडेल) मध्ये GPT‑5 सह कोडिंग सुरू करू शकतात.
GPT‑4o प्रमाणेच, GPT‑5 च्या फ्री आणि पेड प्रवेशामधील फरक म्हणजे वापराचे प्रमाण. Pro सदस्यांना GPT‑5 ला अमर्यादित प्रवेश आणि GPT‑5 Pro ला प्रवेश मिळतो. Plus वापरकर्ते दैनंदिन प्रश्नांसाठी हे त्यांच्या डिफॉल्ट मॉडेल म्हणून सहज वापरू शकतात, आणि त्यांना फ्री वापरकर्त्यांपेक्षा लक्षणीय उच्च वापर क्षमता मिळते. Team, Enterprise आणि Edu ग्राहकही दैनंदिन कामासाठी GPT‑5 ला डिफॉल्ट मॉडेल म्हणून सहज वापरू शकतात, उदार मर्यादांसह ज्यामुळे संपूर्ण संस्था GPT‑5 वर अवलंबून राहू शकतात. ChatGPT फ्री-टिअर वापरकर्त्यांसाठी पूर्ण रिझनिंग क्षमता पूर्णपणे रोलआउट होण्यासाठी काही दिवस लागू शकतात. एकदा मोफत वापरकर्ते त्यांच्या GPT‑5 वापर मर्यादेपर्यंत पोहोचले की, ते GPT‑5 मिनी, एक लहान, वेगवान आणि अत्यंत सक्षम मॉडेलकडे स्थलांतर करतील.
लेखक
फूटनोट्स
*आमच्या मागील ब्लॉग पोस्टमध्ये नमूद केलेल्या आकड्यांमध्ये थोडीशी तफावत आहे, कारण ती HLE च्या पूर्वीच्या आवृत्तीत चालवली गेली होती.
**आम्हाला आढळले की MultiChallenge (GPT-4o) मधील डीफॉल्ट ग्रेडर अनेकदा मॉडेल प्रतिसादांचे गुण चुकीचे देतो. आम्हाला आढळले की ग्रेडरला o3-mini सारख्या रिझनिंग मॉडेलमध्ये बदलल्यास आम्ही तपासलेल्या नमुन्यांवर ग्रेडिंगची अचूकता लक्षणीयरीत्या सुधारते.
***MMMUPro साठी, आम्ही स्टँडर्ड आणि व्हिजनचे गुण सरासरी काढले.
योगदानकर्ते
Aaditya Singh, Adam Fry, Adam Perelman, Adam Tart, Adi Ganesh, Ahmed El-Kishky, Aidan McLaughlin, Aiden Low, AJ Ostrow, Akhila Ananthram, Akshay Nathan, Alan Luo, Alec Helyar, Aleksander Madry, Aleksandr Efremov, Aleksandra Spyra, Alex Baker-Whitcomb, Alex Beutel, Alex Karpenko, Alex Makelov, Alex Neitz, Alex Wei, Alexandra Barr, Alexandre Kirchmeyer, Alexey Ivanov, Alexi Christakis, Alistair Gillespie, Allison Tam, Ally Bennett, Alvin Wan, Alyssa Huang, Amy McDonald Sandjideh, Amy Yang, Ananya Kumar, Andre Saraiva, Andrea Vallone, Andrei Gheorghe, Andres Garcia Garcia, Andrew Braunstein, Andrew Liu, Andrew Schmidt, Andrey Mereskin, Andrey Mishchenko, Andy Applebaum, Andy Rogerson, Ann Rajan, Annie Wei, Anoop Kotha, Anubha Srivastava, Anushree Agrawal, Arun Vijayvergiya, Ashley Tyra, Ashvin Nair, Avi Nayak, Ben Eggers, Bessie Ji, Beth Hoover, Bill Chen, Blair Chen, Boaz Barak, Borys Minaiev, Botao Hao, Bowen Baker, Brad Lightcap, Brandon McKinzie, Brandon Wang, Brendan Quinn, Brian Fioca, Brian Hsu, Brian Yang, Brian Yu, Brian Zhang, Brittany Brenner, Callie Riggins Zetino, Cameron Raymond, Camillo Lugaresi, Carolina Paz, Cary Hudson, Cedric Whitney, Chak Li, Charles Chen, Charlotte Cole, Chelsea Voss, Chen Ding, Chen Shen, Chengdu Huang, Chris Colby, Chris Hallacy, Chris Koch, Chris Lu, Christina Kaplan, Christina Kim, CJ Minott-Henriques, Cliff Frey, Cody Yu, Coley Czarnecki, Colin Reid, Colin Wei, Cory Decareaux, Cristina Scheau, Cyril Zhang, Cyrus Forbes, Da Tang, Dakota Goldberg, Dan Roberts, Dana Palmie, Daniel Kappler, Daniel Levine, Daniel Wright, Dave Leo, David Lin, David Robinson, Declan Grabb, Derek Chen, Derek Lim, Derek Salama, Dibya Bhattacharjee, Dimitris Tsipras, Dinghua Li, Dingli Yu, DJ Strouse, Drew Williams, Dylan Hunn, Ed Bayes, Edwin Arbus, Ekin Akyurek, Elaine Ya Le, Elana Widmann, Eli Yani, Elizabeth Proehl, Enis Sert, Enoch Cheung, Eri Schwartz, Eric Han, Eric Jiang, Eric Mitchell, Eric Sigler, Eric Wallace, Erik Ritter, Erin Kavanaugh, Evan Mays, Evgenii Nikishin, Fangyuan Li, Felipe Petroski Such, Filipe de Avila Belbute Peres, Filippo Raso, Florent Bekerman, Foivos Tsimpourlas, Fotis Chantzis, Francis Song, Francis Zhang, Gaby Raila, Garrett McGrath, Gary Briggs, Gary Yang, Giambattista Parascandolo, Gildas Chabot, Grace Kim, Grace Zhao, Gregory Valiant, Guillaume Leclerc, Hadi Salman, Hanson Wang, Hao Sheng, Haoming Jiang, Haoyu Wang, Haozhun Jin, Harshit Sikchi, Heather Schmidt, Henry Aspegren, Honglin Chen, Huida Qiu, Hunter Lightman, Ian Covert, Ian Kivlichan, Ian Silber, Ian Sohl, Ibrahim Hammoud, Ignasi Clavera, Ikai Lan, Ilge Akkaya, Ilya Kostrikov, Irina Kofman, Isak Etinger, Ishaan Singal, Jackie Hehir, Jacob Huh, Jacqueline Pan, Jake Wilczynski, Jakub Pachocki, James Lee, James Quinn, Jamie Kiros, Janvi Kalra, Jasmyn Samaroo, Jason Wang, Jason Wolfe, Jay Chen, Jay Wang, Jean Harb, Jeffrey Han, Jeffrey Wang, Jennifer Zhao, Jeremy Chen, Jerene Yang, Jerry Tworek, Jesse Chand, Jessica Landon, Jessica Liang, Ji Lin, Jiancheng Liu, Jianfeng Wang, Jie Tang, Jihan Yin, Joanne Jang, Joel Morris, Joey Flynn, Johannes Ferstad, Johannes Heidecke, John Fishbein, John Hallman, Jonah Grant, Jonathan Chien, Jonathan Gordon, Jongsoo Park, Jordan Liss, Jos Kraaijeveld, Joseph Guay, Joseph Mo, Josh Lawson, Josh McGrath, Joshua Vendrow, Joy Jiao, Julian Lee, Julie Steele, Julie Wang, Junhua Mao, Kai Chen, Kai Hayashi, Kai Xiao, Kamyar Salahi, Kan Wu, Karan Sekhri, Karan Sharma, Karan Singhal, Karen Li, Kenny Nguyen, Keren Gu-Lemberg, Kevin King, Kevin Liu, Kevin Stone, Kevin Yu, Kristen Ying, Kristian Georgiev, Kristie Lim, Kushal Tirumala, Kyle Miller, Lama Ahmad, Larry Lv, Laura Clare, Laurance Fauconnet, Lauren Itow, Lauren Yang, Laurentia Romaniuk, Leah Anise, Lee Byron, Leher Pathak, Leon Maksin, Leyan Lo, Leyton Ho, Li Jing, Liang Wu, Liang Xiong, Lien Mamitsuka, Lin Yang, Lindsay McCallum, Lindsey Held, Liz Bourgeois, Logan Engstrom, Lorenz Kuhn, Louis Feuvrier, Lu Zhang, Lucas Switzer, Lukas Kondraciuk, Lukasz Kaiser, Manas Joglekar, Mandeep Singh, Mandip Shah, Manuka Stratta, Marcus Williams, Mark Chen, Mark Sun, Marselus Cayton, Martin Li, Marvin Zhang, Marwan Aljubeh, Matt Nichols, Matthew Haines, Max Schwarzer, Mayank Gupta, Meghan Shah, Melody Huang, Meng Dong, Mengqing Wang, Mia Glaese, Micah Carroll, Michael Lampe, Michael Malek, Michael Sharman, Michael Zhang, Michele Wang, Michelle Pokrass, Mihai Florian, Mikhail Pavlov, Miles Wang, Ming Chen, Mingxuan Wang, Minnia Feng, Mo Bavarian, Molly Lin, Moose Abdool, Mostafa Rohaninejad, Nacho Soto, Natalie Staudacher, Natan LaFontaine, Nathan Marwell, Nelson Liu, Nick Preston, Nick Turley, Nicklas Ansman, Nicole Blades, Nikil Pancha, Nikita Mikhaylin, Niko Felix, Nikunj Handa, Nishant Rai, Nitish Keskar, Noam Brown, Ofir Nachum, Oleg Boiko, Oleg Murk, Olivia Watkins, Oona Gleeson, Pamela Mishkin, Patryk Lesiewicz, Paul Baltescu, Pavel Belov, Peter Zhokhov, Philip Pronin, Phillip Guo, Phoebe Thacker, Qi Liu, Qiming Yuan, Qinghua Liu, Rachel Dias, Rachel Puckett, Rahul Arora, Ravi Teja Mullapudi, Raz Gaon, Reah Miyara, Rennie Song, Rishabh Aggarwal, RJ Marsan, Robel Yemiru, Robert Xiong, Rohan Kshirsagar, Rohan Nuttall, Roman Tsiupa, Ronen Eldan, Rose Wang, Roshan James, Roy Ziv, Rui Shu, Ruslan Nigmatullin, Saachi Jain, Saam Talaie, Sam Altman, Sam Arnesen, Sam Toizer, Sam Toyer, Samuel Miserendino, Sandhini Agarwal, Sarah Yoo, Savannah Heon, Scott Ethersmith, Sean Grove, Sean Taylor, Sebastien Bubeck, Sever Banesiu, Shaokyi Amdo, Shengjia Zhao, Sherwin Wu, Shibani Santurkar, Shiyu Zhao, Shraman Ray Chaudhuri, Shreyas Krishnaswamy, Shuaiqi (Tony) Xia, Shuyang Cheng, Shyamal Anadkat, Simón Posada Fishman, Simon Tobin, Siyuan Fu, Somay Jain, Song Mei, Sonya Egoian, Spencer Kim, Spug Golden, SQ Mah, Steph Lin, Stephen Imm, Steve Sharpe, Steve Yadlowsky, Sulman Choudhry, Sungwon Eum, Suvansh Sanjeev, Tabarak Khan, Tal Stramer, Tao Wang, Tao Xin, Tarun Gogineni, Taya Christianson, Ted Sanders, Tejal Patwardhan, Thomas Degry, Thomas Shadwell, Tianfu Fu, Tianshi Gao, Timur Garipov, Tina Sriskandarajah, Toki Sherbakov, Tomer Kaftan, Tomo Hiratsuka, Tongzhou Wang, Tony Song, Tony Zhao, Troy Peterson, Val Kharitonov, Victoria Chernova, Vineet Kosaraju, Vishal Kuo, Vitchyr Pong, Vivek Verma, Vlad Petrov, Wanning Jiang, Weixing Zhang, Wenda Zhou, Wenlei Xie, Wenting Zhan, Wes McCabe, Will DePue, Will Ellsworth, Wulfie Bain, Wyatt Thompson, Xiangning Chen, Xiangyu Qi, Xin Xiang, Xinwei Shi, Yann Dubois, Yaodong Yu, Yara Khakbaz, Yifan Wu, Yilei Qian, Yin Tat Lee, Yinbo Chen, Yizhen Zhang, Yizhong Xiong, Yonglong Tian, Young Cha, Yu Bai, Yu Yang, Yuan Yuan, Yuanzhi Li, Yufeng Zhang, Yuguang Yang, Yujia Jin, Yun Jiang, Yunyun Wang, Yushi Wang, Yutian Liu, Zach Stubenvoll, Zehao Dou, Zheng Wu आणि Zhigang Wang


