मुख्य मजकूराकडे जा
OpenAI

७ ऑगस्ट, २०२५

प्रॉडक्ट

विकसकांसाठी GPT‑5 सादर करत आहोत

कोडिंग आणि एजंटिक कामांसाठी सर्वोत्तम मॉडेल.

लोड होत आहे...

प्रस्तावना

आज, आम्ही आमच्या API प्लॅटफॉर्मवर GPT‑5 रिलीज करत आहोत—कोडिंग आणि एजंटिक कामांसाठी आमचे आतापर्यंतचे सर्वोत्तम मॉडेल.

GPT‑5 मुख्य कोडिंग बेंचमार्कवर स्टेट-ऑफ-द-आर्ट (SOTA) आहे, SWE-बेंच सत्यापित वर 74.9% आणि Aider polyglot वर 88% स्कोअर करून. आम्ही GPT‑5 ला खरा कोडिंग सहकारी होण्यासाठी प्रशिक्षित केले आहे. हे उच्च-गुणवत्तेचा कोड तयार करण्यात आणि बग फिक्सिंग, कोड संपादन, तसेच क्लिष्ट कोडबेसबद्दल प्रश्नांची उत्तरे देण्यास उत्कृष्ट आहे. हे मॉडेल स्टीयरेबल आणि सहयोगी आहे—हे उच्च अचूकतेसह अतिशय तपशीलवार सूचनांचे पालन करू शकते आणि टूल कॉलच्या आधी आणि दरम्यान त्याच्या कामांचे स्पष्ट स्पष्टीकरण देऊ शकते.  हे मॉडेल फ्रंट-एंड कोडिंगमध्येही उत्कृष्ट आहे, आंतररिक चाचणीत OpenAI o3 ला फ्रंटएंड वेब डेव्हलपमेंटमध्ये 70% वेळा मागे टाकले आहे.

आम्ही GPT‑5 ला वास्तविक कोडिंग कामांवर प्रशिक्षित केले, स्टार्टअप्स आणि एंटरप्राइजसह सुरुवातीच्या टेस्टर्सच्या सहकार्याने. कर्सर म्हणतो की GPT‑5 हे "[त्यांनी] वापरलेले सर्वात हुशार मॉडेल आहे" आणि "त्याचे व्यक्तिमत्व उल्लेखनीयपणे बुद्धिमान, चालवण्यास सोपे आहे आणि त्याचे व्यक्तिमत्व [त्यांनी] इतर मॉडेल्समध्ये पाहिले नाही." Windsurf ने सांगितले की GPT‑5 त्यांच्या मुल्यांकन्समध्ये SOTA आहे आणि “इतर फ्रंटियर मॉडेल्सच्या तुलनेत टूल कॉलिंग एरर रेट अर्धा आहे.” Vercel म्हणतो की “हे सर्वोत्तम फ्रंटएंड AI मॉडेल आहे, सौंदर्यदृष्टी आणि कोड क्वालिटी दोन्हीमध्ये टॉप परफॉर्मन्स गाठत, आणि स्वतःच्या श्रेणीत ठेवते.”

GPT‑5 दीर्घकालीन एजंटिक कामांमध्येही उत्कृष्ट आहे—τ2-बेंच टेलिकॉमवर SOTA निकाल मिळवतो (96.7%), जो टूल-कॉलिंग बेंचमार्क फक्त 2 महिन्यांपूर्वी रिलीज झाला होता. GPT‑5 ची सुधारलेली टूल इंटेलिजन्स त्याला अनेक टूल कॉल्स एकत्र साखळीत बांधण्याची खात्री देते—सिक्वेन्स आणि पॅरलेल दोन्हीमध्ये—मार्ग हरवता न येता, जे त्याला क्लिष्ट, वास्तविक कामां पूर्ण करण्यासाठी खूप चांगले बनवते. हे टूलच्या सूचनांचे अधिक अचूक पालन करते, टूलच्या त्रुटी हाताळण्यात अधिक सक्षम आहे, आणि लांब संदर्भ असलेल्या कंटेंटच्या पुनर्प्राप्तीत उत्कृष्ट आहे. Manus म्हणतो की GPT‑5 “[त्यांनी] कधीही एका मॉडेलमधून पाहिलेला सर्वोत्तम परफॉर्मन्स [त्यांच्या] आंतररिक बेंचमार्कवर गाठला आहे.” Notion म्हणतो की “[मॉडेलच्या] जलद प्रतिसादामुळे, विशेषतः कमी तर्क करण्याच्या मोडमध्ये, GPT‑5 एक आदर्श मॉडेल आहे जेव्हा तुम्हाला क्लिष्ट कामे एकाच वेळेत सोडवायचे असतात.” Inditex ने सांगितले की “खरंच [GPT‑5] वेगळे बनवणारे म्हणजे त्याच्या तर्कशक्तीची खोली: सूक्ष्म, बहु-स्तरीय उत्तरे जी वास्तविक विषय ज्ञान प्रतिबिंबित करतात.”

आम्ही आमच्या API मध्ये नवीन फीचर्स सादर करत आहोत जे विकसकांना मॉडेलच्या प्रतिसादांवर अधिक नियंत्रण देतात. उत्तरे लहान आणि मुद्देसूद आहेत की लांब आणि व्यापक आहेत हे नियंत्रित करण्यास मदत करण्यासाठी GPT‑5 नवीन वर्बोसिटी पॅरामीटर (मूल्ये: कमी, मध्यम, उच्च) ला सपोर्ट देते. GPT‑5 चे reasoning_effort पॅरामीटर आता विस्तृत तर्क न करता, उत्तरे जलद परत मिळविण्यासाठी किमान मूल्य घेऊ शकते. आम्ही एक नवीन टूल प्रकार—कस्टम टूल्स—देखील जोडला आहे ज्यामुळे GPT‑5 ला JSON ऐवजी प्लेनटेक्स्ट वापरून टूल्स कॉल करता येतील. कस्टम टूल्स विकसकांनी पुरवलेल्या संदर्भ-मुक्त ग्रामरने मर्यादित करण्यास सपोर्ट करतात.

विकसकांना कार्यप्रदर्शन, किंमत आणि प्रलंबितवर व्यापार करण्यासाठी अधिक लवचिकता देण्यासाठी आम्ही API मध्ये तीन आकारांमध्ये GPT‑5—gpt-5, gpt-5-mini, आणि gpt-5-nano—रिलीझ करत आहोत. ChatGPT मधील GPT‑5 ही तर्क, गैर-तर्क आणि राउटर मॉडेल्सची एक प्रणाली आहे, तर API प्लॅटफॉर्ममधील GPT‑5 हे तर्क मॉडेल आहे जे ChatGPT मध्ये जास्तीत जास्त कामगिरीला शक्ती देते. विशेष म्हणजे, किमान तर्कासह GPT‑5 हा ChatGPT मधील गैर-तर्क मॉडेलपेक्षा वेगळा आहे, आणि विकसकांसाठी अधिक चांगले ट्यून केलेला आहे. ChatGPT मध्ये वापरलेले नॉन-तर्क मॉडेल gpt-5-chat-latest म्हणून उपलब्ध आहे.

ChatGPT मधील GPT‑5 बद्दल वाचण्यासाठी आणि इतर ChatGPT सुधारणा जाणून घेण्यासाठी, आमचा रिसर्च ब्लॉग पहा. `कंपन्या GPT‑5 वापरण्यास किती उत्साहित आहेत याविषयी अधिक माहितीसाठी, आमचा एंटरप्राइझ ब्लॉग पहा.

कोडिंग

GPT‑5 हा आम्ही कधीही रिलीज केलेला सर्वात शक्तिशाली कोडिंग मॉडेल आहे. हे कोडिंग बेंचमार्क आणि वास्तविक उपयोग प्रकरणांमध्ये o3 पेक्षा उत्कृष्ट आहे, आणि Cursor, Windsurf, GitHub Copilot, आणि कोडेक्स CLI सारख्या एजंटिक कोडिंग प्रॉडक्ट्समध्ये चमकण्यासाठी फाइन-ट्यून केलेले आहे. GPT‑5 ने आमच्या अल्फा टेस्टर्सला प्रभावित केले, आणि त्यांच्या अनेक खाजगी आंतररिक मुल्यांकनांवर रेकॉर्ड सेट केले. 

वास्तविक कोडिंग कामांसाठी GPT‑5 वर प्रारंभीचे अभिप्राय

“GPT-5 हा आम्ही वापरलेला सर्वात स्मार्ट कोडिंग मॉडेल आहे." आमच्या टीमला GPT-5 अत्यंत बुद्धिमान, सहज स्टिअरेबल, आणि इतका व्यक्तिमत्त्व असलेला आढळला की जे आम्ही अन्य कोणत्याही मॉडेलमध्ये पाहिलेले नाही. हे फक्त कठीण, खोल लपलेल्या बग्स पकडत नाही तर लांब, मल्टी-टर्न बॅकग्राऊंड एजंट्स चालवून क्लिष्ट टास्क शेवटपर्यंत पूर्ण करू शकते—अशा समस्या ज्या इतर मॉडेल्सला अडकवायच्या. हे PR स्कोपिंग आणि प्लॅनिंगपासून ते एंड-टू-एंड बिल्ड्स पूर्ण करण्यापर्यंत सर्वासाठी आमचे रोजचे मुख्य मॉडेल बनले आहे.”
Michael Truell, Cursor चे सह-संस्थापक आणि CEO

वास्तविक सॉफ्टवेअर इंजिनीअरिंग कामांवर आधारित SWE-बेंच सत्यापित या मूल्यमापनात, GPT‑5 ने 74.9% गुण मिळवले, जे o3 च्या 69.1% पेक्षा जास्त आहे. विशेष म्हणजे, GPT‑5 हा उच्च स्कोअर अधिक कार्यक्षमतेने आणि वेगाने साधतो: उच्च तर्क इफर्टमध्ये o3 च्या तुलनेत, GPT‑5 22% कमी आउटपुट टोकन आणि 45% कमी टूल कॉल्स वापरतो.

SWE-बेंच सत्यापित मध्ये, मॉडेलला कोड रेपॉझिटरी आणि इश्यूचे वर्णन दिले जाते, आणि त्यावर उपाय म्हणून पॅच तयार करणे आवश्यक असते. टेक्स्ट लेबल्स तर्क इफर्ट दाखवतात. आमच्या स्कोअर्समध्ये 500 पैकी 23 समस्या वगळल्या आहेत ज्या आमच्या इन्फ्रास्ट्रक्चरवर विश्वसनीयपणे सोल्यूशन देऊ शकल्या नाहीत. GPT‑5 ला एक छोटा प्रॉम्प्ट दिला गेला जो सोल्यूशन्स पूर्णपणे तपासण्यावर भर देतो; त्याच प्रॉम्प्टने o3 ला फायदा झाला नाही.

कोड एडिटिंगच्या Aider polyglot इव्हॅल्यूएशनमध्ये, GPT‑5 ने 88% नवीन रेकॉर्ड सेट केला, जे o3 च्या तुलनेत त्रुटी दरात एक तृतीयांश कपात आहे.

Aider polygot(नवीन विंडोमध्ये उघडेल) (diff) मध्ये, मॉडेलला Exercism कडून एक कोडिंग एक्सरसाइज दिली जाते आणि त्याने त्याचे सोल्यूशन कोड डिफ म्हणून लिहावे लागते. तर्क मॉडेल्स उच्च तर्क इफर्टसह चालवले गेले.

आम्ही हेही आढळले की GPT‑5 विविध कोडबेस मधील भाग कसे कार्य करतात किंवा परस्पर कसे इंटरऑपरेट करतात यावर प्रश्नांची उत्तरे देण्यासाठी खोलात जाण्यात उत्कृष्ट आहे. OpenAI च्या मजबुतीकरण शिक्षण स्टॅकसारख्या क्लिष्ट कोडबेसमध्ये, आम्हाला असे आढळले आहे की GPT‑5 आम्हाला आमच्या कोडबद्दल तर्कशक्तीने विचार करण्यास आणि प्रश्नांची उत्तरे देण्यास मदत करू शकते, ज्यामुळे आमच्या दैनंदिन कामाला गती मिळते. 

फ्रंटएंड इंजिनीअरिंग

वेब ॲपसाठी फ्रंटएंड कोड तयार करताना, GPT‑5 अधिक सौंदर्यदृष्टीसह, महत्त्वाकांक्षी आणि अचूक आहे. o3 सोबत बाजूने तुलना केल्यावर, आमच्या टेस्टर्सने 70% वेळा GPT‑5 ला प्राधान्य दिले.

एकाच प्रॉम्प्टने GPT‑5 काय करू शकते याची काही मनोरंजक, निवडक उदाहरणे येथे आहेत:

प्रॉम्प्ट: कृपया एका सुंदर, वास्तववादी लँडिंग पेजची निर्मिती करा जी कॉफीच्या चाहत्यांना $200/महिना सदस्यतेने सेवा देते. ही सेवा कॉफी भाजण्यासाठी उपकरणे भाड्याने आणि प्रशिक्षण देते आणि सर्वोत्तम एस्प्रेसो उत्पन्न करा. लक्ष्यित प्रेक्षक हा एक बे एरियामधील मध्यमवयीन व्यक्ती आहे जो तंत्रज्ञान क्षेत्रात काम करू शकतो आणि शिक्षित आहे, त्याचे उत्पन्न कमी आहे आणि कॉफीच्या कला आणि विज्ञानाबद्दल त्याला आवड आहे. 6 महिन्यांच्या साइनअपसाठी रूपांतरणासाठी ऑप्टिमाइझ करा.

आमच्या गॅलरीमध्ये GPT‑5 चे आणखी उदाहरणे इथे(नवीन विंडोमध्ये उघडेल) पहा.

कोडिंग सहकार्य

GPT‑5 एक चांगला सहकारी आहे, विशेषतः Cursor, Windsurf, GitHub Copilot, आणि कोडेक्स CLI सारख्या एजंटिक कोडिंग प्रॉडक्ट्समध्ये. कार्य करताना, GPT‑5 टूल कॉल्स दरम्यान योजना, अद्यतने आणि रीकॅप्स आउटपुट करू शकते. आमच्या मागील मॉडेल्सच्या तुलनेत, GPT‑5 उच्च कॉम्प्लेक्सिटीवर थांबण्याची किंवा तुमच्या मान्यतेची वाट पाहण्याशिवाय महत्त्वाकांक्षी कामां पूर्ण करण्यात अधिक प्रॅक्टिव्ह आहे.

क्लिष्ट काम हाताळताना GPT‑5 कसे दिसू शकते याचे उदाहरण येथे आहे (या प्रकरणात, रेस्टॉरंटसाठी वेबसाइट तयार करणे):

वापरकर्त्याने त्यांच्या रेस्टॉरंटसाठी वेबसाइट मागितल्यानंतर, GPT‑5 एक जलद योजना शेअर करते, ॲप स्कॅफोल्ड करते, डिपेंडंसी स्थापित करते, साइट सामग्री तयार करते, संकलन त्रुटी तपासण्यासाठी बिल्ड चालवते, त्याचे काम सारांशित करते आणि पुढील संभाव्य पावले सुचवते. या व्हिडिओचा वेग सुमारे 3x वाढवला आहे जेणेकरून तुम्हाला प्रतीक्षा करावी लागणार नाही; वेबसाइट तयार करण्यासाठी पूर्ण वेळ सुमारे तीन मिनिटे होती.

एजंटिक कामां

एजंटिक कोडिंगव्यतिरिक्त, GPT‑5 साधारणपणे एजंटिक कामांमध्ये अधिक सक्षम आहे. GPT‑5 इन्स्ट्रक्शन फॉलोइंगच्या बेंचमार्कवर नवीन रेकॉर्ड प्रस्थापित करतो (Scale MultiChallenge वर 69.6%, o3‑mini द्वारे ग्रेड केले) आणि टूल कॉलिंगमध्ये (τ2-बेंच टेलिकॉम वर 96.7%). सुधारलेल्या टूल इंटेलिजन्समुळे GPT‑5 वास्तविक कामां पूर्ण करण्यासाठी क्रियांचा साखळीबद्ध वापर अधिक विश्वसनीयपणे करू शकतो.

एजंटिक कामासाठी GPT‑5 वर प्रारंभीचे अभिप्राय

“GPT-5 हा एक मोठा टप्पा आहे." त्याने आमच्या आंतररिक बेंचमार्क्सवर एका मॉडेलमधून आम्ही कधीही पाहिलेला सर्वोत्तम परफॉर्मन्स साधला आहे. GPT-5 विविध एजंटिक कामांमध्ये उत्कृष्ट ठरले—आम्ही कोडची एकही ओळ बदलण्यापूर्वी किंवा प्रॉम्प्ट सानुकूल करण्यापूर्वीही. नवीन प्रॅम्बल्स आणि टूल वापरावर अधिक अचूक नियंत्रणामुळे आमच्या एजंट्सच्या स्थिरता आणि स्टिअरेबिलिटीमध्ये लक्षणीय प्रगती झाली.
Yichao ‘Peak’ Ji, Manus चे सह-संस्थापक आणि चीफ सायंटिस्ट

निर्देशांचे पालन

GPT‑5 त्याच्या सर्व पूर्ववर्ती मॉडेल्सच्या तुलनेत सूचनांचे पालन अधिक विश्वसनीयपणे करते, COLLIE, Scale MultiChallenge, आणि आमच्या आंतररिक इन्स्ट्रक्शन फॉलोइंग इव्हॅल्यूएशनवर उच्च स्कोअर करते.

COLLIE(नवीन विंडोमध्ये उघडेल) मध्ये, मॉडेल्सला असे टेक्स्ट लिहावे लागते जे विविध मर्यादा पूर्ण करते. स्केल मल्टीचॅलेंज(नवीन विंडोमध्ये उघडेल) मध्ये, मॉडेल्सना मल्टी-टर्न संभाषणांमध्ये मागील संदेशांमधून चार प्रकारच्या माहितीचा योग्य वापर करण्याचे आव्हान दिले जाते. आमचे स्कोअर o3‑mini ग्रेडर वापरून आले आहेत, जे GPT‑4o पेक्षा अधिक अचूक होते. आमच्या आंतररिक OpenAI API इन्स्ट्रक्शन फॉलोइंग इव्हॅलमध्ये, मॉडेल्सना वास्तविक विकसक अभिप्रायावर आधारित कठीण सूचनांचे पालन करणे आवश्यक आहे. तर्क मॉडेल्स उच्च तर्क इफर्टसह चालवले गेले.

टूल कॉलिंग

आम्ही विकसकांसाठी महत्त्वाच्या बाबींमध्ये टूल कॉलिंग सुधारण्यासाठी खूप मेहनत केली. GPT‑5 टूलच्या सूचनांचे पालन अधिक चांगल्या प्रकारे करते, टूल एरर हाताळण्यात अधिक सक्षम आहे, आणि सिक्वेन्स किंवा पॅरलेलमध्ये अनेक टूल कॉल्स सक्रियपणे करण्यास अधिक सक्षम आहे. सूचित केल्यावर, GPT‑5 टूल कॉल्सपूर्वी आणि दरम्यान प्रॅम्बल मेसेजेस आउटपुट करू शकते, ज्यामुळे लांब एजंटिक कामां दरम्यान वापरकर्त्यांना प्रगतीबद्दल अद्यतन होते.

दोन महिन्यांपूर्वी, τ2-बेंच टेलिकॉम हे Sierra.ai ने एक आव्हानात्मक साधन वापर बेंचमार्क म्हणून प्रकाशित केले होते, ज्याने वापरकर्त्यांद्वारे बदलल्या जाऊ शकणाऱ्या पर्यावरणीय स्थितीशी संवाद साधताना भाषा मॉडेलची कार्यक्षमता कशी लक्षणीयरीत्या कमी होते यावर प्रकाश टाकला होता. त्यांच्या प्रकाशन(नवीन विंडोमध्ये उघडेल) मध्ये, कोणत्याही मॉडेलने 49% पेक्षा जास्त स्कोअर केले नाही. GPT‑5 97% स्कोअर करते.

τ2-bench(नवीन विंडोमध्ये उघडेल) मध्ये, मॉडेलला टूल्स वापरून ग्राहक सेवा कामां पूर्ण करणे आवश्यक आहे, जिथे एक वापरकर्ता असू शकतो जो संवाद साधू शकतो आणि जगाच्या स्थितीवर क्रिया घेऊ शकतो. तर्क मॉडेल्स उच्च तर्क इफर्टसह चालवले गेले.

GPT‑5 लाँग-संदर्भ परफॉर्मन्समध्येही मजबूत सुधारणा दाखवते. OpenAI-MRCR वर, जे लाँग-संदर्भ माहिती रिट्रीवलचे मोजमाप आहे, GPT‑5 हे o3 आणि GPT‑4.1 पेक्षा अधिक उत्कृष्ट कामगिरी करतो, आणि जास्त इनपुट लांबीवर हा फरक लक्षणीयरीत्या वाढतो.

In OpenAI-MRCR(नवीन विंडोमध्ये उघडेल) (मल्टी-राउंड सह-संदर्भ रिझोल्यूशन), अनेक समान “सुई” वापरकर्त्याच्या विनंत्या समान विनंती आणि प्रतिसादांच्या लांब “हेस्टॅक्स” मध्ये समाविष्ट केल्या जातात, आणि मॉडेलला i-थ सुईच्या प्रतिसादाची पुनरावृत्ती करण्यास सांगितले जाते. मीन मॅच रेशियो हे मॉडेलच्या प्रतिसाद आणि योग्य उत्तर यांच्यातील सरासरी स्ट्रिंग मॅच रेशियो मोजते. 256k जास्तीत जास्त इनपुट टोकनवरील पॉइंट्स 128k–256k इनपुट टोकनवरील सरासरी दर्शवतात, आणि तसेच पुढे. येथे, 256k म्हणजे 256 * 1,024 = 262,114 token. तर्क मॉडेल्स उच्च तर्क इफर्टसह चालवले गेले.

आम्ही BrowseComp Long Context(नवीन विंडोमध्ये उघडेल) देखील ओपन सोर्स करत आहोत, जो दीर्घ-संदर्भ प्रश्नोत्तरांचे मूल्यांकन करण्यासाठी एक नवीन बेंचमार्क आहे. या बेंचमार्कमध्ये, मॉडेलला वापरकर्त्याचा क्वेरी, संबंधित शोध रिझल्ट्सची लांब यादी दिली जाते, आणि त्यावर आधारित प्रश्नाचे उत्तर द्यावे लागते. आम्ही BrowseComp लाँग- संदर्भ हे वास्तवाशी सुसंगत, कठीण आणि विश्वासार्ह योग्य ग्राउंड ट्रुथ उत्तरे असलेले डिझाइन केले आहे. 128K–256K token असलेल्या इनपुटवर, GPT‑5 89% वेळा योग्य उत्तर देतो.

API मध्ये, सर्व GPT‑5 मॉडेल्स जास्तीत जास्त 272,000 इनपुट टोकन स्वीकारू शकतात आणि जास्तीत जास्त 128,000 तर्क व आउटपुट टोकन तयार करू शकतात, एकूण 400,000 टोकनची संदर्भ लांबी.

तथ्यसंग्रह

GPT‑5 आमच्या पूर्वीच्या मॉडेल्सपेक्षा अधिक विश्वासार्ह आहे. LongFact आणि FactScore बेंचमार्कमधील प्रॉम्प्ट्सवर, GPT‑5 o3 पेक्षा सुमारे 80% कमी तथ्यात्मक चुका करतो. यामुळे हे एजंटिक वापर प्रकरणांसाठी अधिक योग्य बनते जिथे अचूकता महत्त्वाची आहे—विशेषतः कोड, डेटा, आणि निर्णय-निर्मितीत.

उच्च स्कोअर्स वाईट आहेत. LongFact(नवीन विंडोमध्ये उघडेल) आणि FActScore(नवीन विंडोमध्ये उघडेल) मध्ये ओपन-एंडेड तथ्य शोध प्रश्नांचा समावेश आहे. आम्ही या बेंचमार्क्समधील प्रॉम्प्ट्सवर प्रतिसादांचे तथ्य तपासण्यासाठी ब्राउझिंगसह LLM-आधारित ग्रेडर वापरतो आणि तथ्यात्मकदृष्ट्या चुकीच्या दाव्यांचा हिस्सा मोजतो. अंमलबजावणी आणि ग्रेडिंगचे तपशील सिस्टम कार्ड मध्ये मिळू शकतात. तर्क मॉडेल्स उच्च तर्क इफर्टसह वापरले गेले. शोध सक्षम केलेले नव्हते.

साधारणपणे, GPT‑5 ला स्वतःच्या मर्यादांची अधिक जाणीव असणे आणि अनपेक्षित अडचणी अधिक चांगल्या प्रकारे हाताळता येणे यासाठी प्रशिक्षित केले गेले आहे. आम्ही आरोग्याच्या प्रश्नांवर अधिक अचूक होण्यासाठी GPT‑5 चे प्रशिक्षण देखील दिले (आमच्या संशोधन ब्लॉगमध्ये अधिक वाचा). सर्व भाषा मॉडेल्सप्रमाणे, जेव्हा परिणाम महत्त्वाचे असतात तेव्हा GPT‑5 चे काम सत्यापित करण्याची आम्ही शिफारस करतो.

नवीन फीचर्स

कमी तर्क करण्याचा एफर्ट

विकसक एपीआयमधील पॅरामीटरद्वारे GPT‑5 चा विचार करण्याची वेळ reasoning_effort नियंत्रित करू शकतात. पूर्वीच्या मूल्यांव्यतिरिक्त —low, medium (डीफॉल्ट), आणि high—GPT‑5 देखील minimal ला सपोर्ट करते, जे उत्तर पटकन परत करण्यासाठी GPT‑5 च्या तर्कशक्तीला कमी करते.

जास्त reasoning_effort मूल्ये गुणवत्ता जास्तीत जास्त करतात आणि कमी मूल्ये गती जास्तीत जास्त करतात. सर्व कामां अतिरिक्त तर्कमधून समान लाभ घेत नाहीत, त्यामुळे आम्ही शिफारस करतो की तुम्ही प्रयोग करा आणि तुमच्या गरजेच्या युज केससाठी कोणते सर्वोत्तम काम करते ते पहा.

उदाहरणार्थ, कमी वरील तर्क तुलनेने सोप्या दीर्घ-संदर्भ पुनर्प्राप्तीमध्ये थोडेसे जोडते, परंतु CharXiv तर्क(नवीन विंडोमध्ये उघडेल), एक व्हिज्युअल तर्क करणे बेंचमार्कमध्ये बरेच टक्केवारी गुण जोडते.

GPT‑5 चा तर्क इफर्ट विविध कामांसाठी वेगवेगळे फायदे देतो. CharXiv Reasoning साठी, GPT‑5 ला पायथन टूलचा प्रवेश दिला गेला.

वर्बोसिटी

GPT‑5 च्या उत्तरांची डीफॉल्ट लांबी नियंत्रित करण्यासाठी, आम्ही एक नवीन API पॅरामीटर verbosity सादर केला आहे, जो low, medium (डीफॉल्ट) आणि high मूल्ये घेतो. जर स्पष्ट सूचनांमध्ये वर्बोसिटी पॅरामीटरशी विरोध असेल, तर स्पष्ट सूचनांना प्राधान्य दिले जाते. उदाहरणार्थ, जर तुम्ही GPT‑5 ला "5 परिच्छेदांचा निबंध लिहिण्यास" सांगितले, तर मॉडेलचा प्रतिसाद नेहमीच 5 परिच्छेदांचा असावा, शब्दसंग्रहाची पातळी काहीही असो (तथापि, परिच्छेद स्वतः मोठे किंवा लहान असू शकतात).

वर्बोसिटी=लो

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

वर्बोसिटी=मीडियम

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

वर्बोसिटी=हाय

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

टूल कॉल्सपूर्वी प्रॅम्बल मेसेजेस

सूचित केल्यास, GPT‑5 टूल कॉल्सपूर्वी आणि दरम्यान वापरकर्त्यांना दिसणारी प्रॅम्बल मेसेजेस आउटपुट करेल. लपलेले तर्क मेसेजेसपेक्षा वेगळे, ही दिसणारी मेसेजेस GPT‑5 ला वापरकर्त्यांशी योजना आणि प्रगती याबाबत संवाद साधण्याची परवानगी देतात, ज्यामुळे एंड वापरकर्त्यांना टूल कॉलच्या मागील दृष्टिकोन आणि हेतू समजण्यास मदत होते.

कस्टम टूल्स

आम्ही नवीन टूल प्रकार सादर करत आहोत—कस्टम टूल्स—जे GPT‑5 ला JSON ऐवजी प्लेनटेक्स्टसह टूल कॉल करण्याची परवानगी देते. GPT‑5 ला कस्टम टूल फॉरमॅटचे पालन करण्यास मर्यादित करण्यासाठी, विकसक रेजेक्स किंवा अगदी अधिक पूर्णपणे निर्दिष्ट संदर्भ-मुक्त व्याकरण(नवीन विंडोमध्ये उघडेल) पुरवू शकतात.

पूर्वी, विकसक-निर्धारित टूल्ससाठी आमच्या इंटरफेसने JSON वापरून कॉल करणे आवश्यक होते, जे वेब API आणि विकसकांमध्ये सामान्य फॉरमॅट आहे. तथापि, वैध JSON आउटपुट करण्यासाठी मॉडेलने सर्व कोटेशन मार्क्स, बॅकस्लॅशेस, न्यूलाइन आणि इतर कंट्रोल वर्ण परिपूर्णपणे एस्केप करणे आवश्यक आहे. जरी आमची मॉडेल्स JSON आउटपुटसाठी चांगली प्रशिक्षित आहेत, तरीही शेकडो कोड लाइन किंवा 5-पेज अहवालासारख्या लांब इनपुटवर, त्रुटीची शक्यता वाढते. कस्टम टूल्ससह, GPT‑5 सर्व एस्केप करण्याच्या आवश्यकता असलेल्या वर्णशिवाय प्लेनटेक्स्टमध्ये टूल इनपुट लिहू शकतो.

JSON टूल्सऐवजी कस्टम टूल्स वापरून SWE-बेंच सत्यापित वर, GPT‑5 चे स्कोअर सुमारे तेच आहे.

सुरक्षितता

GPT‑5 सुरक्षा क्षेत्रात पुढाकार घेते आणि अधिक मजबूत, विश्वासार्ह आणि उपयुक्त मॉडेल आहे. GPT‑5 पूर्वीच्या मॉडेल्सच्या तुलनेत खूपच कमी हॅलुसिनेट करते, वापरकर्त्याशी त्याच्या क्रिया आणि क्षमता प्रामाणिकपणे सांगते आणि शक्य असल्यास सर्वात उपयुक्त उत्तर देते, तरीही सुरक्षा मर्यादांमध्ये राहते. आपण आमच्या रिशोध ब्लॉग मध्ये अधिक वाचू शकता.

उपलब्धता व किंमत

GPT‑5 आता API प्लॅटफॉर्ममध्ये तीन आकारांमध्ये उपलब्ध आहे: gpt-5, gpt-5-mini, आणि gpt-5-nano. हे प्रतिसाद API, Chat Completions API वर उपलब्ध आहे आणि कोडेक्स CLI मध्ये डीफॉल्ट आहे. GPT‑5 ची किंमत $1.25/1M इनपुट टोकन आणि $10/1M आउटपुट टोकन आहे, GPT‑5 mini ची किंमत $0.25/1M इनपुट टोकन आणि $2/1M आउटपुट टोकन आहे, आणि GPT‑5 nano ची किंमत $0.05/1M इनपुट टोकन आणि $0.40/1M आउटपुट टोकन आहे.

हे मॉडेल reasoning_effort आणि verbosity API पॅरामीटर्स तसेच कस्टम टूल्सना सपोर्ट करतात. तसेच, हे पॅरलेल टूल कॉलिंग, इन-बिल्ट टूल्स (वेब शोध, फाइल शोध, इमेज जनरेशन, इत्यादी), कोअर API फीचर्स (स्ट्रीमिंग, स्ट्रक्चर्ड आउटपुट्स, इत्यादी), आणि खर्च वाचवणाऱ्या फीचर्स जसे की प्रॉम्प्ट कॅशिंग आणि बॅच API यांना देखील सपोर्ट करतात.

ChatGPT मध्ये वापरलेली GPT‑5 ची नॉन-तर्क आवृत्ती API मध्ये gpt-5-chat-latest म्हणून उपलब्ध आहे, ज्याची किंमत $1.25/1M इनपुट टोकन आणि $10/1M आउटपुट टोकन आहे.

GPT‑5 मायक्रोसॉफ्ट प्लॅटफॉर्म्सवर देखील लॉन्च होत आहे, ज्यात Microsoft 365 Copilot, Copilot, GitHub Copilot, आणि Azure AI Foundry यांचा समावेश आहे.

सविस्तर बेंचमार्क्स

इंटेलिजन्स
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)९४.६%९१.१%८५.२%८८.९%९२.७%४६.४%४०.२%-
FrontierMath(with python tool only)२६.३%२२.१%९.६%१५.८%१५.४%---
GPQA diamond(no tools)८५.७%८२.३%७१.२%८३.३%८१.४%६६.३%६५.०%५०.३%
HLE[1](no tools)२४.८%१६.७%८.७%२०.२%१४.७%५.४%३.७%-
HMMT 2025(no tools)९३.३%८७.८%७५.६%८१.७%८५.०%२८.९%३५.०%-

[1] आमच्या मागील ब्लॉग पोस्टमध्ये नोंदवलेल्या संख्येत थोडीशी तफावत आहे, कारण ती संख्या HLE च्या मागील आवृत्तीवर चालवली जात होती.

मल्टिमोडल
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU८४.२%८१.६%७५.६%८२.९%८१.६%७४.८%७२.७%५५.४%
MMMU-Pro(avg across standard and vision sets)७८.४%७४.१%६२.६%७६.४%७३.४%६०.३%५८.९%३३.०%
CharXiv reasoning(python enabled)८१.१%७५.५%६२.७%७८.६%७२.०%५६.७%५६.८%४०.५%
VideoMMMU, max frame 256८४.६%८२.५%६६.८%८३.३%७९.४%६०.९%५५.१%३०.२%
ERQA६५.७%६२.९%५०.१%६४.०%५६.५%४४.३%४२.३%२६.५%
कोडिंग
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks$१.१ लाख$७५ ह$४९ ह$८६ ह$६६ ह$३४ ह$३१ ह$९ ह
SWE-bench Verified[2]७४.९%७१.०%५४.७%६९.१%६८.१%५४.६%२३.६%-
Aider polyglot(diff)८८.०%७१.६%४८.४%७९.६%५८.२%५२.९%३१.६%६.२%

[2] आम्ही 500 पैकी 23 समस्या वगळतो ज्या आमच्या इन्फ्रास्ट्रक्चरवर चालू शकल्या नाहीत. वगळलेल्या 23 कामांची संपूर्ण यादी: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', आणि 'sphinx-doc__sphinx-9367'.

निर्देशांचे पालन
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)६९.६%६२.३%५४.९%६०.४%५७.५%४६.२%४२.२%३१.१%
Internal API instruction following eval(hard)६४.०%६५.८%५६.१%४७.४%४४.७%४९.१%४५.१%३१.६%
COLLIE९९.०%९८.५%९६.९%९८.४%९६.१%६५.८%५४.६%४२.५%

[3] टीप: आम्हाला आढळले की MultiChallenge (GPT-4o) मधील डीफॉल्ट ग्रेडर अनेकदा मॉडेल प्रतिसाद चुकीचे स्कोअर करतो. आम्हाला आढळले की ग्रेडरला o3-mini सारख्या रिझनिंग मॉडेलमध्ये बदलल्यास आम्ही तपासलेल्या नमुन्यांवर ग्रेडिंगची अचूकता लक्षणीयरीत्या सुधारते.

फंक्शन कॉलिंग
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline६२.६%६०.०%४१.०%६४.८%६०.२%५६.०%५१.०%१४.०%
Tau2-bench retail८१.१%७८.३%६२.३%८०.२%७०.५%७४.०%६६.०%२१.५%
Tau2-bench telecom९६.७%७४.१%३५.५%५८.२%४०.५%३४.०%४४.०%१२.१%
लाँग संदर्भ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k९५.२%८४.३%४३.२%५५.०%५६.४%५७.२%४७.२%३६.६%
OpenAI-MRCR: 2 needle 256k८६.८%५८.८%३४.९%--५६.२%४५.५%२२.६%
Graphwalks bfs <128k७८.३%७३.४%६४.०%७७.३%६२.३%६१.७%६१.७%२५.०%
Graphwalks parents <128k७३.३%६४.३%४३.८%७२.९%५१.१%५८.०%६०.५%९.४%
BrowseComp Long Context 128k९०.०%८९.४%८०.४%८८.३%८०.०%८५.९%८९.०%८९.४%
BrowseComp Long Context 256k८८.८%८६.०%६८.४%--७५.५%८१.६%१९.१%
VideoMME(long, with subtitle category)८६.७%७८.५%६५.७%८४.९%७९.५%७८.७%६८.४%५५.२%
हॅल्युसिनेशन्स
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]१.०%०.७%१.०%५.२%३.०%०.७%१.१%-
LongFact-Objects hallucination rate(no tools)[lower is better]१.२%१.३%२.८%६.८%८.९%१.१%१.८%-
FActScore hallucination rate(no tools)[lower is better]२.८%३.५%७.३%२३.५%३८.७%६.७%१०.९%-

लेखक

OpenAI