આજે, અમે અમારા API પ્લેટફોર્મમાં GPT‑5 રિલીઝ કરી રહ્યા છીએ—કોડિંગ અને એજન્ટિક કાર્યો માટે આજ સુધીનું અમારું શ્રેષ્ઠ મોડલ.
GPT‑5 મુખ્ય coding benchmarks પર state-of-the-art (SOTA) છે, SWE-bench Verified પર 74.9% અને Aider polyglot પર 88% સ્કોર કરે છે. અમે GPT‑5 ને સાચા coding collaborator તરીકે તાલીમ આપી છે. તે ઉચ્ચ ગુણવત્તાનો code બનાવવા અને bugs સુધારવા, code સંપાદિત કરવા અને જટિલ codebases વિશે પ્રશ્નોના જવાબ આપવા જેવા કાર્યોમાં ઉત્તમ છે. મોડલ steerable અને collaborative છે—તે ખૂબ જ વિગતવાર સૂચનાઓનું ઊંચી ચોકસાઈથી પાલન કરી શકે છે અને tool calls પહેલાં અને વચ્ચે પોતાની ક્રિયાઓનું પૂર્વસ્પષ્ટીકરણ આપી શકે છે. મોડલ front-end coding માં પણ ઉત્તમ છે, અને આંતરિક પરીક્ષણોમાં frontend web development માં OpenAI o3 ને 70% વખત પાછળ મૂકે છે.
અમે GPT‑5 ને વાસ્તવિક coding કાર્યો પર તાલીમ આપી છે, startups અને enterprises ના early testers સાથેના સહકારમાં. Cursor કહે છે GPT‑5 “તેમણે ઉપયોગ કરેલું સૌથી સ્માર્ટ મોડલ” છે અને “અતિ બુદ્ધિશાળી, સરળતાથી steer કરી શકાય એવું, અને અન્ય મોડલ્સમાં ન જોઈ હોય તેવી personality ધરાવે છે.” Windsurf એ શેર કર્યું કે GPT‑5 તેમના evals પર SOTA છે અને “અન્ય અત્યાધુનિક મોડલ્સ કરતાં tool calling error rate અડધી છે.” Vercel કહે છે “આ શ્રેષ્ઠ frontend AI model છે, જે સૌંદર્યબોધ અને code quality બંનેમાં ટોચનું performance આપે છે અને તેને પોતાની અનોખી શ્રેણીમાં મૂકે છે.”
GPT‑5 લાંબા સમય સુધી ચાલતા એજન્ટિક કાર્યોમાં પણ ઉત્તમ છે—માત્ર 2 મહિના પહેલા બહાર પાડવામાં આવેલા tool-calling benchmark τ2-bench telecom પર 96.7% સાથે SOTA પરિણામો હાંસલ કરે છે. GPT‑5 ની સુધારેલી tool intelligence તેને દઝનો tool calls ને—ક્રમવાર અને સમકક્ષ બન્ને રીતે—વિશ્વસનીય રીતે જોડવાની મંજૂરી આપે છે, માર્ગ ગુમાવ્યા વગર, જેના કારણે તે જટિલ, વાસ્તવિક કાર્યોને end to end ઘણું સારું અમલમાં મૂકે છે. તે tool instructions ને વધુ ચોક્કસપણે અનુસરે છે, tool errors હેન્ડલ કરવામાં વધુ સક્ષમ છે, અને long-context content retrieval માં ઉત્તમ છે. Manus કહે છે GPT‑5 એ “તેમના આંતરિક benchmarks પર એક જ મોડલમાંથી અત્યાર સુધીનું શ્રેષ્ઠ performance” આપ્યું. Notion કહે છે “મોડલના ઝડપી પ્રતિસાદ, ખાસ કરીને low reasoning mode માં, GPT‑5 ને એક આદર્શ મોડલ બનાવે છે જ્યારે તમને જટિલ કાર્યો એક જ વન-શોટમાં ઉકેલવા હોય.” Inditex એ શેર કર્યું કે “જે વસ્તુ ખરેખર [GPT‑5] ને અલગ બનાવે છે તે તેનું reasoning નું ઊંડાણ છે: સૂક્ષ્મ, બહુસ્તરીય જવાબો જે વિષયની સાચી સમજ દર્શાવે છે.”
અમે developers ને model responses પર વધુ નિયંત્રણ આપવા માટે અમારી API માં નવી સુવિધાઓ રજૂ કરી રહ્યા છીએ. GPT‑5 નવા verbosity parameter ને સપોર્ટ કરે છે (values: low, medium, high) જેથી જવાબો ટૂંકા અને સીધા રહે કે લાંબા અને વ્યાપક રહે તે નિયંત્રિત કરી શકાય. GPT‑5 નો reasoning_effort parameter હવે minimal value પણ લઈ શકે છે જેથી વ્યાપક reasoning પહેલાં જ ઝડપથી જવાબ મળી શકે. અમે એક નવો tool type—custom tools—પણ ઉમેર્યો છે, જેથી GPT‑5 JSON ના બદલે plaintext સાથે tools call કરી શકે. Custom tools developer-supplied context-free grammars દ્વારા મર્યાદા નક્કી કરવાની સુવિધા આપે છે.
અમે API માં GPT‑5 ને ત્રણ કદમાં રિલીઝ કરી રહ્યા છીએ—gpt-5, gpt-5-mini, અને gpt-5-nano—તેથી developers ને performance, cost અને latency વચ્ચે સંતુલન માટે વધુ લવચીકતા મળે. જ્યારે ChatGPT માં GPT‑5 reasoning, non-reasoning અને router મોડલ્સની system છે, API platform માં GPT‑5 તે reasoning model છે જે ChatGPT માં મહત્તમ performance ચલાવે છે. નોંધનીય રીતે, minimal reasoning સાથે GPT‑5 ChatGPT ના non-reasoning model થી જુદું મોડલ છે, અને developers માટે વધુ સારી રીતે tuned છે. ChatGPT માં ઉપયોગમાં લેવાતું non-reasoning model gpt-5-chat-latest તરીકે ઉપલબ્ધ છે.
ChatGPT માં GPT‑5 વિશે વાંચવા અને ChatGPT ના અન્ય સુધારાઓ વિશે વધુ જાણવા, અમારો research blog જુઓ. Enterprises GPT‑5 નો ઉપયોગ કરવા માટે કેમ ઉત્સાહિત છે તેના વિશે વધુ માટે, અમારો enterprise blog જુઓ.
GPT‑5 અમે અત્યાર સુધી રિલીઝ કરેલું સૌથી મજબૂત coding model છે. તે coding benchmarks અને વાસ્તવિક use cases માં o3 ને પાછળ મૂકે છે, અને Cursor, Windsurf, GitHub Copilot અને Codex CLI જેવા એજન્ટિક coding products માં ચમકે તે માટે fine-tune કરવામાં આવ્યું છે. GPT‑5 એ અમારા alpha testers ને પ્રભાવિત કર્યા, તેમના ઘણા ખાનગી આંતરિક evals પર records સ્થાપ્યાં.
વાસ્તવિક coding tasks માટે GPT‑5 પર પ્રારંભિક પ્રતિસાદ
“GPT-5 અમે ઉપયોગ કરેલો સૌથી સ્માર્ટ coding model છે. અમારી ટીમે GPT-5 ને અતિ બુદ્ધિશાળી, સરળતાથી દિશા આપી શકાય એવું અને અન્ય કોઈ મોડલમાં ન જોઈ હોય એવી વ્યક્તિગતતા ધરાવતું ગણ્યું છે. તે માત્ર કઠિન, ઊંડે છુપાયેલા bugs પકડતું નથી, પણ લાંબા, multi-turn background agents ચલાવી જટિલ કાર્યોને અંત સુધી પહોંચી વળે છે—એવા પ્રશ્નો, જ્યાં બીજા મોડલ્સ અટવાઈ જતા. PRs ની scoping અને planning થી લઈને end-to-end builds પૂર્ણ કરવા સુધી, હવે તે અમારો દૈનિક મુખ્ય આધાર બની ગયો છે.”
વાસ્તવિક software engineering કાર્યો પર આધારિત મૂલ્યાંકન SWE-bench Verified પર, GPT‑5 74.9% સ્કોર કરે છે, જે o3 ના 69.1% કરતાં વધારે છે. નોંધનીય રીતે, GPT‑5 આ ઊંચો સ્કોર વધુ કાર્યક્ષમતા અને ઝડપ સાથે મેળવે છે: high reasoning effort પર o3 ની સરખામણીએ, GPT‑5 22% ઓછા output tokens અને 45% ઓછા tool calls વાપરે છે.
SWE-bench Verified માં, મોડલને code repository અને issue description આપવામાં આવે છે, અને તેને issue ઉકેલવા patch જનરેટ કરવો પડે છે. લખાણ લેબલ્સ reasoning effort દર્શાવે છે. અમારા સ્કોર્સ 500 માંથી તે 23 સમસ્યાઓ છોડે છે જેમના solutions અમારી infrastructure પર વિશ્વસનીય રીતે પાસ થયા નહોતા. GPT‑5 ને ટૂંકો પ્રોમ્પ્ટ આપવામાં આવ્યો હતો જેમાં solutions ને સારી રીતે verify કરવાની વાત પર ભાર મૂકાયો હતો; એ જ પ્રોમ્પ્ટનો o3 ને લાભ થયો નહોતો.
code editing ના મૂલ્યાંકન Aider polyglot પર, GPT‑5 88% નો નવો રેકોર્ડ સ્થાપે છે, જે o3 ની સરખામણીએ error rate માં એક-તૃતીયાંશ ઘટાડો છે.
Aider polygot(નવી વિન્ડોમાં ખૂલે છે) (diff) માં, મોડલને Exercism તરફથી coding exercise આપવામાં આવે છે અને તેને તેનો ઉકેલ code diff તરીકે લખવો પડે છે. রিজનિંગ મોડલ્સને ઊંચા reasoning effort સાથે ચલાવવામાં આવ્યા હતા.
અમે એ પણ જોયું છે કે GPT‑5 codebases માં ઊંડે જઈ વિવિધ ઘટકો કેવી રીતે કામ કરે છે અથવા સાથે કામ કરે છે તે વિશેના પ્રશ્નોના જવાબ આપવા માટે ઉત્તમ છે. OpenAI ના reinforcement learning stack જેટલા જટિલ codebase માં, અમને જણાય છે કે GPT‑5 અમને અમારા code વિશે reasoning કરવા અને પ્રશ્નોના જવાબ આપવા મદદ કરી શકે છે, અને અમારા દૈનિક કામને ઝડપ આપે છે.
web apps માટે frontend code બનાવતી વખતે, GPT‑5 વધુ સૌંદર્યસજાગ, મહત્ત્વાકાંક્ષી અને સચોટ છે. o3 સાથેની side-by-side તુલનામાં, GPT‑5 ને અમારા testers એ 70% વખત પસંદ કર્યું.
એક જ prompt સાથે GPT‑5 શું કરી શકે તેના કેટલાક રસપ્રદ, પસંદ કરેલા ઉદાહરણો અહીં છે.
પ્રોમ્પ્ટ: કૃપા કરીને એવી સેવા માટે સુંદર અને વાસ્તવિક landing page બનાવો, જે શ્રેષ્ઠ coffee enthusiast ને $200/મહિનાનું subscription આપે છે, જેમાં coffee roasting અને શ્રેષ્ઠ espresso બનાવવા માટે equipment rental અને coaching મળે. લક્ષિત પ્રેક્ષકો bay area ના મધ્યવયીન લોકો છે, જે tech ક્ષેત્રમાં કામ કરતા હોઈ શકે, શિક્ષિત છે, ખર્ચ માટે પૂરતી આવક ધરાવે છે અને coffee ની કલા અને વિજ્ઞાન પ્રત્યે ઉત્સાહી છે. 6 મહિના signup માટે conversion optimize કરો.
અમારી gallery માં GPT‑5 ના વધુ ઉદાહરણો અહીં(નવી વિન્ડોમાં ખૂલે છે) જુઓ.
GPT‑5 વધુ સારું collaborator છે, ખાસ કરીને Cursor, Windsurf, GitHub Copilot અને Codex CLI જેવા એજન્ટિક coding products માં. કામ કરતી વખતે, GPT‑5 tool calls વચ્ચે plans, updates અને recaps આઉટપુટ કરી શકે છે. અમારા અગાઉના મોડલ્સની સરખામણીએ, GPT‑5 વધુ સક્રિય છે અને તમારી મંજૂરીની રાહ લીધા વગર અથવા ઊંચી જટિલતા સામે પાછું ન હટી, મહત્ત્વાકાંક્ષી કાર્યો પૂર્ણ કરે છે.
જટિલ કાર્ય હાથે લેતા GPT‑5 કેવું દેખાઈ શકે તેનું અહીં એક ઉદાહરણ છે (આ કેસમાં, રેસ્ટોરન્ટ માટે વેબસાઇટ બનાવવી).
વપરાશકર્તા તેમના રેસ્ટોરન્ટ માટે વેબસાઇટ માંગ્યા પછી, GPT‑5 ઝડપી યોજના શેર કરે છે, એપનું scaffold બનાવે છે, dependencies ઇન્સ્ટોલ કરે છે, સાઇટનું કન્ટેન્ટ બનાવે છે, compilation errors ચકાસવા build ચલાવે છે, પોતાનું કામ સંક્ષેપમાં સમજાવે છે અને સંભવિત આગળના પગલાં સૂચવે છે. તમારે રાહ ન જોવી પડે તે માટે આ વિડિયોને ~3x ઝડપે ચલાવવામાં આવ્યો છે; વેબસાઇટ બનાવવા માટેનો સંપૂર્ણ સમય લગભગ ત્રણ મિનિટ હતો.
એજન્ટિક coding થી આગળ, GPT‑5 સામાન્ય રીતે પણ એજન્ટિક કાર્યોમાં વધુ સારું છે. GPT‑5 instruction following benchmarks પર નવા records સ્થાપે છે (Scale MultiChallenge પર 69.6%, o3‑mini દ્વારા graded) અને tool calling (τ2-bench telecom પર 96.7%). સુધારેલી tool intelligence GPT‑5 ને વાસ્તવિક કાર્યો પૂર્ણ કરવા માટે actions વધુ વિશ્વસનીય રીતે એકસાથે ગોઠવવાની મંજૂરી આપે છે.
એજન્ટિક કાર્યો માટે GPT‑5 પર પ્રારંભિક પ્રતિસાદ
“GPT-5 એક મોટું આગળનું પગલું છે. તેણે અમારા આંતરિક benchmarks પર એક જ મોડલ તરફથી અત્યાર સુધીનો શ્રેષ્ઠ દેખાવ આપ્યો. GPT-5 વિવિધ એજન્ટિક કાર્યોમાં શ્રેષ્ઠ સાબિત થયું—અમે એક પણ કોડ લાઇન ફેરવીએ અથવા પ્રોમ્પ્ટ કસ્ટમાઇઝ કરીએ તે પહેલાં જ. નવા preambles અને tool use પર વધુ ચોક્કસ નિયંત્રણએ અમારા એજન્ટ્સની સ્થિરતા અને steerability માં નોંધપાત્ર કૂદકો સક્ષમ બનાવ્યો.”
GPT‑5 તેના પૂર્વગામીઓમાંના કોઈપણ કરતાં વધુ વિશ્વસનીય રીતે સૂચનાઓનું પાલન કરે છે, COLLIE, Scale MultiChallenge અને અમારા આંતરિક instruction following eval પર ઊંચો સ્કોર કરીને.
COLLIE(નવી વિન્ડોમાં ખૂલે છે) માં, મોડલ્સે વિવિધ બંધનો પૂરા કરતી લખાણરચના કરવી પડે છે. Scale MultiChallenge(નવી વિન્ડોમાં ખૂલે છે) માં, મોડલ્સને multi-turn conversations માં અગાઉના સંદેશાઓમાંથી ચાર પ્રકારની માહિતી યોગ્ય રીતે વાપરવાની પડકાર આપવામાં આવે છે. અમારા સ્કોર્સ o3‑mini ને grader તરીકે વાપરીને આવ્યા છે, જે GPT‑4o કરતાં વધુ સચોટ હતો. અમારી આંતરિક OpenAI API instruction following eval માં, મોડલ્સે વાસ્તવિક developer feedback પરથી લેવાયેલા મુશ્કેલ સૂચનોનું પાલન કરવું પડે છે. রિઝનિંગ મોડલ્સને ઊંચા reasoning effort સાથે ચલાવવામાં આવ્યા હતા.
ડેવલપર્સ માટે મહત્વ ધરાવતા રીતે tool calling સુધારવા અમે ભારે મહેનત કરી. GPT‑5 tool instructions અનુસરવામાં વધુ સારું છે, tool errors હેન્ડલ કરવામાં વધુ સારું છે, અને ક્રમવાર અથવા સમકક્ષ રીતે ઘણા tool calls સક્રિય રીતે કરવામાં વધુ સારું છે. સૂચના આપતાં, GPT‑5 લાંબા એજન્ટિક કાર્યો દરમિયાન પ્રગતિ વિશે વપરાશકર્તાઓને અપડેટ કરવા માટે tool calls પહેલાં અને વચ્ચે preamble messages પણ આઉટપુટ કરી શકે છે.
બે મહિના પહેલાં, Sierra.ai દ્વારા τ2-bench telecom એક પડકારજનક tool use benchmark તરીકે પ્રકાશિત થયું હતું, જેમાં દર્શાવાયું કે જ્યારે language model એવી environment state સાથે ઇન્ટરૅક્ટ કરે છે જે વપરાશકર્તાઓ દ્વારા બદલાઈ શકે, ત્યારે તેનું performance નોંધપાત્ર રીતે ઘટે છે. તેમની publication(નવી વિન્ડોમાં ખૂલે છે) માં, કોઈ મોડલ 49% થી ઉપર સ્કોર કરી શક્યું નહોતું. GPT‑5 97% સ્કોર કરે છે.
τ2-bench(નવી વિન્ડોમાં ખૂલે છે) માં, મોડલને customer service task પૂર્ણ કરવા tools વાપરવા પડે છે, જ્યાં એવો user હોઈ શકે છે જે સંચાર કરી શકે અને world state પર actions લઈ શકે. reasoning models ને high reasoning effort સાથે ચલાવવામાં આવ્યા હતા.
GPT‑5 long-context performance માં પણ મજબૂત સુધારા દર્શાવે છે. OpenAI-MRCR પર, જે long-context information retrieval નું માપ છે, GPT‑5 o3 અને GPT‑4.1 કરતાં આગળ છે, અને input lengths વધતા આ અંતર નોંધપાત્ર રીતે વધે છે.
OpenAI-MRCR(નવી વિન્ડોમાં ખૂલે છે) (multi-round co-reference resolution) માં, સમાન “needle” user requests ને સમાન requests અને responses ના લાંબા “haystacks” માં અનેક વાર દાખલ કરવામાં આવે છે, અને મોડલને i-th needle નો response ફરી રજૂ કરવા કહેવામાં આવે છે. Mean match ratio મોડલના response અને સાચા જવાબ વચ્ચેનો સરેરાશ string match ratio માપે છે. 256k max input tokens વાળા points 128k–256k input tokens ના averages દર્શાવે છે, અને આમ જ આગળ. અહીં, 256k નો અર્થ 256 * 1,024 = 262,114 tokens છે. রિઝનિંગ મોડલ્સને ઊંચા reasoning effort સાથે ચલાવવામાં આવ્યા હતા.
અમે BrowseComp Long Context(નવી વિન્ડોમાં ખૂલે છે) પણ open source કરી રહ્યા છીએ, જે long-context Q&A નું મૂલ્યાંકન કરવા માટેનો નવો benchmark છે. આ benchmark માં, મોડલને user query, સંબંધિત search results ની લાંબી યાદી આપવામાં આવે છે, અને તેને search results ના આધારે પ્રશ્નનો જવાબ આપવો પડે છે. અમે BrowseComp Long Context ને વાસ્તવિક, મુશ્કેલ અને વિશ્વસનીય રીતે સાચા ground truth answers ધરાવતું બનાવ્યું છે. 128K–256K tokens ના inputs પર, GPT‑5 89% વખત સાચો જવાબ આપે છે.
API માં, બધા GPT‑5 મોડલ્સ વધુમાં વધુ 272,000 input tokens સ્વીકારી શકે છે અને વધુમાં વધુ 128,000 reasoning & output tokens આપી શકે છે, એટલે કુલ context length 400,000 tokens થાય છે.
GPT‑5 અમારા અગાઉના મોડલ્સ કરતાં વધુ વિશ્વસનીય છે. LongFact અને FactScore benchmarks ના prompts પર, GPT‑5 o3 કરતાં ~80% ઓછા તથ્યાત્મક errors કરે છે. તેથી, ખાસ કરીને code, data અને decision-making માં, જ્યાં સચોટતા મહત્વની હોય તેવા એજન્ટિક use cases માટે તે વધુ યોગ્ય બને છે.
ઉચ્ચ સ્કોર્સ ખરાબ છે. LongFact(નવી વિન્ડોમાં ખૂલે છે) અને FActScore(નવી વિન્ડોમાં ખૂલે છે) માં ખુલ્લા અંતવાળા fact-seeking પ્રશ્નો સામેલ છે. અમે આ benchmarks ના prompts પર responses નું fact-checking કરવા browsing સાથે LLM-based grader વાપરીએ છીએ અને factually incorrect claims નો અંશ માપીએ છીએ. અમલ અને grading ની વિગતો system card માં મળી શકે છે. reasoning models એ high reasoning effort વાપર્યો હતો. Search સક્ષમ નહોતું.
સામાન્ય રીતે, GPT‑5 ને પોતાની મર્યાદાઓ અંગે વધુ self-aware અને અણધારી પરિસ્થિતિઓ સંભાળવામાં વધુ સક્ષમ બનવા માટે તાલીમ આપવામાં આવી છે. અમે GPT‑5 ને health questions પર પણ વધુ સચોટ બનવા માટે તાલીમ આપી છે (અમારા research blog) માં વધુ વાંચો. તમામ language models ની જેમ, stakes ઊંચા હોય ત્યારે GPT‑5 ના કામને ચકાસવાનું અમે ભલામણ કરીએ છીએ.
Developers API માં reasoning_effort parameter દ્વારા GPT‑5 ના thinking time ને નિયંત્રિત કરી શકે છે. અગાઉના values—low, medium (default), અને high—સાથે, GPT‑5 minimal ને પણ સપોર્ટ કરે છે, જે GPT‑5 નું reasoning ઓછું કરીને ઝડપથી જવાબ આપે છે.
ઉચ્ચ reasoning_effort values ગુણવત્તા વધારે છે અને નીચા values ઝડપ વધારે છે. બધા કાર્યોને વધારાના reasoning થી સમાન લાભ મળતો નથી, તેથી તમારી જરૂરિયાતોના use cases માટે કયું સારું છે તે જોવા પરીક્ષણ કરવાની ભલામણ કરીએ છીએ.
ઉદાહરણ તરીકે, low કરતાં ઉપરનું reasoning પ્રમાણમાં સરળ long-context retrieval માટે બહુ ઓછો લાભ આપે છે, પરંતુ visual reasoning benchmark CharXiv Reasoning(નવી વિન્ડોમાં ખૂલે છે) પર ઘણા percentage points ઉમેરે છે.
GPT‑5 નો reasoning effort અલગ-अलग કાર્યોમાં અલગ લાભ આપે છે. CharXiv Reasoning માટે, GPT‑5 ને python tool ની ઍક્સેસ આપવામાં આવી હતી.
GPT‑5 ના જવાબોની default length ને steer કરવામાં મદદ કરવા માટે, અમે નવી API parameter verbosity રજૂ કરી છે, જે low, medium (default), અને high values લે છે. જો સ્પષ્ટ સૂચનાઓ verbosity parameters સાથે ટકરાય, તો સ્પષ્ટ સૂચનાઓને પ્રાધાન્ય મળે છે. ઉદાહરણ તરીકે, જો તમે GPT‑5 ને “5 paragraph નો essay લખો” કહો, તો verbosity level ગમે તે હોય, મોડલનો જવાબ હંમેશા 5 paragraphs નો જ હોવો જોઈએ (હાલાં કે paragraphs પોતે લાંબા કે ટૂંકા હોઈ શકે).
Verbosity=ઓછું
Verbosity=મધ્યમ
Verbosity=ઉચ્ચ
સૂચના આપવામાં આવે તો, GPT‑5 tool calls પહેલાં અને વચ્ચે user-visible preamble messages આઉટપુટ કરશે. hidden reasoning messages થી ભિન્ન, આ visible messages GPT‑5 ને પોતાની યોજનાઓ અને પ્રગતિ વપરાશકર્તાને જણાવવાની મંજૂરી આપે છે, જેથી end users તેની પદ્ધતિ અને tool calls પાછળના હેતુને સારી રીતે સમજી શકે.
અમે એક નવો tool type—custom tools—રજુ કરી રહ્યા છીએ, જે GPT‑5 ને JSON ના બદલે plaintext સાથે tool call કરવાની મંજૂરી આપે છે. GPT‑5 ને custom tool formats અનુસરવા મર્યાદિત કરવા માટે, developers regex અથવા વધુ સંપૂર્ણ રીતે નિર્ધારિત context-free grammar(નવી વિન્ડોમાં ખૂલે છે) આપી શકે છે.
અગાઉ, developer-defined tools માટેનું અમારું interface એ જરૂરી બનાવતું હતું કે તેઓ JSON સાથે call થાય, જે web APIs અને developers સામાન્ય રીતે વાપરતા સામાન્ય format છે. પરંતુ માન્ય JSON આઉટપુટ કરવા માટે મોડલને બધા quotation marks, backslashes, newlines અને અન્ય control characters સંપૂર્ણ રીતે escape કરવા પડે છે. અમારા મોડલ્સ JSON આઉટપુટ કરવા માટે સારી રીતે train થયેલા હોવા છતાં, code ની સૈંકડો લાઇન્સ અથવા 5-page report જેવા લાંબા inputs પર error ની શક્યતા વધી જાય છે. Custom tools સાથે, GPT‑5 escape કરવાની જરૂરિયાત ધરાવતા બધા characters escape કર્યા વગર tool inputs plaintext તરીકે લખી શકે છે.
JSON tools ના બદલે custom tools વાપરીને SWE-bench Verified પર, GPT‑5 લગભગ સમાન સ્કોર કરે છે.
GPT‑5 સુરક્ષામાં અત્યાધુનિક સ્તરને આગળ વધારે છે અને વધુ મજબૂત, વિશ્વસનીય અને મદદરૂપ મોડલ છે. GPT‑5 અમારા અગાઉના મોડલ્સ કરતાં નોંધપાત્ર રીતે ઓછું hallucinate કરે છે, વપરાશકર્તાને પોતાની ક્રિયાઓ અને ક્ષમતાઓ વિશે વધુ પ્રામાણિક રીતે માહિતી આપે છે અને શક્ય હોય ત્યાં સુધી સુરક્ષા સીમાઓમાં રહી સૌથી મદદરૂપ જવાબ આપે છે. વધુ માટે અમારો research blog વાંચો.
GPT‑5 હવે API platform માં ત્રણ કદમાં ઉપલબ્ધ છે: gpt-5, gpt-5-mini, અને gpt-5-nano. તે Responses API, ચેટ કમ્પ્લીશન્સ API પર ઉપલબ્ધ છે, અને Codex CLI માં default છે. GPT‑5 ની કિંમત $1.25/1M input tokens અને $10/1M output tokens છે, GPT‑5 mini ની કિંમત $0.25/1M input tokens અને $2/1M output tokens છે, અને GPT‑5 nano ની કિંમત $0.05/1M input tokens અને $0.40/1M output tokens છે.
આ મોડલ્સ reasoning_effort અને verbosity API parameters તેમજ custom tools ને સપોર્ટ કરે છે. તેઓ parallel tool calling, built-in tools (web search, file search, ઇમેજ જનરેશન, અને વધુ), core API features (streaming, સ્ટ્રક્ચર્ડ આઉટપુટ્સ, અને વધુ), તેમજ prompt caching અને Batch API જેવી cost-saving સુવિધાઓને પણ સપોર્ટ કરે છે.
ChatGPT માં ઉપયોગમાં લેવાતી GPT‑5 ની non-reasoning version API માં gpt-5-chat-latest તરીકે ઉપલબ્ધ છે, તેની કિંમત પણ $1.25/1M input tokens અને $10/1M output tokens છે.
GPT‑5 Microsoft platforms પર પણ લોન્ચ થઈ રહ્યું છે, જેમાં Microsoft 365 Copilot, Copilot, GitHub Copilot, અને Azure AI Foundry નો સમાવેશ થાય છે.
શરૂઆત કરવા માટે GPT‑5 ના documentation(નવી વિન્ડોમાં ખૂલે છે), pricing details(નવી વિન્ડોમાં ખૂલે છે), અને prompting guide(નવી વિન્ડોમાં ખૂલે છે) જુઓ.
બુદ્ધિમત્તા
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94.6% | 91.1% | 85.2% | 88.9% | 92.7% | 46.4% | 40.2% | - |
| FrontierMath(with python tool only) | 26.3% | 22.1% | 9.6% | 15.8% | 15.4% | - | - | - |
| GPQA diamond(no tools) | 85.7% | 82.3% | 71.2% | 83.3% | 81.4% | 66.3% | 65.0% | 50.3% |
| HLE[1](no tools) | 24.8% | 16.7% | 8.7% | 20.2% | 14.7% | 5.4% | 3.7% | - |
| HMMT 2025(no tools) | 93.3% | 87.8% | 75.6% | 81.7% | 85.0% | 28.9% | 35.0% | - |
[1] અમારા અગાઉના blog post માં જણાવાયેલા આંકડા સાથે નાનો ફરક છે, કારણ કે તે HLE ના જૂના version પર ચલાવવામાં આવ્યા હતા.
મલ્ટીમોડલ
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84.2% | 81.6% | 75.6% | 82.9% | 81.6% | 74.8% | 72.7% | 55.4% |
| MMMU-Pro(avg across standard and vision sets) | 78.4% | 74.1% | 62.6% | 76.4% | 73.4% | 60.3% | 58.9% | 33.0% |
| CharXiv reasoning(python enabled) | 81.1% | 75.5% | 62.7% | 78.6% | 72.0% | 56.7% | 56.8% | 40.5% |
| VideoMMMU, max frame 256 | 84.6% | 82.5% | 66.8% | 83.3% | 79.4% | 60.9% | 55.1% | 30.2% |
| ERQA | 65.7% | 62.9% | 50.1% | 64.0% | 56.5% | 44.3% | 42.3% | 26.5% |
કોડિંગ
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | US$1.1 લાખ | US$75 હજાર | US$49 હજાર | US$86 હજાર | US$66 હજાર | US$34 હજાર | US$31 હજાર | US$9 હજાર |
| SWE-bench Verified[2] | 74.9% | 71.0% | 54.7% | 69.1% | 68.1% | 54.6% | 23.6% | - |
| Aider polyglot(diff) | 88.0% | 71.6% | 48.4% | 79.6% | 58.2% | 52.9% | 31.6% | 6.2% |
[2] અમે 500 માંથી 23 સમસ્યાઓને છોડીએ છીએ, કારણ કે તે અમારી ઇન્ફ્રાસ્ટ્રક્ચર પર ચાલી શકી નહોતી. છોડવામાં આવેલા 23 કાર્યોની સંપૂર્ણ યાદી છે: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', અને 'sphinx-doc__sphinx-9367'.
સૂચનાઓનું પાલન
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69.6% | 62.3% | 54.9% | 60.4% | 57.5% | 46.2% | 42.2% | 31.1% |
| Internal API instruction following eval(hard) | 64.0% | 65.8% | 56.1% | 47.4% | 44.7% | 49.1% | 45.1% | 31.6% |
| COLLIE | 99.0% | 98.5% | 96.9% | 98.4% | 96.1% | 65.8% | 54.6% | 42.5% |
[3] નોંધ: અમે જોયું છે કે MultiChallenge માં default grader (GPT-4o) મોડલ responses ને વારંવાર ખોટો સ્કોર આપે છે. અમે જોયું છે કે grader ને o3-mini જેવા reasoning model સાથે બદલી દેવાથી અમે તપાસેલા samples પર grading accuracy નોંધપાત્ર રીતે સુધરે છે.
ફંક્શન કોલિંગ
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62.6% | 60.0% | 41.0% | 64.8% | 60.2% | 56.0% | 51.0% | 14.0% |
| Tau2-bench retail | 81.1% | 78.3% | 62.3% | 80.2% | 70.5% | 74.0% | 66.0% | 21.5% |
| Tau2-bench telecom | 96.7% | 74.1% | 35.5% | 58.2% | 40.5% | 34.0% | 44.0% | 12.1% |
લાંબો કોન્ટેક્સ્ટ
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95.2% | 84.3% | 43.2% | 55.0% | 56.4% | 57.2% | 47.2% | 36.6% |
| OpenAI-MRCR: 2 needle 256k | 86.8% | 58.8% | 34.9% | - | - | 56.2% | 45.5% | 22.6% |
| Graphwalks bfs <128k | 78.3% | 73.4% | 64.0% | 77.3% | 62.3% | 61.7% | 61.7% | 25.0% |
| Graphwalks parents <128k | 73.3% | 64.3% | 43.8% | 72.9% | 51.1% | 58.0% | 60.5% | 9.4% |
| BrowseComp Long Context 128k | 90.0% | 89.4% | 80.4% | 88.3% | 80.0% | 85.9% | 89.0% | 89.4% |
| BrowseComp Long Context 256k | 88.8% | 86.0% | 68.4% | - | - | 75.5% | 81.6% | 19.1% |
| VideoMME(long, with subtitle category) | 86.7% | 78.5% | 65.7% | 84.9% | 79.5% | 78.7% | 68.4% | 55.2% |
ભ્રમિત જવાબો
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1.0% | 0.7% | 1.0% | 5.2% | 3.0% | 0.7% | 1.1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1.2% | 1.3% | 2.8% | 6.8% | 8.9% | 1.1% | 1.8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2.8% | 3.5% | 7.3% | 23.5% | 38.7% | 6.7% | 10.9% | - |


