મુખ્ય વિષય-સામગ્રી પર જાવો
OpenAI

7 ઑગસ્ટ, 2025

પ્રોડક્ટ

ડેવલપર્સ માટે GPT‑5 રજૂ કરીએ છીએ

કોડિંગ અને એજન્ટિક કાર્યો માટે શ્રેષ્ઠ મોડલ.

લોડિંગ…

પરિચય

આજે, અમે અમારા API પ્લેટફોર્મમાં GPT‑5 રિલીઝ કરી રહ્યા છીએ—કોડિંગ અને એજન્ટિક કાર્યો માટે આજ સુધીનું અમારું શ્રેષ્ઠ મોડલ.

GPT‑5 મુખ્ય coding benchmarks પર state-of-the-art (SOTA) છે, SWE-bench Verified પર 74.9% અને Aider polyglot પર 88% સ્કોર કરે છે. અમે GPT‑5 ને સાચા coding collaborator તરીકે તાલીમ આપી છે. તે ઉચ્ચ ગુણવત્તાનો code બનાવવા અને bugs સુધારવા, code સંપાદિત કરવા અને જટિલ codebases વિશે પ્રશ્નોના જવાબ આપવા જેવા કાર્યોમાં ઉત્તમ છે. મોડલ steerable અને collaborative છે—તે ખૂબ જ વિગતવાર સૂચનાઓનું ઊંચી ચોકસાઈથી પાલન કરી શકે છે અને tool calls પહેલાં અને વચ્ચે પોતાની ક્રિયાઓનું પૂર્વસ્પષ્ટીકરણ આપી શકે છે. મોડલ front-end coding માં પણ ઉત્તમ છે, અને આંતરિક પરીક્ષણોમાં frontend web development માં OpenAI o3 ને 70% વખત પાછળ મૂકે છે.

અમે GPT‑5 ને વાસ્તવિક coding કાર્યો પર તાલીમ આપી છે, startups અને enterprises ના early testers સાથેના સહકારમાં. Cursor કહે છે GPT‑5 “તેમણે ઉપયોગ કરેલું સૌથી સ્માર્ટ મોડલ” છે અને “અતિ બુદ્ધિશાળી, સરળતાથી steer કરી શકાય એવું, અને અન્ય મોડલ્સમાં ન જોઈ હોય તેવી personality ધરાવે છે.” Windsurf એ શેર કર્યું કે GPT‑5 તેમના evals પર SOTA છે અને “અન્ય અત્યાધુનિક મોડલ્સ કરતાં tool calling error rate અડધી છે.” Vercel કહે છે “આ શ્રેષ્ઠ frontend AI model છે, જે સૌંદર્યબોધ અને code quality બંનેમાં ટોચનું performance આપે છે અને તેને પોતાની અનોખી શ્રેણીમાં મૂકે છે.”

GPT‑5 લાંબા સમય સુધી ચાલતા એજન્ટિક કાર્યોમાં પણ ઉત્તમ છે—માત્ર 2 મહિના પહેલા બહાર પાડવામાં આવેલા tool-calling benchmark τ2-bench telecom પર 96.7% સાથે SOTA પરિણામો હાંસલ કરે છે. GPT‑5 ની સુધારેલી tool intelligence તેને દઝનો tool calls ને—ક્રમવાર અને સમકક્ષ બન્ને રીતે—વિશ્વસનીય રીતે જોડવાની મંજૂરી આપે છે, માર્ગ ગુમાવ્યા વગર, જેના કારણે તે જટિલ, વાસ્તવિક કાર્યોને end to end ઘણું સારું અમલમાં મૂકે છે. તે tool instructions ને વધુ ચોક્કસપણે અનુસરે છે, tool errors હેન્ડલ કરવામાં વધુ સક્ષમ છે, અને long-context content retrieval માં ઉત્તમ છે. Manus કહે છે GPT‑5 એ “તેમના આંતરિક benchmarks પર એક જ મોડલમાંથી અત્યાર સુધીનું શ્રેષ્ઠ performance” આપ્યું. Notion કહે છે “મોડલના ઝડપી પ્રતિસાદ, ખાસ કરીને low reasoning mode માં, GPT‑5 ને એક આદર્શ મોડલ બનાવે છે જ્યારે તમને જટિલ કાર્યો એક જ વન-શોટમાં ઉકેલવા હોય.” Inditex એ શેર કર્યું કે “જે વસ્તુ ખરેખર [GPT‑5] ને અલગ બનાવે છે તે તેનું reasoning નું ઊંડાણ છે: સૂક્ષ્મ, બહુસ્તરીય જવાબો જે વિષયની સાચી સમજ દર્શાવે છે.”

અમે developers ને model responses પર વધુ નિયંત્રણ આપવા માટે અમારી API માં નવી સુવિધાઓ રજૂ કરી રહ્યા છીએ. GPT‑5 નવા verbosity parameter ને સપોર્ટ કરે છે (values: low, medium, high) જેથી જવાબો ટૂંકા અને સીધા રહે કે લાંબા અને વ્યાપક રહે તે નિયંત્રિત કરી શકાય. GPT‑5 નો reasoning_effort parameter હવે minimal value પણ લઈ શકે છે જેથી વ્યાપક reasoning પહેલાં જ ઝડપથી જવાબ મળી શકે. અમે એક નવો tool type—custom tools—પણ ઉમેર્યો છે, જેથી GPT‑5 JSON ના બદલે plaintext સાથે tools call કરી શકે. Custom tools developer-supplied context-free grammars દ્વારા મર્યાદા નક્કી કરવાની સુવિધા આપે છે.

અમે API માં GPT‑5 ને ત્રણ કદમાં રિલીઝ કરી રહ્યા છીએ—gpt-5, gpt-5-mini, અને gpt-5-nano—તેથી developers ને performance, cost અને latency વચ્ચે સંતુલન માટે વધુ લવચીકતા મળે. જ્યારે ChatGPT માં GPT‑5 reasoning, non-reasoning અને router મોડલ્સની system છે, API platform માં GPT‑5 તે reasoning model છે જે ChatGPT માં મહત્તમ performance ચલાવે છે. નોંધનીય રીતે, minimal reasoning સાથે GPT‑5 ChatGPT ના non-reasoning model થી જુદું મોડલ છે, અને developers માટે વધુ સારી રીતે tuned છે. ChatGPT માં ઉપયોગમાં લેવાતું non-reasoning model gpt-5-chat-latest તરીકે ઉપલબ્ધ છે.

ChatGPT માં GPT‑5 વિશે વાંચવા અને ChatGPT ના અન્ય સુધારાઓ વિશે વધુ જાણવા, અમારો research blog જુઓ. Enterprises GPT‑5 નો ઉપયોગ કરવા માટે કેમ ઉત્સાહિત છે તેના વિશે વધુ માટે, અમારો enterprise blog જુઓ.

કોડિંગ

GPT‑5 અમે અત્યાર સુધી રિલીઝ કરેલું સૌથી મજબૂત coding model છે. તે coding benchmarks અને વાસ્તવિક use cases માં o3 ને પાછળ મૂકે છે, અને Cursor, Windsurf, GitHub Copilot અને Codex CLI જેવા એજન્ટિક coding products માં ચમકે તે માટે fine-tune કરવામાં આવ્યું છે. GPT‑5 એ અમારા alpha testers ને પ્રભાવિત કર્યા, તેમના ઘણા ખાનગી આંતરિક evals પર records સ્થાપ્યાં.

વાસ્તવિક coding tasks માટે GPT‑5 પર પ્રારંભિક પ્રતિસાદ

“GPT-5 અમે ઉપયોગ કરેલો સૌથી સ્માર્ટ coding model છે. અમારી ટીમે GPT-5 ને અતિ બુદ્ધિશાળી, સરળતાથી દિશા આપી શકાય એવું અને અન્ય કોઈ મોડલમાં ન જોઈ હોય એવી વ્યક્તિગતતા ધરાવતું ગણ્યું છે. તે માત્ર કઠિન, ઊંડે છુપાયેલા bugs પકડતું નથી, પણ લાંબા, multi-turn background agents ચલાવી જટિલ કાર્યોને અંત સુધી પહોંચી વળે છે—એવા પ્રશ્નો, જ્યાં બીજા મોડલ્સ અટવાઈ જતા. PRs ની scoping અને planning થી લઈને end-to-end builds પૂર્ણ કરવા સુધી, હવે તે અમારો દૈનિક મુખ્ય આધાર બની ગયો છે.”
Michael Truell, Cursor ખાતે Co-Founder & CEO

વાસ્તવિક software engineering કાર્યો પર આધારિત મૂલ્યાંકન SWE-bench Verified પર, GPT‑5 74.9% સ્કોર કરે છે, જે o3 ના 69.1% કરતાં વધારે છે. નોંધનીય રીતે, GPT‑5 આ ઊંચો સ્કોર વધુ કાર્યક્ષમતા અને ઝડપ સાથે મેળવે છે: high reasoning effort પર o3 ની સરખામણીએ, GPT‑5 22% ઓછા output tokens અને 45% ઓછા tool calls વાપરે છે.

SWE-bench Verified માં, મોડલને code repository અને issue description આપવામાં આવે છે, અને તેને issue ઉકેલવા patch જનરેટ કરવો પડે છે. લખાણ લેબલ્સ reasoning effort દર્શાવે છે. અમારા સ્કોર્સ 500 માંથી તે 23 સમસ્યાઓ છોડે છે જેમના solutions અમારી infrastructure પર વિશ્વસનીય રીતે પાસ થયા નહોતા. GPT‑5 ને ટૂંકો પ્રોમ્પ્ટ આપવામાં આવ્યો હતો જેમાં solutions ને સારી રીતે verify કરવાની વાત પર ભાર મૂકાયો હતો; એ જ પ્રોમ્પ્ટનો o3 ને લાભ થયો નહોતો.

code editing ના મૂલ્યાંકન Aider polyglot પર, GPT‑5 88% નો નવો રેકોર્ડ સ્થાપે છે, જે o3 ની સરખામણીએ error rate માં એક-તૃતીયાંશ ઘટાડો છે.

Aider polygot(નવી વિન્ડોમાં ખૂલે છે) (diff) માં, મોડલને Exercism તરફથી coding exercise આપવામાં આવે છે અને તેને તેનો ઉકેલ code diff તરીકે લખવો પડે છે. রিজનિંગ મોડલ્સને ઊંચા reasoning effort સાથે ચલાવવામાં આવ્યા હતા.

અમે એ પણ જોયું છે કે GPT‑5 codebases માં ઊંડે જઈ વિવિધ ઘટકો કેવી રીતે કામ કરે છે અથવા સાથે કામ કરે છે તે વિશેના પ્રશ્નોના જવાબ આપવા માટે ઉત્તમ છે. OpenAI ના reinforcement learning stack જેટલા જટિલ codebase માં, અમને જણાય છે કે GPT‑5 અમને અમારા code વિશે reasoning કરવા અને પ્રશ્નોના જવાબ આપવા મદદ કરી શકે છે, અને અમારા દૈનિક કામને ઝડપ આપે છે.

ફ્રન્ટએન્ડ એન્જિનિયરિંગ

web apps માટે frontend code બનાવતી વખતે, GPT‑5 વધુ સૌંદર્યસજાગ, મહત્ત્વાકાંક્ષી અને સચોટ છે. o3 સાથેની side-by-side તુલનામાં, GPT‑5 ને અમારા testers એ 70% વખત પસંદ કર્યું.

એક જ prompt સાથે GPT‑5 શું કરી શકે તેના કેટલાક રસપ્રદ, પસંદ કરેલા ઉદાહરણો અહીં છે.

પ્રોમ્પ્ટ: કૃપા કરીને એવી સેવા માટે સુંદર અને વાસ્તવિક landing page બનાવો, જે શ્રેષ્ઠ coffee enthusiast ને $200/મહિનાનું subscription આપે છે, જેમાં coffee roasting અને શ્રેષ્ઠ espresso બનાવવા માટે equipment rental અને coaching મળે. લક્ષિત પ્રેક્ષકો bay area ના મધ્યવયીન લોકો છે, જે tech ક્ષેત્રમાં કામ કરતા હોઈ શકે, શિક્ષિત છે, ખર્ચ માટે પૂરતી આવક ધરાવે છે અને coffee ની કલા અને વિજ્ઞાન પ્રત્યે ઉત્સાહી છે. 6 મહિના signup માટે conversion optimize કરો.

અમારી gallery માં GPT‑5 ના વધુ ઉદાહરણો અહીં(નવી વિન્ડોમાં ખૂલે છે) જુઓ.

કોડિંગ સહકાર

GPT‑5 વધુ સારું collaborator છે, ખાસ કરીને Cursor, Windsurf, GitHub Copilot અને Codex CLI જેવા એજન્ટિક coding products માં. કામ કરતી વખતે, GPT‑5 tool calls વચ્ચે plans, updates અને recaps આઉટપુટ કરી શકે છે. અમારા અગાઉના મોડલ્સની સરખામણીએ, GPT‑5 વધુ સક્રિય છે અને તમારી મંજૂરીની રાહ લીધા વગર અથવા ઊંચી જટિલતા સામે પાછું ન હટી, મહત્ત્વાકાંક્ષી કાર્યો પૂર્ણ કરે છે.

જટિલ કાર્ય હાથે લેતા GPT‑5 કેવું દેખાઈ શકે તેનું અહીં એક ઉદાહરણ છે (આ કેસમાં, રેસ્ટોરન્ટ માટે વેબસાઇટ બનાવવી).

વપરાશકર્તા તેમના રેસ્ટોરન્ટ માટે વેબસાઇટ માંગ્યા પછી, GPT‑5 ઝડપી યોજના શેર કરે છે, એપનું scaffold બનાવે છે, dependencies ઇન્સ્ટોલ કરે છે, સાઇટનું કન્ટેન્ટ બનાવે છે, compilation errors ચકાસવા build ચલાવે છે, પોતાનું કામ સંક્ષેપમાં સમજાવે છે અને સંભવિત આગળના પગલાં સૂચવે છે. તમારે રાહ ન જોવી પડે તે માટે આ વિડિયોને ~3x ઝડપે ચલાવવામાં આવ્યો છે; વેબસાઇટ બનાવવા માટેનો સંપૂર્ણ સમય લગભગ ત્રણ મિનિટ હતો.

એજન્ટિક કાર્યો

એજન્ટિક coding થી આગળ, GPT‑5 સામાન્ય રીતે પણ એજન્ટિક કાર્યોમાં વધુ સારું છે. GPT‑5 instruction following benchmarks પર નવા records સ્થાપે છે (Scale MultiChallenge પર 69.6%, o3‑mini દ્વારા graded) અને tool calling (τ2-bench telecom પર 96.7%). સુધારેલી tool intelligence GPT‑5 ને વાસ્તવિક કાર્યો પૂર્ણ કરવા માટે actions વધુ વિશ્વસનીય રીતે એકસાથે ગોઠવવાની મંજૂરી આપે છે.

એજન્ટિક કાર્યો માટે GPT‑5 પર પ્રારંભિક પ્રતિસાદ

“GPT-5 એક મોટું આગળનું પગલું છે. તેણે અમારા આંતરિક benchmarks પર એક જ મોડલ તરફથી અત્યાર સુધીનો શ્રેષ્ઠ દેખાવ આપ્યો. GPT-5 વિવિધ એજન્ટિક કાર્યોમાં શ્રેષ્ઠ સાબિત થયું—અમે એક પણ કોડ લાઇન ફેરવીએ અથવા પ્રોમ્પ્ટ કસ્ટમાઇઝ કરીએ તે પહેલાં જ. નવા preambles અને tool use પર વધુ ચોક્કસ નિયંત્રણએ અમારા એજન્ટ્સની સ્થિરતા અને steerability માં નોંધપાત્ર કૂદકો સક્ષમ બનાવ્યો.”
Yichao ‘Peak’ Ji, Manus ખાતે Co-Founder & Chief Scientist

સૂચનાઓનું પાલન

GPT‑5 તેના પૂર્વગામીઓમાંના કોઈપણ કરતાં વધુ વિશ્વસનીય રીતે સૂચનાઓનું પાલન કરે છે, COLLIE, Scale MultiChallenge અને અમારા આંતરિક instruction following eval પર ઊંચો સ્કોર કરીને.

COLLIE(નવી વિન્ડોમાં ખૂલે છે) માં, મોડલ્સે વિવિધ બંધનો પૂરા કરતી લખાણરચના કરવી પડે છે. Scale MultiChallenge(નવી વિન્ડોમાં ખૂલે છે) માં, મોડલ્સને multi-turn conversations માં અગાઉના સંદેશાઓમાંથી ચાર પ્રકારની માહિતી યોગ્ય રીતે વાપરવાની પડકાર આપવામાં આવે છે. અમારા સ્કોર્સ o3‑mini ને grader તરીકે વાપરીને આવ્યા છે, જે GPT‑4o કરતાં વધુ સચોટ હતો. અમારી આંતરિક OpenAI API instruction following eval માં, મોડલ્સે વાસ્તવિક developer feedback પરથી લેવાયેલા મુશ્કેલ સૂચનોનું પાલન કરવું પડે છે. রિઝનિંગ મોડલ્સને ઊંચા reasoning effort સાથે ચલાવવામાં આવ્યા હતા.

ટૂલ કોલિંગ

ડેવલપર્સ માટે મહત્વ ધરાવતા રીતે tool calling સુધારવા અમે ભારે મહેનત કરી. GPT‑5 tool instructions અનુસરવામાં વધુ સારું છે, tool errors હેન્ડલ કરવામાં વધુ સારું છે, અને ક્રમવાર અથવા સમકક્ષ રીતે ઘણા tool calls સક્રિય રીતે કરવામાં વધુ સારું છે. સૂચના આપતાં, GPT‑5 લાંબા એજન્ટિક કાર્યો દરમિયાન પ્રગતિ વિશે વપરાશકર્તાઓને અપડેટ કરવા માટે tool calls પહેલાં અને વચ્ચે preamble messages પણ આઉટપુટ કરી શકે છે.

બે મહિના પહેલાં, Sierra.ai દ્વારા τ2-bench telecom એક પડકારજનક tool use benchmark તરીકે પ્રકાશિત થયું હતું, જેમાં દર્શાવાયું કે જ્યારે language model એવી environment state સાથે ઇન્ટરૅક્ટ કરે છે જે વપરાશકર્તાઓ દ્વારા બદલાઈ શકે, ત્યારે તેનું performance નોંધપાત્ર રીતે ઘટે છે. તેમની publication(નવી વિન્ડોમાં ખૂલે છે) માં, કોઈ મોડલ 49% થી ઉપર સ્કોર કરી શક્યું નહોતું. GPT‑5 97% સ્કોર કરે છે.

τ2-bench(નવી વિન્ડોમાં ખૂલે છે) માં, મોડલને customer service task પૂર્ણ કરવા tools વાપરવા પડે છે, જ્યાં એવો user હોઈ શકે છે જે સંચાર કરી શકે અને world state પર actions લઈ શકે. reasoning models ને high reasoning effort સાથે ચલાવવામાં આવ્યા હતા.

GPT‑5 long-context performance માં પણ મજબૂત સુધારા દર્શાવે છે. OpenAI-MRCR પર, જે long-context information retrieval નું માપ છે, GPT‑5 o3 અને GPT‑4.1 કરતાં આગળ છે, અને input lengths વધતા આ અંતર નોંધપાત્ર રીતે વધે છે.

OpenAI-MRCR(નવી વિન્ડોમાં ખૂલે છે) (multi-round co-reference resolution) માં, સમાન “needle” user requests ને સમાન requests અને responses ના લાંબા “haystacks” માં અનેક વાર દાખલ કરવામાં આવે છે, અને મોડલને i-th needle નો response ફરી રજૂ કરવા કહેવામાં આવે છે. Mean match ratio મોડલના response અને સાચા જવાબ વચ્ચેનો સરેરાશ string match ratio માપે છે. 256k max input tokens વાળા points 128k–256k input tokens ના averages દર્શાવે છે, અને આમ જ આગળ. અહીં, 256k નો અર્થ 256 * 1,024 = 262,114 tokens છે. রિઝનિંગ મોડલ્સને ઊંચા reasoning effort સાથે ચલાવવામાં આવ્યા હતા.

અમે BrowseComp Long Context(નવી વિન્ડોમાં ખૂલે છે) પણ open source કરી રહ્યા છીએ, જે long-context Q&A નું મૂલ્યાંકન કરવા માટેનો નવો benchmark છે. આ benchmark માં, મોડલને user query, સંબંધિત search results ની લાંબી યાદી આપવામાં આવે છે, અને તેને search results ના આધારે પ્રશ્નનો જવાબ આપવો પડે છે. અમે BrowseComp Long Context ને વાસ્તવિક, મુશ્કેલ અને વિશ્વસનીય રીતે સાચા ground truth answers ધરાવતું બનાવ્યું છે. 128K–256K tokens ના inputs પર, GPT‑5 89% વખત સાચો જવાબ આપે છે.

API માં, બધા GPT‑5 મોડલ્સ વધુમાં વધુ 272,000 input tokens સ્વીકારી શકે છે અને વધુમાં વધુ 128,000 reasoning & output tokens આપી શકે છે, એટલે કુલ context length 400,000 tokens થાય છે.

તથ્યસભરતા

GPT‑5 અમારા અગાઉના મોડલ્સ કરતાં વધુ વિશ્વસનીય છે. LongFact અને FactScore benchmarks ના prompts પર, GPT‑5 o3 કરતાં ~80% ઓછા તથ્યાત્મક errors કરે છે. તેથી, ખાસ કરીને code, data અને decision-making માં, જ્યાં સચોટતા મહત્વની હોય તેવા એજન્ટિક use cases માટે તે વધુ યોગ્ય બને છે.

ઉચ્ચ સ્કોર્સ ખરાબ છે. LongFact(નવી વિન્ડોમાં ખૂલે છે) અને FActScore(નવી વિન્ડોમાં ખૂલે છે) માં ખુલ્લા અંતવાળા fact-seeking પ્રશ્નો સામેલ છે. અમે આ benchmarks ના prompts પર responses નું fact-checking કરવા browsing સાથે LLM-based grader વાપરીએ છીએ અને factually incorrect claims નો અંશ માપીએ છીએ. અમલ અને grading ની વિગતો system card માં મળી શકે છે. reasoning models એ high reasoning effort વાપર્યો હતો. Search સક્ષમ નહોતું.

સામાન્ય રીતે, GPT‑5 ને પોતાની મર્યાદાઓ અંગે વધુ self-aware અને અણધારી પરિસ્થિતિઓ સંભાળવામાં વધુ સક્ષમ બનવા માટે તાલીમ આપવામાં આવી છે. અમે GPT‑5 ને health questions પર પણ વધુ સચોટ બનવા માટે તાલીમ આપી છે (અમારા research blog) માં વધુ વાંચો. તમામ language models ની જેમ, stakes ઊંચા હોય ત્યારે GPT‑5 ના કામને ચકાસવાનું અમે ભલામણ કરીએ છીએ.

નવી સુવિધાઓ

ન્યૂનતમ reasoning effort

Developers API માં reasoning_effort parameter દ્વારા GPT‑5 ના thinking time ને નિયંત્રિત કરી શકે છે. અગાઉના values—low, medium (default), અને high—સાથે, GPT‑5 minimal ને પણ સપોર્ટ કરે છે, જે GPT‑5 નું reasoning ઓછું કરીને ઝડપથી જવાબ આપે છે.

ઉચ્ચ reasoning_effort values ગુણવત્તા વધારે છે અને નીચા values ઝડપ વધારે છે. બધા કાર્યોને વધારાના reasoning થી સમાન લાભ મળતો નથી, તેથી તમારી જરૂરિયાતોના use cases માટે કયું સારું છે તે જોવા પરીક્ષણ કરવાની ભલામણ કરીએ છીએ.

ઉદાહરણ તરીકે, low કરતાં ઉપરનું reasoning પ્રમાણમાં સરળ long-context retrieval માટે બહુ ઓછો લાભ આપે છે, પરંતુ visual reasoning benchmark CharXiv Reasoning(નવી વિન્ડોમાં ખૂલે છે) પર ઘણા percentage points ઉમેરે છે.

GPT‑5 નો reasoning effort અલગ-अलग કાર્યોમાં અલગ લાભ આપે છે. CharXiv Reasoning માટે, GPT‑5 ને python tool ની ઍક્સેસ આપવામાં આવી હતી.

Verbosity

GPT‑5 ના જવાબોની default length ને steer કરવામાં મદદ કરવા માટે, અમે નવી API parameter verbosity રજૂ કરી છે, જે low, medium (default), અને high values લે છે. જો સ્પષ્ટ સૂચનાઓ verbosity parameters સાથે ટકરાય, તો સ્પષ્ટ સૂચનાઓને પ્રાધાન્ય મળે છે. ઉદાહરણ તરીકે, જો તમે GPT‑5 ને “5 paragraph નો essay લખો” કહો, તો verbosity level ગમે તે હોય, મોડલનો જવાબ હંમેશા 5 paragraphs નો જ હોવો જોઈએ (હાલાં કે paragraphs પોતે લાંબા કે ટૂંકા હોઈ શકે).

Verbosity=ઓછું

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=મધ્યમ

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=ઉચ્ચ

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

ટૂલ calls પહેલાં preamble messages

સૂચના આપવામાં આવે તો, GPT‑5 tool calls પહેલાં અને વચ્ચે user-visible preamble messages આઉટપુટ કરશે. hidden reasoning messages થી ભિન્ન, આ visible messages GPT‑5 ને પોતાની યોજનાઓ અને પ્રગતિ વપરાશકર્તાને જણાવવાની મંજૂરી આપે છે, જેથી end users તેની પદ્ધતિ અને tool calls પાછળના હેતુને સારી રીતે સમજી શકે.

Custom tools

અમે એક નવો tool type—custom tools—રજુ કરી રહ્યા છીએ, જે GPT‑5 ને JSON ના બદલે plaintext સાથે tool call કરવાની મંજૂરી આપે છે. GPT‑5 ને custom tool formats અનુસરવા મર્યાદિત કરવા માટે, developers regex અથવા વધુ સંપૂર્ણ રીતે નિર્ધારિત context-free grammar(નવી વિન્ડોમાં ખૂલે છે) આપી શકે છે.

અગાઉ, developer-defined tools માટેનું અમારું interface એ જરૂરી બનાવતું હતું કે તેઓ JSON સાથે call થાય, જે web APIs અને developers સામાન્ય રીતે વાપરતા સામાન્ય format છે. પરંતુ માન્ય JSON આઉટપુટ કરવા માટે મોડલને બધા quotation marks, backslashes, newlines અને અન્ય control characters સંપૂર્ણ રીતે escape કરવા પડે છે. અમારા મોડલ્સ JSON આઉટપુટ કરવા માટે સારી રીતે train થયેલા હોવા છતાં, code ની સૈંકડો લાઇન્સ અથવા 5-page report જેવા લાંબા inputs પર error ની શક્યતા વધી જાય છે. Custom tools સાથે, GPT‑5 escape કરવાની જરૂરિયાત ધરાવતા બધા characters escape કર્યા વગર tool inputs plaintext તરીકે લખી શકે છે.

JSON tools ના બદલે custom tools વાપરીને SWE-bench Verified પર, GPT‑5 લગભગ સમાન સ્કોર કરે છે.

સુરક્ષા

GPT‑5 સુરક્ષામાં અત્યાધુનિક સ્તરને આગળ વધારે છે અને વધુ મજબૂત, વિશ્વસનીય અને મદદરૂપ મોડલ છે. GPT‑5 અમારા અગાઉના મોડલ્સ કરતાં નોંધપાત્ર રીતે ઓછું hallucinate કરે છે, વપરાશકર્તાને પોતાની ક્રિયાઓ અને ક્ષમતાઓ વિશે વધુ પ્રામાણિક રીતે માહિતી આપે છે અને શક્ય હોય ત્યાં સુધી સુરક્ષા સીમાઓમાં રહી સૌથી મદદરૂપ જવાબ આપે છે. વધુ માટે અમારો research blog વાંચો.

ઉપલબ્ધતા & કિંમતો

GPT‑5 હવે API platform માં ત્રણ કદમાં ઉપલબ્ધ છે: gpt-5, gpt-5-mini, અને gpt-5-nano. તે Responses API, ચેટ કમ્પ્લીશન્સ API પર ઉપલબ્ધ છે, અને Codex CLI માં default છે. GPT‑5 ની કિંમત $1.25/1M input tokens અને $10/1M output tokens છે, GPT‑5 mini ની કિંમત $0.25/1M input tokens અને $2/1M output tokens છે, અને GPT‑5 nano ની કિંમત $0.05/1M input tokens અને $0.40/1M output tokens છે.

આ મોડલ્સ reasoning_effort અને verbosity API parameters તેમજ custom tools ને સપોર્ટ કરે છે. તેઓ parallel tool calling, built-in tools (web search, file search, ઇમેજ જનરેશન, અને વધુ), core API features (streaming, સ્ટ્રક્ચર્ડ આઉટપુટ્સ, અને વધુ), તેમજ prompt caching અને Batch API જેવી cost-saving સુવિધાઓને પણ સપોર્ટ કરે છે.

ChatGPT માં ઉપયોગમાં લેવાતી GPT‑5 ની non-reasoning version API માં gpt-5-chat-latest તરીકે ઉપલબ્ધ છે, તેની કિંમત પણ $1.25/1M input tokens અને $10/1M output tokens છે.

GPT‑5 Microsoft platforms પર પણ લોન્ચ થઈ રહ્યું છે, જેમાં Microsoft 365 Copilot, Copilot, GitHub Copilot, અને Azure AI Foundry નો સમાવેશ થાય છે.

વિગતવાર benchmarks

બુદ્ધિમત્તા
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94.6%91.1%85.2%88.9%92.7%46.4%40.2%-
FrontierMath(with python tool only)26.3%22.1%9.6%15.8%15.4%---
GPQA diamond(no tools)85.7%82.3%71.2%83.3%81.4%66.3%65.0%50.3%
HLE[1](no tools)24.8%16.7%8.7%20.2%14.7%5.4%3.7%-
HMMT 2025(no tools)93.3%87.8%75.6%81.7%85.0%28.9%35.0%-

[1] અમારા અગાઉના blog post માં જણાવાયેલા આંકડા સાથે નાનો ફરક છે, કારણ કે તે HLE ના જૂના version પર ચલાવવામાં આવ્યા હતા.

મલ્ટીમોડલ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84.2%81.6%75.6%82.9%81.6%74.8%72.7%55.4%
MMMU-Pro(avg across standard and vision sets)78.4%74.1%62.6%76.4%73.4%60.3%58.9%33.0%
CharXiv reasoning(python enabled)81.1%75.5%62.7%78.6%72.0%56.7%56.8%40.5%
VideoMMMU, max frame 25684.6%82.5%66.8%83.3%79.4%60.9%55.1%30.2%
ERQA65.7%62.9%50.1%64.0%56.5%44.3%42.3%26.5%
કોડિંગ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding TasksUS$1.1 લાખUS$75 હજારUS$49 હજારUS$86 હજારUS$66 હજારUS$34 હજારUS$31 હજારUS$9 હજાર
SWE-bench Verified[2]74.9%71.0%54.7%69.1%68.1%54.6%23.6%-
Aider polyglot(diff)88.0%71.6%48.4%79.6%58.2%52.9%31.6%6.2%

[2] અમે 500 માંથી 23 સમસ્યાઓને છોડીએ છીએ, કારણ કે તે અમારી ઇન્ફ્રાસ્ટ્રક્ચર પર ચાલી શકી નહોતી. છોડવામાં આવેલા 23 કાર્યોની સંપૂર્ણ યાદી છે: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', અને 'sphinx-doc__sphinx-9367'.

સૂચનાઓનું પાલન
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69.6%62.3%54.9%60.4%57.5%46.2%42.2%31.1%
Internal API instruction following eval(hard)64.0%65.8%56.1%47.4%44.7%49.1%45.1%31.6%
COLLIE99.0%98.5%96.9%98.4%96.1%65.8%54.6%42.5%

[3] નોંધ: અમે જોયું છે કે MultiChallenge માં default grader (GPT-4o) મોડલ responses ને વારંવાર ખોટો સ્કોર આપે છે. અમે જોયું છે કે grader ને o3-mini જેવા reasoning model સાથે બદલી દેવાથી અમે તપાસેલા samples પર grading accuracy નોંધપાત્ર રીતે સુધરે છે.

ફંક્શન કોલિંગ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62.6%60.0%41.0%64.8%60.2%56.0%51.0%14.0%
Tau2-bench retail81.1%78.3%62.3%80.2%70.5%74.0%66.0%21.5%
Tau2-bench telecom96.7%74.1%35.5%58.2%40.5%34.0%44.0%12.1%
લાંબો કોન્ટેક્સ્ટ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95.2%84.3%43.2%55.0%56.4%57.2%47.2%36.6%
OpenAI-MRCR: 2 needle 256k86.8%58.8%34.9%--56.2%45.5%22.6%
Graphwalks bfs <128k78.3%73.4%64.0%77.3%62.3%61.7%61.7%25.0%
Graphwalks parents <128k73.3%64.3%43.8%72.9%51.1%58.0%60.5%9.4%
BrowseComp Long Context 128k90.0%89.4%80.4%88.3%80.0%85.9%89.0%89.4%
BrowseComp Long Context 256k88.8%86.0%68.4%--75.5%81.6%19.1%
VideoMME(long, with subtitle category)86.7%78.5%65.7%84.9%79.5%78.7%68.4%55.2%
ભ્રમિત જવાબો
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1.0%0.7%1.0%5.2%3.0%0.7%1.1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1.2%1.3%2.8%6.8%8.9%1.1%1.8%-
FActScore hallucination rate(no tools)[lower is better]2.8%3.5%7.3%23.5%38.7%6.7%10.9%-

લેખક

OpenAI