ഇന്ന്, ഞങ്ങൾ ഞങ്ങളുടെ API പ്ലാറ്റ്ഫോമിൽ GPT‑5 പുറത്തിറക്കുന്നു—കോഡിംഗിനും ഏജന്റിക് ടാസ്കുകൾക്കുമുള്ള ഞങ്ങളുടെ ഇതുവരെ ഏറ്റവും മികച്ച മോഡൽ.
പ്രധാന കോഡിംഗ് ബെഞ്ച്മാർക്കുകളിൽ GPT‑5 അത്യാധുനിക (SOTA) ആണ്, SWE-bench സ്ഥിരീകരണത്തിൽ 74.9% ഉം Aider polyglot-ൽ 88% ഉം സ്കോർ നേടി. ഒരു യഥാർത്ഥ കോഡിംഗ് സഹകാരിയാകാൻ ഞങ്ങൾ GPT‑5 നെ പരിശീലിപ്പിച്ചു. ഉയർന്ന നിലവാരമുള്ള code നിർമ്മിക്കുന്നതിലും ബഗുകൾ പരിഹരിക്കൽ, code എഡിറ്റ് ചെയ്യൽ, സങ്കീർണ്ണമായ codebaseകളെക്കുറിച്ചുള്ള ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകൽ തുടങ്ങിയ ടാസ്ക്-കൾ കൈകാര്യം ചെയ്യുന്നതിലും ഇത് മികവ് പുലർത്തുന്നു. ഈ മോഡൽ നിയന്ത്രിക്കാവുന്നതും സഹകരണപരവുമാണ് - ഉയർന്ന കൃത്യതയോടെ വളരെ വിശദമായ നിർദ്ദേശങ്ങൾ പാലിക്കാനും ടൂൾ കോളുകൾക്ക് മുമ്പും ശേഷവും അതിന്റെ നടപടികളെക്കുറിച്ച് മുൻകൂട്ടി വിശദീകരണങ്ങൾ നൽകാനും ഇതിന് കഴിയും. ഫ്രണ്ട് എൻഡ് കോഡിംഗിലും മോഡൽ മികവ് പുലർത്തുന്നു, ഫ്രണ്ടെൻഡ് വെബ് ഡെവലപ്മെന്റിൽ OpenAI o3‑നെ തോൽപ്പിക്കുന്നു ആന്തരിക പരിശോധനയിൽ 70% സമയം.
സ്റ്റാർട്ടപ്പുകളിലും സംരംഭങ്ങളിലും ആദ്യകാല പരീക്ഷകരുമായി സഹകരിച്ച് യഥാർത്ഥ കോഡിംഗ് ടാസ്ക്-കളിൽ ഞങ്ങൾ GPT‑5‑ന് പരിശീലനം നൽകി. Cursor പറയുന്നത് GPT‑5 "[അവർ] ഉപയോഗിച്ചതിൽ വച്ച് ഏറ്റവും സ്മാർട്ട് മോഡൽ" ആണെന്നും "അതിശയകരമാംവിധം ബുദ്ധിമാനും, എളുപ്പത്തിൽ നിയന്ത്രിക്കാനും കഴിയുന്നതും, മറ്റ് മോഡലുകളിൽ [അവർ] കണ്ടിട്ടില്ലാത്ത ഒരു വ്യക്തിത്വം പോലും ഉള്ളതുമാണ്" എന്നാണ്. Windsurf പങ്കിട്ട GPT‑5 അവരുടെ വിലയിരുത്തലുകളിൽ SOTA ആണ്, കൂടാതെ "മറ്റ് ഫ്രണ്ടിയർ മോഡലുകളെ അപേക്ഷിച്ച് പിശക് നിരക്ക് വിളിക്കുന്നതിന്റെ പകുതി ടൂൾ ഉണ്ട്." Vercel പറയുന്നത്: "ഇത് ഏറ്റവും മികച്ച ഫ്രണ്ട് എൻഡ് AI മോഡലാണ്, സൗന്ദര്യബോധത്തിലും code ഗുണനിലവാരത്തിലും മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു, അതിനെ അതിന്റേതായ ഒരു വിഭാഗത്തിൽ ഉൾപ്പെടുത്തുന്നു."
GPT‑5 ദീർഘകാല ഏജന്റ് ടാസ്കുകളിൽ മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു—τ2-ബെഞ്ച് ടെലികോമിൽ (96.7%) SOTA ഫലങ്ങൾ കൈവരിക്കുന്നു, ഇത് 2 മാസം മുമ്പ് പുറത്തിറക്കിയ ഒരു ടൂൾ-കോളിംഗ് ബെഞ്ച്മാർക്കാണ്. GPT‑5 ന്റെ മെച്ചപ്പെടുത്തിയ ടൂൾ ഇന്റലിജൻസ്, വഴി തെറ്റാതെ ക്രമത്തിലും സമാന്തരമായും ഡസൻ കണക്കിന് ടൂൾ കോളുകളെ വിശ്വസനീയമായി ബന്ധിപ്പിക്കാൻ അനുവദിക്കുന്നു, ഇത് സങ്കീർണ്ണവും യഥാർത്ഥവുമായ ടാസ്ക്-കൾ അവസാനം മുതൽ അവസാനം വരെ നിർവ്വഹിക്കുന്നതിൽ മികച്ചതാക്കുന്നു. ഇത് ഉപകരണ നിർദ്ദേശങ്ങൾ കൂടുതൽ കൃത്യമായി പാലിക്കുന്നു, ഉപകരണ പിശകുകൾ കൈകാര്യം ചെയ്യുന്നതിൽ മികച്ചതാണ്, കൂടാതെ ദീർഘകാല സന്ദർഭ ഉള്ളടക്കം വീണ്ടെടുക്കുന്നതിൽ മികച്ചതാണ്. Manus പറയുന്നു, "GPT‑5 [അവരുടെ] ആന്തരിക ബെഞ്ച്മാർക്കുകളിൽ ഒരൊറ്റ മോഡലിൽ നിന്ന് ഇതുവരെ [അവർ] കണ്ടിട്ടില്ലാത്ത ഏറ്റവും മികച്ച പ്രകടനം കൈവരിച്ചു." Notion പറയുന്നു, “[മോഡലിന്റെ] ദ്രുത മറുപടികൾ, പ്രത്യേകിച്ച് കുറഞ്ഞ റീസണിംഗ് മോഡിൽ, സങ്കീർണ്ണമായ ടാസ്കുകൾ ഒറ്റയടിക്ക് പരിഹരിക്കേണ്ടിവരുമ്പോൾ GPT‑5 ഒരു മികച്ച മോഡലാണ്.” Inditex പങ്കുവെച്ചത്: "[GPT‑5] നെ യഥാർത്ഥത്തിൽ വ്യത്യസ്തമാക്കുന്നത് അതിന്റെ റീസണിംഗ് ന്റെ ആഴമാണ്: യഥാർത്ഥ വിഷയ ധാരണയെ പ്രതിഫലിപ്പിക്കുന്ന സൂക്ഷ്മവും ബഹുതലങ്ങളുമായ ഉത്തരങ്ങൾ."
ഡെവലപ്പർമാർക്ക് മോഡൽ മറുപടികളിൽ കൂടുതൽ നിയന്ത്രണം നൽകുന്നതിനായി ഞങ്ങൾ API-യിൽ പുതിയ സവിശേഷതകൾ അവതരിപ്പിക്കുന്നു. ഉത്തരങ്ങൾ ഹ്രസ്വവും പോയിന്റുമായി പൊരുത്തപ്പെടുന്നതുമാണോ അതോ ദീർഘവും സമഗ്രവുമാണോ എന്ന് നിയന്ത്രിക്കാൻ സഹായിക്കുന്നതിന് GPT‑5 ഒരു പുതിയ verbosity പാരാമീറ്റർ (മൂല്യങ്ങൾ: low, medium, high) പിന്തുണയ്ക്കുന്നു. വിശദമായ റീസണിംഗ് ആദ്യം ചെയ്യാതെ തന്നെ, ഉത്തരങ്ങൾ വേഗത്തിൽ തിരികെ ലഭിക്കുന്നതിന് GPT‑5 ന്റെ reasoning_effort പാരാമീറ്ററിന് ഇപ്പോൾ ഒരു കുറഞ്ഞ മൂല്യം എടുക്കാൻ കഴിയും. ഞങ്ങൾ JSON-ന് പകരം പ്ലെയിൻടെക്സ്റ്റ് ഉപയോഗിച്ച് GPT‑5 ടൂളുകളെ വിളിക്കാൻ അനുവദിക്കുന്ന ഒരു പുതിയ ഉപകരണ തരം - കസ്റ്റം ഉപകരണങ്ങൾ - ചേർത്തിട്ടുണ്ട്. ഇഷ്ടാനുസൃത ഉപകരണങ്ങൾ ഡെവലപ്പർ നൽകിയ സന്ദർഭരഹിത വ്യാകരണങ്ങളുടെ നിയന്ത്രണത്തെ പിന്തുണയ്ക്കുന്നു.
ഡെവലപ്പർമാർക്ക് പ്രകടനം, ചെലവ്, ലേറ്റൻസി എന്നിവയിൽ കൂടുതൽ വഴക്കമുള്ള ട്രേഡ് ഓഫുകൾ നൽകുന്നതിന്, ഞങ്ങൾ API-യിൽgpt-5, gpt-5-mini, gpt-5-nanoഎന്നീ മൂന്ന് വലുപ്പങ്ങളിൽ GPT‑5 പുറത്തിറക്കുന്നു. ChatGPTയിലെ GPT‑5 റീസണിംഗ്, നോൺ-റീസണിംഗ്, റൂട്ടർ മോഡലുകളുടെ ഒരു സംവിധാനമാണെങ്കിലും, ChatGPTയിലെ പരമാവധി പ്രകടനത്തിന് ശക്തി പകരുന്ന റീസണിംഗ് മോഡലാണ് API പ്ലാറ്റ്ഫോമിലെ GPT‑5. ശ്രദ്ധേയമായി, കുറഞ്ഞ റീസണിംഗ് ഉള്ള GPT‑5, ChatGPTയിലെ നോൺ-റീസണിംഗ് മോഡലിനേക്കാൾ വ്യത്യസ്തമാണ്, കൂടാതെ ഇത് ഡെവലപ്പർമാർക്ക് മികച്ച രീതിയിൽ ട്യൂൺ ചെയ്യപ്പെട്ടിരിക്കുന്നു. ChatGPT‑ൽ ഉപയോഗിക്കുന്ന നോൺ-റീസണിംഗ് മോഡൽ gpt-5-ചാറ്റ്-latest എന്ന പേരിൽ ലഭ്യമാണ്.
ChatGPT‑ൽ GPT‑5‑നെക്കുറിച്ച് വായിക്കാനും മറ്റ് ChatGPT മെച്ചപ്പെടുത്തലുകളെക്കുറിച്ച് കൂടുതലറിയാനും, ഞങ്ങളുടെ ഗവേഷണ ബ്ലോഗ് കാണുക. GPT‑5 ഉപയോഗിക്കാൻ സംരംഭങ്ങൾ എങ്ങനെ ആവേശഭരിതരാകുന്നു എന്നതിനെക്കുറിച്ച് കൂടുതലറിയാൻ, ഞങ്ങളുടെ എന്റർപ്രൈസ് ബ്ലോഗ് കാണുക.
GPT‑5 ഞങ്ങൾ ഇതുവരെ പുറത്തിറക്കിയ ഏറ്റവും ശക്തമായ കോഡിംഗ് മോഡലാണ്. ഇത് കോഡിംഗ് ബെഞ്ച്മാർക്കുകളിലും യഥാർത്ഥ ലോക ഉപയോഗ കേസുകളിലും o3 നെ മറികടക്കുന്നു, കൂടാതെ Cursor, Windsurf, GitHub Copilot, Codex CLI പോലുള്ള ഏജന്റിക് കോഡിംഗ് ഉൽപ്പന്നങ്ങളിൽ തിളങ്ങാൻ ഫൈൻ-ട്യൂൺ ചെയ്തിട്ടുണ്ട്. GPT‑5 ഞങ്ങളുടെ ആൽഫ ടെസ്റ്റർമാരെ ആകർഷിച്ചു, അവരുടെ പല സ്വകാര്യ ആന്തരിക വിലയിരുത്തലുകളിൽ റെക്കോർഡുകൾ സൃഷ്ടിച്ചു.
യഥാർത്ഥ ലോക കോഡിംഗ് ടാസ്കുകൾക്കായുള്ള GPT‑5‑നെക്കുറിച്ചുള്ള പ്രാരംഭ ഫീഡ്ബാക്ക്
ഞങ്ങൾ ഉപയോഗിച്ച ഏറ്റവും ബുദ്ധിമാനായ കോഡിംഗ് മോഡലാണ് GPT-5. ഞങ്ങളുടെ Team GPT-5-നെ അസാധാരണമാംവിധം ബുദ്ധിമാനായും, എളുപ്പത്തിൽ നിയന്ത്രിക്കാവുന്നതുമായ, മറ്റൊരു മോഡലിലും കാണാത്ത ഒരു വ്യക്തിത്വമുള്ളതായും കണ്ടെത്തി. ഇത് വെല്ലുവിളിയേറിയ, ആഴത്തിൽ മറഞ്ഞിരിക്കുന്ന ബഗുകളെ പിടികൂടുക മാത്രമല്ല, സങ്കീർണ്ണമായ ടാസ്കുകൾ പൂർത്തിയാക്കാൻ നീണ്ട, മൾട്ടി-ടേൺ പശ്ചാത്തല ഏജൻ്റുകൾ പ്രവർത്തിപ്പിക്കാനും കഴിയും - മറ്റ് മോഡലുകൾ കുടുങ്ങിയിരുന്ന പ്രശ്നങ്ങൾ. സ്കോപ്പിംഗ്, PRകൾ ആസൂത്രണം ചെയ്യൽ എന്നിവ മുതൽ എൻഡ്-ടു-എൻഡ് ബിൽഡുകൾ പൂർത്തിയാക്കുന്നത് വരെയുള്ള എല്ലാത്തിനും ഇത് ഞങ്ങളുടെ ദൈനംദിന ഉപകരണമായി മാറിയിരിക്കുന്നു.
യഥാർത്ഥ ലോക സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗ് ടാസ്കുകൾ അടിസ്ഥാനമാക്കിയ SWE-bench സ്ഥിരീകരണത്തിൽ, GPT‑5 74.9% സ്കോർ നേടി, o3 യുടെ 69.1% നെ മറികടന്നു. ശ്രദ്ധേയമായി, GPT‑5 അതിന്റെ ഉയർന്ന സ്കോർ കൂടുതൽ കാര്യക്ഷമതയോടും വേഗതയോടും കൂടി നേടുന്നു: ഉയർന്ന റീസണിംഗ് ശ്രമത്തിൽ o3 നെ അപേക്ഷിച്ച്, GPT‑5 22% കുറവ് ഔട്ട്പുട്ട് ടോക്കൺ-കളും 45% കുറവ് ടൂൾ കോളുകളും ഉപയോഗിക്കുന്നു.
SWE-bench സ്ഥിരീകരിക്കുക എന്നതിൽ, ഒരു മോഡലിന് code ശേഖരണവും പ്രശ്ന വിവരണവും ലഭിക്കുന്നു, കൂടാതെ പ്രശ്നം പരിഹരിക്കുന്നതിന് ഒരു പാച്ച് സൃഷ്ടിക്കണം. Text ലേബലുകൾ റീസണിംഗ് ശ്രമത്തെ സൂചിപ്പിക്കുന്നു. ഞങ്ങളുടെ അടിസ്ഥാന സൗകര്യത്തിൽ വിശ്വസനീയമായി പരിഹാരങ്ങൾ കൈമാറാൻ കഴിയാത്ത 500 പ്രശ്നങ്ങളിൽ 23 എണ്ണം ഞങ്ങളുടെ സ്കോറുകളിൽ നിന്ന് ഒഴിവാക്കി. പരിഹാരങ്ങൾ സമഗ്രമായി സ്ഥിരീകരിക്കുന്നതിന് ഊന്നൽ നൽകുന്ന ഒരു ചെറിയ പ്രോംപ്റ്റ് GPT‑5 ന് നൽകി; അതേ പ്രോംപ്റ്റ് o3 ന് ഗുണം ചെയ്തില്ല.
Code എഡിറ്റിംഗിന്റെ മൂല്യനിർണ്ണയമായ Aider polyglotൽ, GPT‑5 88% എന്ന പുതിയ റെക്കോർഡ് സ്ഥാപിച്ചു, ഇത് o3 നെ അപേക്ഷിച്ച് പിശക് നിരക്കിൽ മൂന്നിലൊന്ന് കുറവാണ്.
Aider polygot(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) (ഡിഫ്) ൽ, ഒരു മോഡലിന് Exercism-ൽ നിന്ന് ഒരു കോഡിംഗ് വ്യായാമം നൽകുകയും അതിന്റെ പരിഹാരം ഒരു code ഡിഫ് ആയി എഴുതുകയും വേണം. റീസണിംഗ് മോഡലുകൾ ഉയർന്ന റീസണിംഗ് ശ്രമത്തോടെയാണ് പ്രവർത്തിപ്പിച്ചത്.
ഞങ്ങൾ GPT‑5 codebaseകളിലേക്ക് ആഴത്തിൽ ചെന്ന് വിവിധ ഭാഗങ്ങൾ എങ്ങനെ പ്രവർത്തിക്കുന്നു അല്ലെങ്കിൽ പരസ്പരം പ്രവർത്തിക്കുന്നു എന്നതിനെക്കുറിച്ചുള്ള ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകുന്നതിൽ മികച്ചതാണെന്ന് കണ്ടെത്തി. OpenAIയുടെ റീഇൻഫോഴ്സ്മെന്റ് ലേണിംഗ് സ്റ്റാക്ക് പോലെ ഇത്രയും സങ്കീർണമായ ഒരു codebaseൽ, നമ്മുടെ സ്വന്തം ദൈനംദിന പ്രവർത്തനങ്ങളെ വേഗത്തിലാക്കുന്നതിനായി codeനെ കുറിച്ചുള്ള ചോദ്യങ്ങൾക്ക് ഉത്തരങ്ങൾ കണ്ടെത്താനും GPT‑5 നമ്മെ സഹായിക്കുന്നു..
വെബ് ആപ്പുകൾക്കായി ഫ്രണ്ട് എൻഡ് code നിർമ്മിക്കുമ്പോൾ, GPT‑5 കൂടുതൽ സൗന്ദര്യബോധമുള്ളതും, ആകാംക്ഷയുള്ളതും കൃത്യവുമാണ്. അടുത്തടുത്ത താരതമ്യം o3‑നൊപ്പം ചെയ്യുമ്പോൾ, ഞങ്ങളുടെ പരീക്ഷകർ 70% സമയവും GPT‑5‑നെ ഇഷ്ടപ്പെട്ടു.
ഒരൊറ്റ പ്രോംപ്റ്റ് ഉപയോഗിച്ച് GPT‑5 എന്തുചെയ്യാൻ കഴിയുമെന്നതിന്റെ രസകരമായ, തിരഞ്ഞെടുത്ത ചില ഉദാഹരണങ്ങൾ ഇതാ:
Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.
GPT‑5 ന്റെ കൂടുതൽ ഉദാഹരണങ്ങൾ ഞങ്ങളുടെ ഗാലറിയിൽ ഇവിടെ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കാണുക.
GPT‑5 ഒരു മികച്ച സഹകാരിയാണ്, പ്രത്യേകിച്ച് Cursor, Windsurf, GitHub Copilot, Codex CLI പോലുള്ള ഏജന്റിക് കോഡിംഗ് ഉൽപ്പന്നങ്ങളിൽ. ഇത് പ്രവർത്തിക്കുന്ന സമയത്ത്, ടൂൾ കോളുകൾക്കിടയിൽ പദ്ധതികൾ, അപ്ഡേറ്റുകൾ, റീക്യാപ്പുകൾ എന്നിവ GPT‑5 ഔട്ട്പുട്ട് ചെയ്യാൻ കഴിയും. ഞങ്ങളുടെ മുൻകാല മോഡലുകളെ അപേക്ഷിച്ച്, മുന്നോട്ട് പോകാൻ താൽക്കാലികമായി നിർത്താതെയോ ഉയർന്ന സങ്കീർണ്ണതയിൽ മടിച്ചുനിൽക്കാതെയോ അഭിലഷണീയമായ ടാസ്ക്-കൾ പൂർത്തിയാക്കുന്നതിൽ GPT‑5 കൂടുതൽ മുൻകൈയെടുക്കുന്നു.
സങ്കീർണ്ണമായ ഒരു ടാസ്ക് കൈകാര്യം ചെയ്യുമ്പോൾ (ഈ സാഹചര്യത്തിൽ, ഒരു റെസ്റ്റോറന്റിനായി ഒരു വെബ്സൈറ്റ് സൃഷ്ടിക്കുമ്പോൾ) GPT‑5 എങ്ങനെയിരിക്കാമെന്നതിന്റെ ഒരു ഉദാഹരണം ഇതാ:
ഉപയോക്താവ് അവരുടെ റെസ്റ്റോറന്റിനായി ഒരു വെബ് സൈറ്റ് ആവശ്യപ്പെട്ട ശേഷം, GPT‑5 ഒരു ദ്രുത പദ്ധതി പങ്കിടുന്നു, ആപ്പ് സ്കഫോൾഡ് ചെയ്യുന്നു, ആശ്രിതത്വങ്ങൾ ഇൻസ്റ്റാൾ ചെയ്യുന്നു, സൈറ്റ് ഉള്ളടക്കം സൃഷ്ടിക്കുന്നു, സമാഹാര പിശകുകൾ പരിശോധിക്കാൻ ഒരു ബിൽഡ് പ്രവർത്തിപ്പിക്കുന്നു, അതിന്റെ പ്രവർത്തനം സംഗ്രഹിക്കുന്നു, അടുത്തത് ഘട്ടങ്ങൾ നിർദ്ദേശിക്കുന്നു. ഈ വീഡിയോ ~3x വേഗത്തിലാക്കിയിരിക്കുന്നു, നിങ്ങളുടെ കാത്തിരിപ്പ് സംരക്ഷിക്കാൻ; വെബ്സൈറ്റ് സൃഷ്ടിക്കാൻ മുഴുവൻ സമയവും ഏകദേശം മൂന്ന് മിനിറ്റായിരുന്നു.
ഏജന്റിക് കോഡിംഗിനപ്പുറം, GPT‑5 പൊതുവെ ഏജന്റിക് ടാസ്കുകളിൽ മികച്ചതാണ്. GPT‑5 ഇൻസ്ട്രക്ഷൻ ഫോളോവിംഗ് (o3‑mini ഗ്രേഡ് ചെയ്ത സ്കെയിൽ മൾട്ടിചലഞ്ചിൽ 69.6%) കൂടാതെ ടൂൾ കോളിംഗ് (τ2-ബെഞ്ച് ടെലികോമിൽ 96.7%) എന്നിവയുടെ ബെഞ്ച്മാർക്കുകളിൽ പുതിയ റെക്കോർഡുകൾ സ്ഥാപിച്ചു. മെച്ചപ്പെട്ട ഉപകരണ ബുദ്ധി GPT‑5‑ന് യഥാർത്ഥ ലോകത്തിലെ ടാസ്കുകൾ പൂർത്തിയാക്കുന്നതിനായി നടപടികൾ കൂടുതൽ വിശ്വസനീയമായി ബന്ധിപ്പിക്കാൻ അനുവദിക്കുന്നു.
ഏജന്റിക് ടാസ്കുകൾക്കായുള്ള GPT‑5‑നുള്ള ആദ്യകാല ഫീഡ്ബാക്ക്
“GPT-5 ഒരു വലിയ മുന്നേറ്റമാണ്. ഇത് ഞങ്ങളുടെ ആന്തരിക ബെഞ്ച്മാർക്കുകളിൽ ഒരൊറ്റ മോഡലിൽ നിന്ന് ഞങ്ങൾ കണ്ട ഏറ്റവും മികച്ച പ്രകടനം നേടി. GPT-5 വിവിധ ഏജന്റിക് ടാസ്കുകളിൽ മികവ് പുലർത്തി - ഞങ്ങൾ codeന്റെ ഒരു വരി പോലും മാറ്റുകയോ ഒരു പ്രോംപ്റ്റ് രൂപപ്പെടുത്തുകയോ ചെയ്യുന്നതിന് മുമ്പ് തന്നെ. പുതിയ ആമുഖങ്ങളും ഉപകരണ ഉപയോഗത്തിലുള്ള കൂടുതൽ കൃത്യമായ നിയന്ത്രണവും ഞങ്ങളുടെ ഏജൻ്റുമാരുടെ സ്ഥിരതയിലും നിയന്ത്രണത്തിലും പ്രവർത്തന സജ്ജമാക്കി ഗണ്യമായ കുതിച്ചുചാട്ടം സാധ്യമാക്കി.
GPT‑5 അതിന്റെ മുൻഗാമികളെ അപേക്ഷിച്ച് നിർദ്ദേശങ്ങൾ കൂടുതൽ വിശ്വസനീയമായി പാലിക്കുന്നു, COLLIE, Scale MultiChallenge, ഞങ്ങളുടെ ആന്തരിക നിർദ്ദേശ പാലന പരിശോധന എന്നിവയിൽ ഉയർന്ന സ്കോർ നേടുന്നു.
COLLIE(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ൽ, മോഡലുകൾ വിവിധ നിയന്ത്രണങ്ങൾ പാലിക്കുന്ന വാചകം എഴുതേണ്ടതുണ്ട്. Scale MultiChallenge(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), മൾട്ടി-ടേൺ സംഭാഷണങ്ങളിൽ മോഡലുകളെ മുൻ സന്ദേശങ്ങളിൽ നിന്നുള്ള നാല് തരം വിവരങ്ങൾ ശരിയായി ഉപയോഗിക്കാൻ വെല്ലുവിളിക്കുന്നു. GPT‑4o നേക്കാൾ കൃത്യമായിരുന്ന o3‑mini ഗ്രേഡറായി ഉപയോഗിച്ചതിൽ നിന്നാണ് ഞങ്ങൾക്ക് സ്കോറുകൾ ലഭിച്ചത്. ഞങ്ങളുടെ ആന്തരിക OpenAI API നിർദ്ദേശം പിന്തുടരുന്ന മൂല്യനിർണ്ണയത്തിൽ, യഥാർത്ഥ ഡെവലപ്പർ ഫീഡ്ബാക്കിൽ നിന്ന് ലഭിച്ച ബുദ്ധിമുട്ടുള്ള നിർദ്ദേശങ്ങൾ മോഡലുകൾ പാലിക്കണം. റീസണിംഗ് മോഡലുകൾ ഉയർന്ന റീസണിംഗ് ശ്രമത്തോടെയാണ് പ്രവർത്തിപ്പിച്ചത്.
ഡെവലപ്പർമാർക്ക് പ്രാധാന്യമുള്ള രീതിയിൽ ടൂൾ കോളിംഗ് മെച്ചപ്പെടുത്താൻ ഞങ്ങൾ കഠിനമായി പ്രവർത്തിച്ചു. ടൂൾ നിർദ്ദേശങ്ങൾ പാലിക്കുന്നതിലും, ടൂൾ പിശകുകൾ കൈകാര്യം ചെയ്യുന്നതിലും, നിരവധി ടൂൾ കോളുകൾ അനുക്രമത്തിലോ സമാന്തരമായോ മുൻകൂട്ടി നടത്തുന്നതിലും GPT‑5 മികച്ചതാണ്. നിർദ്ദേശം ലഭിക്കുമ്പോൾ, ദൈർഘ്യമേറിയ ഏജന്റിക് ടാസ്ക്-കളുടെ പുരോഗതിയെക്കുറിച്ച് ഉപയോക്താക്കളെ അറിയിക്കുന്നതിന്, ടൂൾ കോളുകൾക്ക് മുമ്പും ശേഷവും ആമുഖ സന്ദേശങ്ങൾ ഔട്ട്പുട്ട് ചെയ്യാനും GPT‑5‑ന് കഴിയും.
രണ്ട് മാസം മുമ്പ്, ഉപയോക്താക്കൾക്ക് മാറ്റാൻ കഴിയുന്ന ഒരു പരിസ്ഥിതി അവസ്ഥയുമായി ഇടപഴകുമ്പോൾ ഭാഷാ മോഡൽ പ്രകടനം എങ്ങനെ ഗണ്യമായി കുറയുന്നുവെന്ന് എടുത്തുകാണിക്കുന്ന വെല്ലുവിളി നിറഞ്ഞ ഉപകരണ ഉപയോഗ മാനദണ്ഡമായി Sierra.ai τ2-ബെഞ്ച് ടെലികോം പ്രസിദ്ധീകരിച്ചു. അവരുടെ പ്രസിദ്ധീകരണത്തിൽ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), ഒരു മോഡലും 49% ന് മുകളിൽ സ്കോർ ചെയ്തിട്ടില്ല. GPT‑5 97% സ്കോർ നേടി.
τ2-ബെഞ്ച്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), ഒരു മോഡൽ ഉപകരണങ്ങൾ ഉപയോഗിച്ച് ഉപഭോക്തൃ സേവന ടാസ്ക് പൂർത്തിയാക്കണം, അവിടെ ലോകത്തിന്റെ അവസ്ഥയെക്കുറിച്ച് ആശയവിനിമയം നടത്താനും നടപടികൾ സ്വീകരിക്കാനും കഴിയുന്ന ഒരു ഉപയോക്താവ് ഉണ്ടായിരിക്കാം. റീസണിംഗ് മോഡലുകൾ ഉയർന്ന റീസണിംഗ് ശ്രമത്തോടെയാണ് പ്രവർത്തിപ്പിച്ചത്.
നീണ്ട സന്ദർഭ-പ്രകടനത്തിലും GPT‑5 ശക്തമായ മെച്ചപ്പെടുത്തലുകൾ കാണിക്കുന്നു. OpenAI-MRCR എന്ന ദീർഘമായ സന്ദർഭ-വിവരങ്ങൾ വീണ്ടെടുക്കുന്നതിനുള്ള ഒരു അളവുകോലിൽ, GPT‑5, o3, GPT‑4.1 എന്നിവയെക്കാൾ മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു, കൂടുതൽ ഇൻപുട്ട് ദൈർഘ്യത്തിൽ ഈ വ്യത്യാസം ഗണ്യമായി വർദ്ധിക്കുന്നു.
OpenAI-MRCR(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) (മൾട്ടി-റൗണ്ട് കോ-റഫറൻസ് resolution) ൽ, ഒരേപോലുള്ള നിരവധി “സൂചി” ഉപയോക്താക്കളുടെ അഭ്യർത്ഥനകൾ സമാനമായ അഭ്യർത്ഥനകളുടെയും മറുപടികളുടെയും നീണ്ട “ഹേസ്റ്റാക്കുകളിൽ” ചേർക്കുന്നു, കൂടാതെ മോഡലിനോട് i-ആം സൂചിയിലേക്കുള്ള മറുപടി പുനരാവിഷ്കരിക്കാൻ ആവശ്യപ്പെടുന്നു. ശരാശരി പൊരുത്ത അനുപാതം മോഡലിന്റെ മറുപടിക്കും ശരിയായ ഉത്തരത്തിനും ഇടയിലുള്ള ശരാശരി സ്ട്രിംഗ് പൊരുത്ത അനുപാതം അളക്കുന്നു. 256k പരമാവധി ഇൻപുട്ട് ടോക്കൺ-കളിലെ പോയിന്റുകൾ 128k-256k ഇൻപുട്ട് ടോക്കൺ-കളിലെ ശരാശരികളെ പ്രതിനിധീകരിക്കുന്നു, തുടങ്ങിയവ. ഇവിടെ, 256k 256 * 1,024 = 262,144 tokenനെ പ്രതിനിധീകരിക്കുന്നു. റീസണിംഗ് മോഡലുകൾ ഉയർന്ന റീസണിംഗ് ശ്രമത്തോടെയാണ് പ്രവർത്തിപ്പിച്ചത്.
ദീർഘമായ സന്ദർഭ=ചോദ്യോത്തരങ്ങൾ വിലയിരുത്തുന്നതിനുള്ള ഒരു പുതിയ മാനദണ്ഡമായ BrowseComp Long Context(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഞങ്ങൾ ഓപ്പൺ സോഴ്സ് ചെയ്യുന്നു. ഈ ബെഞ്ച്മാർക്കിൽ, മോഡലിന് ഒരു ഉപയോക്തൃ അന്വേഷണം, പ്രസക്തമായ തിരയൽ ഫലങ്ങളുടെ ഒരു നീണ്ട പട്ടിക എന്നിവ നൽകിയിരിക്കുന്നു, കൂടാതെ തിരയൽ ഫലങ്ങളെ അടിസ്ഥാനമാക്കി ചോദ്യത്തിന് ഉത്തരം നൽകണം. ഞങ്ങൾ BrowseComp Long Context-നെ യാഥാർത്ഥ്യബോധമുള്ളതും, ബുദ്ധിമുട്ടുള്ളതും, വിശ്വസനീയമായി ശരിയായ അടിസ്ഥാന സത്യ ഉത്തരങ്ങൾ ഉള്ളതുമായിരിക്കാനാണ് രൂപകൽപ്പന ചെയ്തത്. 128K–256K token ഉള്ള ഇൻപുട്ടുകളിൽ, GPT‑5 89% സമയവും ശരിയായ ഉത്തരം നൽകുന്നു.
API-യിൽ, എല്ലാ GPT‑5 മോഡലുകൾക്കും പരമാവധി 272,000 ഇൻപുട്ട് ടോക്കണുകൾ സ്വീകരിക്കാനും പരമാവധി 128,000 റീസണിംഗ് & ഔട്ട്പുട്ട് tokenകൾ പുറപ്പെടുവിക്കാനും കഴിയും, ആകെ 400,000 tokenകളുടെ സന്ദർഭ-ദൈർഘ്യം.
GPT‑5 ഞങ്ങളുടെ മുൻ മോഡലുകളേക്കാൾ കൂടുതൽ വിശ്വസനീയമാണ്. LongFact, FactScore ബെഞ്ച്മാർക്കുകളിൽ നിന്നുള്ള പ്രോംപ്റ്റുകളിൽ, GPT‑5 o3‑നെക്കാൾ ~80% കുറവ് വസ്തുതാപരമായ പിശകുകൾ ഉണ്ടാക്കുന്നു. ഇത് കൃത്യത പ്രാധാന്യമുള്ള ഏജന്റിക് use caseന് - പ്രത്യേകിച്ച് code, data, തീരുമാനമെടുക്കൽ എന്നിവയിൽ - കൂടുതൽ അനുയോജ്യമാണ്.
ഉയർന്ന സ്കോറുകൾ മോശമാണ്. LongFact(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ലും FActScore(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ലും തുറന്നതും വ്യക്തവുമായ വസ്തുതാന്വേഷണ ചോദ്യങ്ങൾ അടങ്ങിയിരിക്കുന്നു. ഞങ്ങൾ ഈ ബെഞ്ച്മാർക്കുകളിൽ നിന്നുള്ള പ്രോംപ്റ്റുകളിലെ മറുപടി വസ്തുതാപരമായി പരിശോധിക്കുകയും വസ്തുതാപരമായി തെറ്റായ അവകാശങ്ങളുടെ അംശം അളക്കുകയും ചെയ്യാൻ ബ്രൗസിംഗ് ഉള്ള ഒരു LLM-അധിഷ്ഠിത ഗ്രേഡർ ഉപയോഗിക്കുന്നു. നടപ്പിലാക്കലിന്റെയും ഗ്രേഡിംഗ് ന്റെയും വിശദാംശങ്ങൾ സിസ്റ്റം കാർഡിൽ ലഭ്യമാണ്. റീസണിംഗ് മോഡലുകൾ ഉയർന്ന റീസണിംഗ് ശ്രമം ഉപയോഗിച്ചു. തിരയൽ പ്രവർത്തന സജ്ജമാക്കപ്പെട്ടിരുന്നില്ല.
സാധാരണയായി, GPT‑5 ന്റെ സ്വന്തം പരിമിതികളെക്കുറിച്ച് കൂടുതൽ സ്വയം അവബോധം നേടാനും അപ്രതീക്ഷിതമായ കർവ്ബോളുകൾ നന്നായി കൈകാര്യം ചെയ്യാനും പരിശീലനം നൽകിയിട്ടുണ്ട്. ഞങ്ങൾ ആരോഗ്യ ചോദ്യങ്ങളിൽ കൂടുതൽ കൃത്യതയോടെ പ്രവർത്തിക്കാൻ GPT‑5 നെ പരിശീലിപ്പിച്ചു (ഞങ്ങളുടെ ഗവേഷണ ബ്ലോഗിൽ കൂടുതൽ വായിക്കുക). എല്ലാ ഭാഷാ മോഡലുകളിലെയും പോലെ, അപകടസാധ്യതകൾ കൂടുതലായിരിക്കുമ്പോൾ GPT‑5 ന്റെ പ്രവർത്തനം സ്ഥിരീകരിക്കാൻ ഞങ്ങൾ ശുപാർശ ചെയ്യുന്നു.
ഡെവലപ്പർമാർക്ക് APIയിലെ reasoning_effort പാരാമീറ്റർ വഴി GPT‑5‑ന്റെ ചിന്താ സമയം നിയന്ത്രിക്കാൻ കഴിയും. മുൻ മൂല്യങ്ങൾക്ക് പുറമേlow, medium (ഡിഫോൾട്ട്), high— GPT‑5 minimal പിന്തുണയ്ക്കുന്നു, ഇത് GPT‑5 ന്റെ റീസണിംഗ് കുറയ്ക്കുകയും വേഗത്തിൽ ഉത്തരം നൽകുന്നതിന് സഹായിക്കുകയും ചെയ്യുന്നു.
ഉയർന്ന reasoning_effort മൂല്യങ്ങൾ ഗുണനിലവാരം പരമാവധിയാക്കുകയും കുറഞ്ഞ മൂല്യങ്ങൾ വേഗത പരമാവധിയാക്കുകയും ചെയ്യുന്നു. അധിക റീസണിംഗ് എല്ലാ ടാസ്കുകൾക്കും ഒരുപോലെ പ്രയോജനകരമല്ല, അതിനാൽ നിങ്ങൾ ശ്രദ്ധിക്കുന്ന use caseകൾക്ക് ഏതാണ് ഏറ്റവും നന്നായി പ്രവർത്തിക്കുന്നതെന്ന് കണ്ടെത്താൻ പരീക്ഷണം നടത്താൻ ഞങ്ങൾ ശുപാർശ ചെയ്യുന്നു.
ഉദാഹരണത്തിന്, low എന്നതിൽ മുകളിലുള്ള യുക്തി താരതമ്യേന ലളിതമായ ദീർഘകാല സന്ദർഭം വീണ്ടെടുക്കലിലേക്ക് കുറച്ച് മാത്രമേ ചേർക്കുന്നുള്ളൂ, പക്ഷേ CharXiv Reasoning(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) എന്ന വിഷ്വൽ റീസണിംഗ് ബെഞ്ച്മാർക്കിലേക്ക് വളരെ കുറച്ച് ശതമാനം പോയിന്റുകൾ ചേർക്കുന്നു.
GPT‑5 ന്റെ റീസണിംഗ് ശ്രമം വ്യത്യസ്ത ടാസ്കുകളിൽ വ്യത്യസ്ത നേട്ടങ്ങൾ നൽകുന്നു. CharXiv റീസണിംഗിനായി, GPT‑5‑ന് ഒരു പൈത്തൺ ഉപകരണത്തിലേക്ക് ആക്സസ് ലഭിച്ചു.
GPT‑5 ന്റെ ഉത്തരങ്ങളുടെ ഡിഫോൾട്ട് ദൈർഘ്യം നിയന്ത്രിക്കാൻ സഹായിക്കുന്നതിന്, ഞങ്ങൾ ഒരു പുതിയ API പാരാമീറ്റർ verbosity അവതരിപ്പിച്ചു, അത് low, medium (ഡിഫോൾട്ട്), high. എന്നിവയുടെ മൂല്യങ്ങൾ എടുക്കുന്നു. വ്യക്തമായ നിർദ്ദേശങ്ങൾ വെർബോസിറ്റി പാരാമീറ്ററുകളുമായി വൈരുദ്ധ്യമുണ്ടെങ്കിൽ, വ്യക്തമായ നിർദ്ദേശങ്ങൾ മുൻഗണന നൽകും. ഉദാഹരണത്തിന്, നിങ്ങൾ GPT‑5 നോട് "5 ഖണ്ഡികകളുള്ള ഒരു ഉപന്യാസം എഴുതാൻ" ആവശ്യപ്പെടുകയാണെങ്കിൽ, മോഡലിന്റെ മറുപടി എല്ലായ്പ്പോഴും വെർബോസിറ്റി ലെവൽ പരിഗണിക്കാതെ 5 ഖണ്ഡികകളായിരിക്കണം (എന്നിരുന്നാലും, ഖണ്ഡികകൾ ദൈർഘ്യമേറിയതോ ചെറുതോ ആകാം).
വാക്കുകളുടെ സമൃദ്ധി=കുറവ്
വാക്കുകളുടെ സമൃദ്ധി=ഇടത്തരം
വാക്കുകളുടെ സമൃദ്ധി=ഉയർന്നത്
നിർദ്ദേശം ലഭിച്ചാൽ, ടൂൾ കോളുകൾക്ക് മുമ്പും ഇടയിൽ ഉപയോക്താവിന് ദൃശ്യമായ ആമുഖ സന്ദേശങ്ങൾ GPT‑5 ഔട്ട്പുട്ട് ചെയ്യും. മറഞ്ഞിരിക്കുന്ന റീസണിംഗ് സന്ദേശങ്ങളിൽ നിന്ന് വ്യത്യസ്തമായി, ഈ ദൃശ്യ സന്ദേശങ്ങൾ GPT‑5‑ന് ഉപയോക്താവുമായി പദ്ധതികളും പുരോഗതിയും ആശയവിനിമയം നടത്താൻ അനുവദിക്കുന്നു, ഉപകരണ കോൾസിന് പിന്നിലെ സമീപനവും ഉദ്ദേശ്യവും മനസ്സിലാക്കാൻ അന്തിമ ഉപയോക്താക്കളെ സഹായിക്കുന്നു.
JSON-ന് പകരം പ്ലെയിൻടെക്സ്റ്റ് ഉള്ള ഒരു ടൂളിനെ വിളിക്കാൻ GPT‑5‑നെ അനുവദിക്കുന്ന ഒരു പുതിയ ടൂൾ തരം - കസ്റ്റം ടൂളുകൾ - ഞങ്ങൾ അവതരിപ്പിക്കുന്നു. ഇഷ്ടാനുസൃത ഉപകരണ ഫോർമാറ്റുകൾ പിന്തുടരാൻ GPT‑5‑നെ നിയന്ത്രിക്കാൻ, ഡെവലപ്പർമാർക്ക് ഒരു റീജെക്സ് അല്ലെങ്കിൽ കൂടുതൽ വിശദമായി നിർവചിച്ച സന്ദർഭം-രഹിത വ്യാകരണം(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) നൽകാം.
മുമ്പ്, ഡെവലപ്പർ നിർവചിച്ച ഉപകരണങ്ങൾക്കായുള്ള ഞങ്ങളുടെ ഇന്റർഫേസിന് അവയെ JSON ഉപയോഗിച്ച് വിളിക്കേണ്ടതുണ്ടായിരുന്നു, ഇത് വെബ് API-കളും ഡെവലപ്പർമാരും സാധാരണയായി ഉപയോഗിക്കുന്ന ഒരു സാധാരണ ഫോർമാറ്റാണ്. എന്നിരുന്നാലും, സാധുവായ JSON ഔട്ട്പുട്ട് ചെയ്യുന്നതിന് മോഡൽ എല്ലാ ഉദ്ധരണി ചിഹ്നങ്ങൾ, ബാക്ക്സ്ലാഷുകൾ, ന്യൂലൈനുകൾ, മറ്റ് നിയന്ത്രണ അക്ഷരങ്ങൾ എന്നിവയെ പൂർണ്ണമായും ഒഴിവാക്കണം. ഞങ്ങളുടെ മോഡലുകൾ JSON ഔട്ട്പുട്ട് ചെയ്യാൻ നന്നായി പരിശീലനം നേടിയിട്ടുണ്ടെങ്കിലും, നൂറുകണക്കിന് വരികളുള്ള code അല്ലെങ്കിൽ 5-പേജ് റിപ്പോർട്ട് പോലുള്ള നീണ്ട ഇൻപുട്ടുകളിൽ, പിശകുകൾ സംഭവിക്കാനുള്ള സാധ്യത വർദ്ധിക്കുന്നു. ഇഷ്ടാനുസൃത ഉപകരണങ്ങൾ ഉപയോഗിച്ച്, GPT‑5 ന് എസ്കേപ്പിംഗ് ആവശ്യമുള്ള എല്ലാ പ്രതീകങ്ങളിൽ നിന്നും രക്ഷപ്പെടാതെ തന്നെ ടൂൾ ഇൻപുട്ടുകൾ പ്ലെയിൻടെക്സ്റ്റായി എഴുതാൻ കഴിയും.
SWE-ബെഞ്ച് JSON ടൂളുകൾക്ക് പകരം കസ്റ്റം ടൂളുകൾ ഉപയോഗിച്ച് സ്ഥിരീകരിക്കുമ്പോൾ, GPT‑5 ഏകദേശം ഒരേ സ്കോർ നേടുന്നു.
GPT‑5 സുരക്ഷയുടെ പരിധി കൂടുതൽ മുന്നോട്ട് കൊണ്ടുപോകുകയും കൂടുതൽ കരുത്തുറ്റതും വിശ്വസനീയവും സഹായകരവുമായ ഒരു മോഡലായിരിക്കുന്നു. ഞങ്ങളുടെ മുൻ മോഡലുകളെ അപേക്ഷിച്ച് GPT‑5 ന് ഭ്രമാത്മകത ഉണ്ടാകാനുള്ള സാധ്യത വളരെ കുറവാണ്, അതിന്റെ നടപടികളും കഴിവുകളും കൂടുതൽ സത്യസന്ധമായി ഉപയോക്താവിനെ അറിയിക്കുകയും സുരക്ഷാ പരിധികൾക്കുള്ളിൽ തന്നെ തുടരുമ്പോൾ സാധ്യമാകുന്നിടത്തെല്ലാം ഏറ്റവും സഹായകരമായ ഉത്തരം നൽകുകയും ചെയ്യുന്നു. നിങ്ങൾക്ക് ഞങ്ങളുടെ ഗവേഷണ ബ്ലോഗിൽ കൂടുതൽ വായിക്കാം.
GPT‑5 ഇപ്പോൾ API പ്ലാറ്റ്ഫോമിൽ മൂന്ന് വലുപ്പങ്ങളിൽ ലഭ്യമാണ്: gpt-5, gpt-5-mini, gpt-5-nano. ഇത് മറുപടി API, ചാറ്റ് Completions API എന്നിവയിൽ ലഭ്യമാണ്, കൂടാതെ Codex CLI-ൽ ഡിഫോൾട്ടാണ്. GPT‑5 ന് $1.25/1M ഇൻപുട്ട് ടോക്കൺ-കൾക്കും $10/1M ഔട്ട്പുട്ട് ടോക്കൺ-കൾക്കും വിലയുണ്ട്, GPT‑5 mini ക്ക് $0.25/1M ഇൻപുട്ട് ടോക്കൺ-കൾക്കും $2/1M ഔട്ട്പുട്ട് ടോക്കൺ-കൾക്കും വിലയുണ്ട്, GPT‑5 nanoയ്ക്ക് $0.05/1M ഇൻപുട്ട് ടോക്കൺ-കൾക്കും $0.40/1M ഔട്ട്പുട്ട് ടോക്കൺ-കൾക്കും വിലയുണ്ട്.
ഈ മോഡലുകൾ reasoning_effort , verbosity API പാരാമീറ്ററുകൾ, കൂടാതെ ഇഷ്ടാനുസൃത ഉപകരണങ്ങൾ പിന്തുണയ്ക്കുന്നു. അവ സമാന്തര ഉപകരണ വിളികൾ, ഉൾക്കൊള്ളിച്ച ഉപകരണങ്ങൾ (വെബ് തിരയൽ, ഫയൽ തിരയൽ, ചിത്ര-സൃഷ്ടി എന്നിവയും കൂടുതൽ), കോർ API സവിശേഷതകൾ (സ്ട്രീമിംഗ്, സ്ട്രക്ചർഡ് ഔട്ട്പുട്ടുകൾ എന്നിവയും കൂടുതൽ), പ്രോംപ്റ്റ് കാഷിംഗ്, ബാച്ച് API പോലുള്ള ചെലവ് ലാഭിക്കുന്ന സവിശേഷതകൾ എന്നിവ പിന്തുണയ്ക്കുന്നു.
ChatGPT‑ൽ ഉപയോഗിക്കുന്ന നോൺ-റീസണിംഗ് പതിപ്പ് GPT‑5 API-ൽ gpt-5-ചാറ്റ്-latest എന്ന പേരിൽ ലഭ്യമാണ്, കൂടാതെ $1.25/1M ഇൻപുട്ട് ടോക്കൺ-കൾക്കും $10/1M ഔട്ട്പുട്ട് ടോക്കൺ-കൾക്കും വിലയുണ്ട്.
Microsoft 365 Copilot, Copilot, GitHub Copilot, Azure AI Foundry എന്നിവയുൾപ്പെടെ മൈക്രോസോഫ്റ്റ് പ്ലാറ്റ്ഫോമുകളിലുടനീളം GPT‑5 സമാരംഭിക്കുന്നു.
ആരംഭിക്കാൻ, GPT‑5 ഡോക്യുമെന്റേഷൻ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), വില വിശദാംശങ്ങൾ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), പ്രോംപ്റ്റിംഗ് ഗൈഡ്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) പരിശോധിക്കുക.
ബുദ്ധി
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94.6% | 91.1% | 85.2% | 88.9% | 92.7% | 46.4% | 40.2% | - |
| FrontierMath(with python tool only) | 26.3% | 22.1% | 9.6% | 15.8% | 15.4% | - | - | - |
| GPQA diamond(no tools) | 85.7% | 82.3% | 71.2% | 83.3% | 81.4% | 66.3% | 65.0% | 50.3% |
| HLE[1](no tools) | 24.8% | 16.7% | 8.7% | 20.2% | 14.7% | 5.4% | 3.7% | - |
| HMMT 2025(no tools) | 93.3% | 87.8% | 75.6% | 81.7% | 85.0% | 28.9% | 35.0% | - |
[1] ഞങ്ങളുടെ മുൻ ബ്ലോഗ് പോസ്റ്റിൽ റിപ്പോർട്ട് ചെയ്ത സംഖ്യകളിൽ ചെറിയ ഒരു വ്യത്യാസമുണ്ട്, കാരണം അവ HLE-യുടെ പഴയ പതിപ്പിൽ പ്രവർത്തിപ്പിക്കപ്പെട്ടവയാണ്.
മൾട്ടിമോഡൽ
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84.2% | 81.6% | 75.6% | 82.9% | 81.6% | 74.8% | 72.7% | 55.4% |
| MMMU-Pro(avg across standard and vision sets) | 78.4% | 74.1% | 62.6% | 76.4% | 73.4% | 60.3% | 58.9% | 33.0% |
| CharXiv reasoning(python enabled) | 81.1% | 75.5% | 62.7% | 78.6% | 72.0% | 56.7% | 56.8% | 40.5% |
| VideoMMMU, max frame 256 | 84.6% | 82.5% | 66.8% | 83.3% | 79.4% | 60.9% | 55.1% | 30.2% |
| ERQA | 65.7% | 62.9% | 50.1% | 64.0% | 56.5% | 44.3% | 42.3% | 26.5% |
കോഡിംഗ്
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | $112K | $75K | $49K | $86K | $66K | $34K | $31K | $9K |
| SWE-bench Verified[2] | 74.9% | 71.0% | 54.7% | 69.1% | 68.1% | 54.6% | 23.6% | - |
| Aider polyglot(diff) | 88.0% | 71.6% | 48.4% | 79.6% | 58.2% | 52.9% | 31.6% | 6.2% |
[2] ഞങ്ങളുടെ അടിസ്ഥാന സൗകര്യത്തിൽ പ്രവർത്തിക്കാൻ കഴിയാത്ത 23/500 പ്രശ്നങ്ങൾ ഞങ്ങൾ ഒഴിവാക്കുന്നു. ഒഴിവാക്കിയ 23 ടാസ്കുകളുടെ പൂർണ്ണ പട്ടിക 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', 'sphinx-doc__sphinx-9367' എന്നിവയാണ്.
നിർദ്ദേശം പിന്തുടരൽ
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69.6% | 62.3% | 54.9% | 60.4% | 57.5% | 46.2% | 42.2% | 31.1% |
| Internal API instruction following eval(hard) | 64.0% | 65.8% | 56.1% | 47.4% | 44.7% | 49.1% | 45.1% | 31.6% |
| COLLIE | 99.0% | 98.5% | 96.9% | 98.4% | 96.1% | 65.8% | 54.6% | 42.5% |
[3] കുറിപ്പ്: MultiChallenge (GPT-4o)-ലെ ഡിഫോൾട്ട് ഗ്രേഡർ പതിവായി മോഡൽ മറുപടികൾ തെറ്റായി സ്കോർ ചെയ്യുന്നതായി ഞങ്ങൾ കണ്ടെത്തുന്നു. ഒരു o3-mini പോലുള്ള റീസണിംഗ് മോഡലിലേക്ക് ഗ്രേഡർ മാറ്റുന്നത്, ഞങ്ങൾ പരിശോധിച്ച സാമ്പിളുകളിലെ ഗ്രേഡിംഗിലെ കൃത്യത ഗണ്യമായി മെച്ചപ്പെടുത്തുന്നുവെന്ന് ഞങ്ങൾ മനസിലാക്കുന്നു.
ഫംഗ്ഷൻ കോളിംഗ്
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62.6% | 60.0% | 41.0% | 64.8% | 60.2% | 56.0% | 51.0% | 14.0% |
| Tau2-bench retail | 81.1% | 78.3% | 62.3% | 80.2% | 70.5% | 74.0% | 66.0% | 21.5% |
| Tau2-bench telecom | 96.7% | 74.1% | 35.5% | 58.2% | 40.5% | 34.0% | 44.0% | 12.1% |
ദീർഘമായ സന്ദർഭം
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95.2% | 84.3% | 43.2% | 55.0% | 56.4% | 57.2% | 47.2% | 36.6% |
| OpenAI-MRCR: 2 needle 256k | 86.8% | 58.8% | 34.9% | - | - | 56.2% | 45.5% | 22.6% |
| Graphwalks bfs <128k | 78.3% | 73.4% | 64.0% | 77.3% | 62.3% | 61.7% | 61.7% | 25.0% |
| Graphwalks parents <128k | 73.3% | 64.3% | 43.8% | 72.9% | 51.1% | 58.0% | 60.5% | 9.4% |
| BrowseComp Long Context 128k | 90.0% | 89.4% | 80.4% | 88.3% | 80.0% | 85.9% | 89.0% | 89.4% |
| BrowseComp Long Context 256k | 88.8% | 86.0% | 68.4% | - | - | 75.5% | 81.6% | 19.1% |
| VideoMME(long, with subtitle category) | 86.7% | 78.5% | 65.7% | 84.9% | 79.5% | 78.7% | 68.4% | 55.2% |
മതിഭ്രമങ്ങൾ
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1.0% | 0.7% | 1.0% | 5.2% | 3.0% | 0.7% | 1.1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1.2% | 1.3% | 2.8% | 6.8% | 8.9% | 1.1% | 1.8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2.8% | 3.5% | 7.3% | 23.5% | 38.7% | 6.7% | 10.9% | - |


