പ്രധാന ഉള്ളടക്കത്തിലേക്ക് നീങ്ങുക
OpenAI

2025 ഓഗസ്റ്റ് 7

Product

ഡെവലപ്പർമാർക്കായുള്ള GPT‑5 അവതരിപ്പിക്കുന്നു

കോഡിംഗ്, ഏജന്റിക് ടാസ്കുകൾക്കുള്ള മികച്ച മോഡൽ.

ലോഡിംഗ്…

ആമുഖം

ഇന്ന്, ഞങ്ങൾ ഞങ്ങളുടെ API പ്ലാറ്റ്ഫോമിൽ GPT‑5 പുറത്തിറക്കുന്നു—കോഡിംഗിനും ഏജന്റിക് ടാസ്കുകൾക്കുമുള്ള ഞങ്ങളുടെ ഇതുവരെ ഏറ്റവും മികച്ച മോഡൽ.

പ്രധാന കോഡിംഗ് ബെഞ്ച്മാർക്കുകളിൽ GPT‑5 അത്യാധുനിക (SOTA) ആണ്, SWE-bench സ്ഥിരീകരണത്തിൽ 74.9% ഉം Aider polyglot-ൽ 88% ഉം സ്കോർ നേടി. ഒരു യഥാർത്ഥ കോഡിംഗ് സഹകാരിയാകാൻ ഞങ്ങൾ GPT‑5 നെ പരിശീലിപ്പിച്ചു. ഉയർന്ന നിലവാരമുള്ള code നിർമ്മിക്കുന്നതിലും ബഗുകൾ പരിഹരിക്കൽ, code എഡിറ്റ് ചെയ്യൽ, സങ്കീർണ്ണമായ codebaseകളെക്കുറിച്ചുള്ള ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകൽ തുടങ്ങിയ ടാസ്ക്-കൾ കൈകാര്യം ചെയ്യുന്നതിലും ഇത് മികവ് പുലർത്തുന്നു. ഈ മോഡൽ നിയന്ത്രിക്കാവുന്നതും സഹകരണപരവുമാണ് - ഉയർന്ന കൃത്യതയോടെ വളരെ വിശദമായ നിർദ്ദേശങ്ങൾ പാലിക്കാനും ടൂൾ കോളുകൾക്ക് മുമ്പും ശേഷവും അതിന്റെ നടപടികളെക്കുറിച്ച് മുൻകൂട്ടി വിശദീകരണങ്ങൾ നൽകാനും ഇതിന് കഴിയും.  ഫ്രണ്ട് എൻഡ് കോഡിംഗിലും മോഡൽ മികവ് പുലർത്തുന്നു, ഫ്രണ്ടെൻഡ് വെബ് ഡെവലപ്മെന്റിൽ OpenAI o3‑നെ തോൽപ്പിക്കുന്നു ആന്തരിക പരിശോധനയിൽ 70% സമയം.

സ്റ്റാർട്ടപ്പുകളിലും സംരംഭങ്ങളിലും ആദ്യകാല പരീക്ഷകരുമായി സഹകരിച്ച് യഥാർത്ഥ കോഡിംഗ് ടാസ്ക്-കളിൽ ഞങ്ങൾ GPT‑5‑ന് പരിശീലനം നൽകി. Cursor പറയുന്നത് GPT‑5 "[അവർ] ഉപയോഗിച്ചതിൽ വച്ച് ഏറ്റവും സ്മാർട്ട് മോഡൽ" ആണെന്നും "അതിശയകരമാംവിധം ബുദ്ധിമാനും, എളുപ്പത്തിൽ നിയന്ത്രിക്കാനും കഴിയുന്നതും, മറ്റ് മോഡലുകളിൽ [അവർ] കണ്ടിട്ടില്ലാത്ത ഒരു വ്യക്തിത്വം പോലും ഉള്ളതുമാണ്" എന്നാണ്. Windsurf പങ്കിട്ട GPT‑5 അവരുടെ വിലയിരുത്തലുകളിൽ SOTA ആണ്, കൂടാതെ "മറ്റ് ഫ്രണ്ടിയർ മോഡലുകളെ അപേക്ഷിച്ച് പിശക് നിരക്ക് വിളിക്കുന്നതിന്റെ പകുതി ടൂൾ ഉണ്ട്." Vercel പറയുന്നത്: "ഇത് ഏറ്റവും മികച്ച ഫ്രണ്ട് എൻഡ് AI മോഡലാണ്, സൗന്ദര്യബോധത്തിലും code ഗുണനിലവാരത്തിലും മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു, അതിനെ അതിന്റേതായ ഒരു വിഭാഗത്തിൽ ഉൾപ്പെടുത്തുന്നു."

GPT‑5 ദീർഘകാല ഏജന്റ് ടാസ്കുകളിൽ മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു—τ2-ബെഞ്ച് ടെലികോമിൽ (96.7%) SOTA ഫലങ്ങൾ കൈവരിക്കുന്നു, ഇത് 2 മാസം മുമ്പ് പുറത്തിറക്കിയ ഒരു ടൂൾ-കോളിംഗ് ബെഞ്ച്മാർക്കാണ്. GPT‑5 ന്റെ മെച്ചപ്പെടുത്തിയ ടൂൾ ഇന്റലിജൻസ്, വഴി തെറ്റാതെ ക്രമത്തിലും സമാന്തരമായും ഡസൻ കണക്കിന് ടൂൾ കോളുകളെ വിശ്വസനീയമായി ബന്ധിപ്പിക്കാൻ അനുവദിക്കുന്നു, ഇത് സങ്കീർണ്ണവും യഥാർത്ഥവുമായ ടാസ്ക്-കൾ അവസാനം മുതൽ അവസാനം വരെ നിർവ്വഹിക്കുന്നതിൽ മികച്ചതാക്കുന്നു. ഇത് ഉപകരണ നിർദ്ദേശങ്ങൾ കൂടുതൽ കൃത്യമായി പാലിക്കുന്നു, ഉപകരണ പിശകുകൾ കൈകാര്യം ചെയ്യുന്നതിൽ മികച്ചതാണ്, കൂടാതെ ദീർഘകാല സന്ദർഭ ഉള്ളടക്കം വീണ്ടെടുക്കുന്നതിൽ മികച്ചതാണ്. Manus പറയുന്നു, "GPT‑5 [അവരുടെ] ആന്തരിക ബെഞ്ച്മാർക്കുകളിൽ ഒരൊറ്റ മോഡലിൽ നിന്ന് ഇതുവരെ [അവർ] കണ്ടിട്ടില്ലാത്ത ഏറ്റവും മികച്ച പ്രകടനം കൈവരിച്ചു." Notion പറയുന്നു, “[മോഡലിന്റെ] ദ്രുത മറുപടികൾ, പ്രത്യേകിച്ച് കുറഞ്ഞ റീസണിംഗ് മോഡിൽ, സങ്കീർണ്ണമായ ടാസ്കുകൾ ഒറ്റയടിക്ക് പരിഹരിക്കേണ്ടിവരുമ്പോൾ GPT‑5 ഒരു മികച്ച മോഡലാണ്.” Inditex പങ്കുവെച്ചത്: "[GPT‑5] നെ യഥാർത്ഥത്തിൽ വ്യത്യസ്തമാക്കുന്നത് അതിന്റെ റീസണിംഗ് ന്റെ ആഴമാണ്: യഥാർത്ഥ വിഷയ ധാരണയെ പ്രതിഫലിപ്പിക്കുന്ന സൂക്ഷ്മവും ബഹുതലങ്ങളുമായ ഉത്തരങ്ങൾ."

ഡെവലപ്പർമാർക്ക് മോഡൽ മറുപടികളിൽ കൂടുതൽ നിയന്ത്രണം നൽകുന്നതിനായി ഞങ്ങൾ API-യിൽ പുതിയ സവിശേഷതകൾ അവതരിപ്പിക്കുന്നു. ഉത്തരങ്ങൾ ഹ്രസ്വവും പോയിന്റുമായി പൊരുത്തപ്പെടുന്നതുമാണോ അതോ ദീർഘവും സമഗ്രവുമാണോ എന്ന് നിയന്ത്രിക്കാൻ സഹായിക്കുന്നതിന് GPT‑5 ഒരു പുതിയ verbosity പാരാമീറ്റർ (മൂല്യങ്ങൾ: low, medium, high) പിന്തുണയ്ക്കുന്നു. വിശദമായ റീസണിംഗ് ആദ്യം ചെയ്യാതെ തന്നെ, ഉത്തരങ്ങൾ വേഗത്തിൽ തിരികെ ലഭിക്കുന്നതിന് GPT‑5 ന്റെ reasoning_effort പാരാമീറ്ററിന് ഇപ്പോൾ ഒരു കുറഞ്ഞ മൂല്യം എടുക്കാൻ കഴിയും. ഞങ്ങൾ JSON-ന് പകരം പ്ലെയിൻടെക്സ്റ്റ് ഉപയോഗിച്ച് GPT‑5 ടൂളുകളെ വിളിക്കാൻ അനുവദിക്കുന്ന ഒരു പുതിയ ഉപകരണ തരം - കസ്റ്റം ഉപകരണങ്ങൾ - ചേർത്തിട്ടുണ്ട്. ഇഷ്ടാനുസൃത ഉപകരണങ്ങൾ ഡെവലപ്പർ നൽകിയ സന്ദർഭരഹിത വ്യാകരണങ്ങളുടെ നിയന്ത്രണത്തെ പിന്തുണയ്ക്കുന്നു.

ഡെവലപ്പർമാർക്ക് പ്രകടനം, ചെലവ്, ലേറ്റൻസി എന്നിവയിൽ കൂടുതൽ വഴക്കമുള്ള ട്രേഡ് ഓഫുകൾ നൽകുന്നതിന്, ഞങ്ങൾ API-യിൽgpt-5, gpt-5-mini, gpt-5-nanoഎന്നീ മൂന്ന് വലുപ്പങ്ങളിൽ GPT‑5 പുറത്തിറക്കുന്നു. ChatGPTയിലെ GPT‑5 റീസണിംഗ്, നോൺ-റീസണിംഗ്, റൂട്ടർ മോഡലുകളുടെ ഒരു സംവിധാനമാണെങ്കിലും, ChatGPTയിലെ പരമാവധി പ്രകടനത്തിന് ശക്തി പകരുന്ന റീസണിംഗ് മോഡലാണ് API പ്ലാറ്റ്ഫോമിലെ GPT‑5. ശ്രദ്ധേയമായി, കുറഞ്ഞ റീസണിംഗ് ഉള്ള GPT‑5, ChatGPTയിലെ നോൺ-റീസണിംഗ് മോഡലിനേക്കാൾ വ്യത്യസ്തമാണ്, കൂടാതെ ഇത് ഡെവലപ്പർമാർക്ക് മികച്ച രീതിയിൽ ട്യൂൺ ചെയ്യപ്പെട്ടിരിക്കുന്നു. ChatGPT‑ൽ ഉപയോഗിക്കുന്ന നോൺ-റീസണിംഗ് മോഡൽ gpt-5-ചാറ്റ്-latest എന്ന പേരിൽ ലഭ്യമാണ്.

ChatGPT‑ൽ GPT‑5‑നെക്കുറിച്ച് വായിക്കാനും മറ്റ് ChatGPT മെച്ചപ്പെടുത്തലുകളെക്കുറിച്ച് കൂടുതലറിയാനും, ഞങ്ങളുടെ ഗവേഷണ ബ്ലോഗ് കാണുക. GPT‑5 ഉപയോഗിക്കാൻ സംരംഭങ്ങൾ എങ്ങനെ ആവേശഭരിതരാകുന്നു എന്നതിനെക്കുറിച്ച് കൂടുതലറിയാൻ, ഞങ്ങളുടെ എന്റർപ്രൈസ് ബ്ലോഗ് കാണുക.

കോഡിംഗ്

GPT‑5 ഞങ്ങൾ ഇതുവരെ പുറത്തിറക്കിയ ഏറ്റവും ശക്തമായ കോഡിംഗ് മോഡലാണ്. ഇത് കോഡിംഗ് ബെഞ്ച്മാർക്കുകളിലും യഥാർത്ഥ ലോക ഉപയോഗ കേസുകളിലും o3 നെ മറികടക്കുന്നു, കൂടാതെ Cursor, Windsurf, GitHub Copilot, Codex CLI പോലുള്ള ഏജന്റിക് കോഡിംഗ് ഉൽപ്പന്നങ്ങളിൽ തിളങ്ങാൻ ഫൈൻ-ട്യൂൺ ചെയ്തിട്ടുണ്ട്. GPT‑5 ഞങ്ങളുടെ ആൽഫ ടെസ്റ്റർമാരെ ആകർഷിച്ചു, അവരുടെ പല സ്വകാര്യ ആന്തരിക വിലയിരുത്തലുകളിൽ റെക്കോർഡുകൾ സൃഷ്ടിച്ചു. 

യഥാർത്ഥ ലോക കോഡിംഗ് ടാസ്കുകൾക്കായുള്ള GPT‑5‑നെക്കുറിച്ചുള്ള പ്രാരംഭ ഫീഡ്ബാക്ക്

ഞങ്ങൾ ഉപയോഗിച്ച ഏറ്റവും ബുദ്ധിമാനായ കോഡിംഗ് മോഡലാണ് GPT-5. ഞങ്ങളുടെ Team GPT-5-നെ അസാധാരണമാംവിധം ബുദ്ധിമാനായും, എളുപ്പത്തിൽ നിയന്ത്രിക്കാവുന്നതുമായ, മറ്റൊരു മോഡലിലും കാണാത്ത ഒരു വ്യക്തിത്വമുള്ളതായും കണ്ടെത്തി. ഇത് വെല്ലുവിളിയേറിയ, ആഴത്തിൽ മറഞ്ഞിരിക്കുന്ന ബഗുകളെ പിടികൂടുക മാത്രമല്ല, സങ്കീർണ്ണമായ ടാസ്കുകൾ പൂർത്തിയാക്കാൻ നീണ്ട, മൾട്ടി-ടേൺ പശ്ചാത്തല ഏജൻ്റുകൾ പ്രവർത്തിപ്പിക്കാനും കഴിയും - മറ്റ് മോഡലുകൾ കുടുങ്ങിയിരുന്ന പ്രശ്നങ്ങൾ. സ്കോപ്പിംഗ്, PRകൾ ആസൂത്രണം ചെയ്യൽ എന്നിവ മുതൽ എൻഡ്-ടു-എൻഡ് ബിൽഡുകൾ പൂർത്തിയാക്കുന്നത് വരെയുള്ള എല്ലാത്തിനും ഇത് ഞങ്ങളുടെ ദൈനംദിന ഉപകരണമായി മാറിയിരിക്കുന്നു.
Michael Truell, Cursorയുടെ സഹസ്ഥാപകനും CEOയും

യഥാർത്ഥ ലോക സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗ് ടാസ്കുകൾ അടിസ്ഥാനമാക്കിയ SWE-bench സ്ഥിരീകരണത്തിൽ, GPT‑5 74.9% സ്കോർ നേടി, o3 യുടെ 69.1% നെ മറികടന്നു. ശ്രദ്ധേയമായി, GPT‑5 അതിന്റെ ഉയർന്ന സ്കോർ കൂടുതൽ കാര്യക്ഷമതയോടും വേഗതയോടും കൂടി നേടുന്നു: ഉയർന്ന റീസണിംഗ് ശ്രമത്തിൽ o3 നെ അപേക്ഷിച്ച്, GPT‑5 22% കുറവ് ഔട്ട്പുട്ട് ടോക്കൺ-കളും 45% കുറവ് ടൂൾ കോളുകളും ഉപയോഗിക്കുന്നു.

SWE-bench സ്ഥിരീകരിക്കുക എന്നതിൽ, ഒരു മോഡലിന് code ശേഖരണവും പ്രശ്ന വിവരണവും ലഭിക്കുന്നു, കൂടാതെ പ്രശ്നം പരിഹരിക്കുന്നതിന് ഒരു പാച്ച് സൃഷ്ടിക്കണം. Text ലേബലുകൾ റീസണിംഗ് ശ്രമത്തെ സൂചിപ്പിക്കുന്നു. ഞങ്ങളുടെ അടിസ്ഥാന സൗകര്യത്തിൽ വിശ്വസനീയമായി പരിഹാരങ്ങൾ കൈമാറാൻ കഴിയാത്ത 500 പ്രശ്നങ്ങളിൽ 23 എണ്ണം ഞങ്ങളുടെ സ്കോറുകളിൽ നിന്ന് ഒഴിവാക്കി. പരിഹാരങ്ങൾ സമഗ്രമായി സ്ഥിരീകരിക്കുന്നതിന് ഊന്നൽ നൽകുന്ന ഒരു ചെറിയ പ്രോംപ്റ്റ് GPT‑5 ന് നൽകി; അതേ പ്രോംപ്റ്റ് o3 ന് ഗുണം ചെയ്തില്ല.

Code എഡിറ്റിംഗിന്റെ മൂല്യനിർണ്ണയമായ Aider polyglotൽ, GPT‑5 88% എന്ന പുതിയ റെക്കോർഡ് സ്ഥാപിച്ചു, ഇത് o3 നെ അപേക്ഷിച്ച് പിശക് നിരക്കിൽ മൂന്നിലൊന്ന് കുറവാണ്.

Aider polygot(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) (ഡിഫ്) ൽ, ഒരു മോഡലിന് Exercism-ൽ നിന്ന് ഒരു കോഡിംഗ് വ്യായാമം നൽകുകയും അതിന്റെ പരിഹാരം ഒരു code ഡിഫ് ആയി എഴുതുകയും വേണം. റീസണിംഗ് മോഡലുകൾ ഉയർന്ന റീസണിംഗ് ശ്രമത്തോടെയാണ് പ്രവർത്തിപ്പിച്ചത്.

ഞങ്ങൾ GPT‑5 codebaseകളിലേക്ക് ആഴത്തിൽ ചെന്ന് വിവിധ ഭാഗങ്ങൾ എങ്ങനെ പ്രവർത്തിക്കുന്നു അല്ലെങ്കിൽ പരസ്പരം പ്രവർത്തിക്കുന്നു എന്നതിനെക്കുറിച്ചുള്ള ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകുന്നതിൽ മികച്ചതാണെന്ന് കണ്ടെത്തി. OpenAIയുടെ റീഇൻഫോഴ്സ്മെന്‍റ് ലേണിംഗ് സ്റ്റാക്ക് പോലെ ഇത്രയും സങ്കീർണമായ ഒരു codebaseൽ, നമ്മുടെ സ്വന്തം ദൈനംദിന പ്രവർത്തനങ്ങളെ വേഗത്തിലാക്കുന്നതിനായി codeനെ കുറിച്ചുള്ള ചോദ്യങ്ങൾക്ക് ഉത്തരങ്ങൾ കണ്ടെത്താനും GPT‑5 നമ്മെ സഹായിക്കുന്നു.. 

ഫ്രണ്ട് എൻഡ് എഞ്ചിനീയറിംഗ്

വെബ് ആപ്പുകൾക്കായി ഫ്രണ്ട് എൻഡ് code നിർമ്മിക്കുമ്പോൾ, GPT‑5 കൂടുതൽ സൗന്ദര്യബോധമുള്ളതും, ആകാംക്ഷയുള്ളതും കൃത്യവുമാണ്. അടുത്തടുത്ത താരതമ്യം o3‑നൊപ്പം ചെയ്യുമ്പോൾ, ഞങ്ങളുടെ പരീക്ഷകർ 70% സമയവും GPT‑5‑നെ ഇഷ്ടപ്പെട്ടു.

ഒരൊറ്റ പ്രോംപ്റ്റ് ഉപയോഗിച്ച് GPT‑5 എന്തുചെയ്യാൻ കഴിയുമെന്നതിന്റെ രസകരമായ, തിരഞ്ഞെടുത്ത ചില ഉദാഹരണങ്ങൾ ഇതാ:

Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.

GPT‑5 ന്റെ കൂടുതൽ ഉദാഹരണങ്ങൾ ഞങ്ങളുടെ ഗാലറിയിൽ ഇവിടെ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കാണുക.

കോഡിംഗ് സഹകരണം

GPT‑5 ഒരു മികച്ച സഹകാരിയാണ്, പ്രത്യേകിച്ച് Cursor, Windsurf, GitHub Copilot, Codex CLI പോലുള്ള ഏജന്റിക് കോഡിംഗ് ഉൽപ്പന്നങ്ങളിൽ. ഇത് പ്രവർത്തിക്കുന്ന സമയത്ത്, ടൂൾ കോളുകൾക്കിടയിൽ പദ്ധതികൾ, അപ്ഡേറ്റുകൾ, റീക്യാപ്പുകൾ എന്നിവ GPT‑5 ഔട്ട്പുട്ട് ചെയ്യാൻ കഴിയും. ഞങ്ങളുടെ മുൻകാല മോഡലുകളെ അപേക്ഷിച്ച്, മുന്നോട്ട് പോകാൻ താൽക്കാലികമായി നിർത്താതെയോ ഉയർന്ന സങ്കീർണ്ണതയിൽ മടിച്ചുനിൽക്കാതെയോ അഭിലഷണീയമായ ടാസ്ക്-കൾ പൂർത്തിയാക്കുന്നതിൽ GPT‑5 കൂടുതൽ മുൻകൈയെടുക്കുന്നു.

സങ്കീർണ്ണമായ ഒരു ടാസ്ക് കൈകാര്യം ചെയ്യുമ്പോൾ (ഈ സാഹചര്യത്തിൽ, ഒരു റെസ്റ്റോറന്റിനായി ഒരു വെബ്സൈറ്റ് സൃഷ്ടിക്കുമ്പോൾ) GPT‑5 എങ്ങനെയിരിക്കാമെന്നതിന്റെ ഒരു ഉദാഹരണം ഇതാ:

ഉപയോക്താവ് അവരുടെ റെസ്റ്റോറന്റിനായി ഒരു വെബ് സൈറ്റ് ആവശ്യപ്പെട്ട ശേഷം, GPT‑5 ഒരു ദ്രുത പദ്ധതി പങ്കിടുന്നു, ആപ്പ് സ്കഫോൾഡ് ചെയ്യുന്നു, ആശ്രിതത്വങ്ങൾ ഇൻസ്റ്റാൾ ചെയ്യുന്നു, സൈറ്റ് ഉള്ളടക്കം സൃഷ്ടിക്കുന്നു, സമാഹാര പിശകുകൾ പരിശോധിക്കാൻ ഒരു ബിൽഡ് പ്രവർത്തിപ്പിക്കുന്നു, അതിന്റെ പ്രവർത്തനം സംഗ്രഹിക്കുന്നു, അടുത്തത് ഘട്ടങ്ങൾ നിർദ്ദേശിക്കുന്നു. ഈ വീഡിയോ ~3x വേഗത്തിലാക്കിയിരിക്കുന്നു, നിങ്ങളുടെ കാത്തിരിപ്പ് സംരക്ഷിക്കാൻ; വെബ്സൈറ്റ് സൃഷ്ടിക്കാൻ മുഴുവൻ സമയവും ഏകദേശം മൂന്ന് മിനിറ്റായിരുന്നു.

ഏജന്റിക് ടാസ്കുകൾ

ഏജന്റിക് കോഡിംഗിനപ്പുറം, GPT‑5 പൊതുവെ ഏജന്റിക് ടാസ്കുകളിൽ മികച്ചതാണ്. GPT‑5 ഇൻസ്ട്രക്ഷൻ ഫോളോവിംഗ് (o3‑mini ഗ്രേഡ് ചെയ്ത സ്കെയിൽ മൾട്ടിചലഞ്ചിൽ 69.6%) കൂടാതെ ടൂൾ കോളിംഗ് (τ2-ബെഞ്ച് ടെലികോമിൽ 96.7%) എന്നിവയുടെ ബെഞ്ച്മാർക്കുകളിൽ പുതിയ റെക്കോർഡുകൾ സ്ഥാപിച്ചു. മെച്ചപ്പെട്ട ഉപകരണ ബുദ്ധി GPT‑5‑ന് യഥാർത്ഥ ലോകത്തിലെ ടാസ്കുകൾ പൂർത്തിയാക്കുന്നതിനായി നടപടികൾ കൂടുതൽ വിശ്വസനീയമായി ബന്ധിപ്പിക്കാൻ അനുവദിക്കുന്നു.

ഏജന്റിക് ടാസ്കുകൾക്കായുള്ള GPT‑5‑നുള്ള ആദ്യകാല ഫീഡ്ബാക്ക്

“GPT-5 ഒരു വലിയ മുന്നേറ്റമാണ്. ഇത് ഞങ്ങളുടെ ആന്തരിക ബെഞ്ച്മാർക്കുകളിൽ ഒരൊറ്റ മോഡലിൽ നിന്ന് ഞങ്ങൾ കണ്ട ഏറ്റവും മികച്ച പ്രകടനം നേടി. GPT-5 വിവിധ ഏജന്റിക് ടാസ്കുകളിൽ മികവ് പുലർത്തി - ഞങ്ങൾ codeന്റെ ഒരു വരി പോലും മാറ്റുകയോ ഒരു പ്രോംപ്റ്റ് രൂപപ്പെടുത്തുകയോ ചെയ്യുന്നതിന് മുമ്പ് തന്നെ. പുതിയ ആമുഖങ്ങളും ഉപകരണ ഉപയോഗത്തിലുള്ള കൂടുതൽ കൃത്യമായ നിയന്ത്രണവും ഞങ്ങളുടെ ഏജൻ്റുമാരുടെ സ്ഥിരതയിലും നിയന്ത്രണത്തിലും പ്രവർത്തന സജ്ജമാക്കി ഗണ്യമായ കുതിച്ചുചാട്ടം സാധ്യമാക്കി.
Manusലെ സഹസ്ഥാപകനും ചീഫ് സയന്റിസ്റ്റുമായ യിYichao ‘Peak’ Ji

നിർദ്ദേശം പിന്തുടരൽ

GPT‑5 അതിന്റെ മുൻഗാമികളെ അപേക്ഷിച്ച് നിർദ്ദേശങ്ങൾ കൂടുതൽ വിശ്വസനീയമായി പാലിക്കുന്നു, COLLIE, Scale MultiChallenge, ഞങ്ങളുടെ ആന്തരിക നിർദ്ദേശ പാലന പരിശോധന എന്നിവയിൽ ഉയർന്ന സ്കോർ നേടുന്നു.

COLLIE(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ൽ, മോഡലുകൾ വിവിധ നിയന്ത്രണങ്ങൾ പാലിക്കുന്ന വാചകം എഴുതേണ്ടതുണ്ട്. Scale MultiChallenge(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), മൾട്ടി-ടേൺ സംഭാഷണങ്ങളിൽ മോഡലുകളെ മുൻ സന്ദേശങ്ങളിൽ നിന്നുള്ള നാല് തരം വിവരങ്ങൾ ശരിയായി ഉപയോഗിക്കാൻ വെല്ലുവിളിക്കുന്നു. GPT‑4o നേക്കാൾ കൃത്യമായിരുന്ന o3‑mini ഗ്രേഡറായി ഉപയോഗിച്ചതിൽ നിന്നാണ് ഞങ്ങൾക്ക് സ്കോറുകൾ ലഭിച്ചത്. ഞങ്ങളുടെ ആന്തരിക OpenAI API നിർദ്ദേശം പിന്തുടരുന്ന മൂല്യനിർണ്ണയത്തിൽ, യഥാർത്ഥ ഡെവലപ്പർ ഫീഡ്ബാക്കിൽ നിന്ന് ലഭിച്ച ബുദ്ധിമുട്ടുള്ള നിർദ്ദേശങ്ങൾ മോഡലുകൾ പാലിക്കണം. റീസണിംഗ് മോഡലുകൾ ഉയർന്ന റീസണിംഗ് ശ്രമത്തോടെയാണ് പ്രവർത്തിപ്പിച്ചത്.

ടൂൾ കോളിംഗ്

ഡെവലപ്പർമാർക്ക് പ്രാധാന്യമുള്ള രീതിയിൽ ടൂൾ കോളിംഗ് മെച്ചപ്പെടുത്താൻ ഞങ്ങൾ കഠിനമായി പ്രവർത്തിച്ചു. ടൂൾ നിർദ്ദേശങ്ങൾ പാലിക്കുന്നതിലും, ടൂൾ പിശകുകൾ കൈകാര്യം ചെയ്യുന്നതിലും, നിരവധി ടൂൾ കോളുകൾ അനുക്രമത്തിലോ സമാന്തരമായോ മുൻകൂട്ടി നടത്തുന്നതിലും GPT‑5 മികച്ചതാണ്. നിർദ്ദേശം ലഭിക്കുമ്പോൾ, ദൈർഘ്യമേറിയ ഏജന്റിക് ടാസ്ക്-കളുടെ പുരോഗതിയെക്കുറിച്ച് ഉപയോക്താക്കളെ അറിയിക്കുന്നതിന്, ടൂൾ കോളുകൾക്ക് മുമ്പും ശേഷവും ആമുഖ സന്ദേശങ്ങൾ ഔട്ട്പുട്ട് ചെയ്യാനും GPT‑5‑ന് കഴിയും.

രണ്ട് മാസം മുമ്പ്, ഉപയോക്താക്കൾക്ക് മാറ്റാൻ കഴിയുന്ന ഒരു പരിസ്ഥിതി അവസ്ഥയുമായി ഇടപഴകുമ്പോൾ ഭാഷാ മോഡൽ പ്രകടനം എങ്ങനെ ഗണ്യമായി കുറയുന്നുവെന്ന് എടുത്തുകാണിക്കുന്ന വെല്ലുവിളി നിറഞ്ഞ ഉപകരണ ഉപയോഗ മാനദണ്ഡമായി Sierra.ai τ2-ബെഞ്ച് ടെലികോം പ്രസിദ്ധീകരിച്ചു. അവരുടെ പ്രസിദ്ധീകരണത്തിൽ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), ഒരു മോഡലും 49% ന് മുകളിൽ സ്കോർ ചെയ്തിട്ടില്ല. GPT‑5 97% സ്കോർ നേടി.

τ2-ബെഞ്ച്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), ഒരു മോഡൽ ഉപകരണങ്ങൾ ഉപയോഗിച്ച് ഉപഭോക്തൃ സേവന ടാസ്ക് പൂർത്തിയാക്കണം, അവിടെ ലോകത്തിന്റെ അവസ്ഥയെക്കുറിച്ച് ആശയവിനിമയം നടത്താനും നടപടികൾ സ്വീകരിക്കാനും കഴിയുന്ന ഒരു ഉപയോക്താവ് ഉണ്ടായിരിക്കാം. റീസണിംഗ് മോഡലുകൾ ഉയർന്ന റീസണിംഗ് ശ്രമത്തോടെയാണ് പ്രവർത്തിപ്പിച്ചത്.

നീണ്ട സന്ദർഭ-പ്രകടനത്തിലും GPT‑5 ശക്തമായ മെച്ചപ്പെടുത്തലുകൾ കാണിക്കുന്നു. OpenAI-MRCR എന്ന ദീർഘമായ സന്ദർഭ-വിവരങ്ങൾ വീണ്ടെടുക്കുന്നതിനുള്ള ഒരു അളവുകോലിൽ, GPT‑5, o3, GPT‑4.1 എന്നിവയെക്കാൾ മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു, കൂടുതൽ ഇൻപുട്ട് ദൈർഘ്യത്തിൽ ഈ വ്യത്യാസം ഗണ്യമായി വർദ്ധിക്കുന്നു.

OpenAI-MRCR(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) (മൾട്ടി-റൗണ്ട് കോ-റഫറൻസ് resolution) ൽ, ഒരേപോലുള്ള നിരവധി “സൂചി” ഉപയോക്താക്കളുടെ അഭ്യർത്ഥനകൾ സമാനമായ അഭ്യർത്ഥനകളുടെയും മറുപടികളുടെയും നീണ്ട “ഹേസ്റ്റാക്കുകളിൽ” ചേർക്കുന്നു, കൂടാതെ മോഡലിനോട് i-ആം സൂചിയിലേക്കുള്ള മറുപടി പുനരാവിഷ്കരിക്കാൻ ആവശ്യപ്പെടുന്നു. ശരാശരി പൊരുത്ത അനുപാതം മോഡലിന്റെ മറുപടിക്കും ശരിയായ ഉത്തരത്തിനും ഇടയിലുള്ള ശരാശരി സ്ട്രിംഗ് പൊരുത്ത അനുപാതം അളക്കുന്നു. 256k പരമാവധി ഇൻപുട്ട് ടോക്കൺ-കളിലെ പോയിന്റുകൾ 128k-256k ഇൻപുട്ട് ടോക്കൺ-കളിലെ ശരാശരികളെ പ്രതിനിധീകരിക്കുന്നു, തുടങ്ങിയവ. ഇവിടെ, 256k 256 * 1,024 = 262,144 tokenനെ പ്രതിനിധീകരിക്കുന്നു. റീസണിംഗ് മോഡലുകൾ ഉയർന്ന റീസണിംഗ് ശ്രമത്തോടെയാണ് പ്രവർത്തിപ്പിച്ചത്.

ദീർഘമായ സന്ദർഭ=ചോദ്യോത്തരങ്ങൾ വിലയിരുത്തുന്നതിനുള്ള ഒരു പുതിയ മാനദണ്ഡമായ BrowseComp Long Context(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഞങ്ങൾ ഓപ്പൺ സോഴ്സ് ചെയ്യുന്നു. ഈ ബെഞ്ച്മാർക്കിൽ, മോഡലിന് ഒരു ഉപയോക്തൃ അന്വേഷണം, പ്രസക്തമായ തിരയൽ ഫലങ്ങളുടെ ഒരു നീണ്ട പട്ടിക എന്നിവ നൽകിയിരിക്കുന്നു, കൂടാതെ തിരയൽ ഫലങ്ങളെ അടിസ്ഥാനമാക്കി ചോദ്യത്തിന് ഉത്തരം നൽകണം. ഞങ്ങൾ BrowseComp Long Context-നെ യാഥാർത്ഥ്യബോധമുള്ളതും, ബുദ്ധിമുട്ടുള്ളതും, വിശ്വസനീയമായി ശരിയായ അടിസ്ഥാന സത്യ ഉത്തരങ്ങൾ ഉള്ളതുമായിരിക്കാനാണ് രൂപകൽപ്പന ചെയ്തത്. 128K–256K token ഉള്ള ഇൻപുട്ടുകളിൽ, GPT‑5 89% സമയവും ശരിയായ ഉത്തരം നൽകുന്നു.

API-യിൽ, എല്ലാ GPT‑5 മോഡലുകൾക്കും പരമാവധി 272,000 ഇൻപുട്ട് ടോക്കണുകൾ സ്വീകരിക്കാനും പരമാവധി 128,000 റീസണിംഗ് & ഔട്ട്പുട്ട് tokenകൾ പുറപ്പെടുവിക്കാനും കഴിയും, ആകെ 400,000 tokenകളുടെ സന്ദർഭ-ദൈർഘ്യം.

വസ്തുത

GPT‑5 ഞങ്ങളുടെ മുൻ മോഡലുകളേക്കാൾ കൂടുതൽ വിശ്വസനീയമാണ്. LongFact, FactScore ബെഞ്ച്മാർക്കുകളിൽ നിന്നുള്ള പ്രോംപ്റ്റുകളിൽ, GPT‑5 o3‑നെക്കാൾ ~80% കുറവ് വസ്തുതാപരമായ പിശകുകൾ ഉണ്ടാക്കുന്നു. ഇത് കൃത്യത പ്രാധാന്യമുള്ള ഏജന്റിക് use caseന് - പ്രത്യേകിച്ച് code, data, തീരുമാനമെടുക്കൽ എന്നിവയിൽ - കൂടുതൽ അനുയോജ്യമാണ്.

ഉയർന്ന സ്കോറുകൾ മോശമാണ്. LongFact(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ലും FActScore(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ലും തുറന്നതും വ്യക്തവുമായ വസ്തുതാന്വേഷണ ചോദ്യങ്ങൾ അടങ്ങിയിരിക്കുന്നു. ഞങ്ങൾ ഈ ബെഞ്ച്മാർക്കുകളിൽ നിന്നുള്ള പ്രോംപ്റ്റുകളിലെ മറുപടി വസ്തുതാപരമായി പരിശോധിക്കുകയും വസ്തുതാപരമായി തെറ്റായ അവകാശങ്ങളുടെ അംശം അളക്കുകയും ചെയ്യാൻ ബ്രൗസിംഗ് ഉള്ള ഒരു LLM-അധിഷ്ഠിത ഗ്രേഡർ ഉപയോഗിക്കുന്നു. നടപ്പിലാക്കലിന്റെയും ഗ്രേഡിംഗ് ന്റെയും വിശദാംശങ്ങൾ സിസ്റ്റം കാർഡിൽ ലഭ്യമാണ്. റീസണിംഗ് മോഡലുകൾ ഉയർന്ന റീസണിംഗ് ശ്രമം ഉപയോഗിച്ചു. തിരയൽ പ്രവർത്തന സജ്ജമാക്കപ്പെട്ടിരുന്നില്ല.

സാധാരണയായി, GPT‑5 ന്റെ സ്വന്തം പരിമിതികളെക്കുറിച്ച് കൂടുതൽ സ്വയം അവബോധം നേടാനും അപ്രതീക്ഷിതമായ കർവ്ബോളുകൾ നന്നായി കൈകാര്യം ചെയ്യാനും പരിശീലനം നൽകിയിട്ടുണ്ട്. ഞങ്ങൾ ആരോഗ്യ ചോദ്യങ്ങളിൽ കൂടുതൽ കൃത്യതയോടെ പ്രവർത്തിക്കാൻ GPT‑5 നെ പരിശീലിപ്പിച്ചു (ഞങ്ങളുടെ ഗവേഷണ ബ്ലോഗിൽ കൂടുതൽ വായിക്കുക). എല്ലാ ഭാഷാ മോഡലുകളിലെയും പോലെ, അപകടസാധ്യതകൾ കൂടുതലായിരിക്കുമ്പോൾ GPT‑5 ന്റെ പ്രവർത്തനം സ്ഥിരീകരിക്കാൻ ഞങ്ങൾ ശുപാർശ ചെയ്യുന്നു.

പുതിയ സവിശേഷതകൾ

കുറഞ്ഞ റീസണിംഗ് ശ്രമം

ഡെവലപ്പർമാർക്ക് APIയിലെ reasoning_effort പാരാമീറ്റർ വഴി GPT‑5‑ന്റെ ചിന്താ സമയം നിയന്ത്രിക്കാൻ കഴിയും. മുൻ മൂല്യങ്ങൾക്ക് പുറമേlow, medium (ഡിഫോൾട്ട്), high— GPT‑5 minimal പിന്തുണയ്ക്കുന്നു, ഇത് GPT‑5 ന്റെ റീസണിംഗ് കുറയ്ക്കുകയും വേഗത്തിൽ ഉത്തരം നൽകുന്നതിന് സഹായിക്കുകയും ചെയ്യുന്നു.

ഉയർന്ന reasoning_effort മൂല്യങ്ങൾ ഗുണനിലവാരം പരമാവധിയാക്കുകയും കുറഞ്ഞ മൂല്യങ്ങൾ വേഗത പരമാവധിയാക്കുകയും ചെയ്യുന്നു. അധിക റീസണിംഗ് എല്ലാ ടാസ്കുകൾക്കും ഒരുപോലെ പ്രയോജനകരമല്ല, അതിനാൽ നിങ്ങൾ ശ്രദ്ധിക്കുന്ന use caseകൾക്ക് ഏതാണ് ഏറ്റവും നന്നായി പ്രവർത്തിക്കുന്നതെന്ന് കണ്ടെത്താൻ പരീക്ഷണം നടത്താൻ ഞങ്ങൾ ശുപാർശ ചെയ്യുന്നു.

ഉദാഹരണത്തിന്, low എന്നതിൽ മുകളിലുള്ള യുക്തി താരതമ്യേന ലളിതമായ ദീർഘകാല സന്ദർഭം വീണ്ടെടുക്കലിലേക്ക് കുറച്ച് മാത്രമേ ചേർക്കുന്നുള്ളൂ, പക്ഷേ CharXiv Reasoning(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) എന്ന വിഷ്വൽ റീസണിംഗ് ബെഞ്ച്മാർക്കിലേക്ക് വളരെ കുറച്ച് ശതമാനം പോയിന്റുകൾ ചേർക്കുന്നു.

GPT‑5 ന്റെ റീസണിംഗ് ശ്രമം വ്യത്യസ്ത ടാസ്കുകളിൽ വ്യത്യസ്ത നേട്ടങ്ങൾ നൽകുന്നു. CharXiv റീസണിംഗിനായി, GPT‑5‑ന് ഒരു പൈത്തൺ ഉപകരണത്തിലേക്ക് ആക്സസ് ലഭിച്ചു.

വെർബോസിറ്റി

GPT‑5 ന്റെ ഉത്തരങ്ങളുടെ ഡിഫോൾട്ട് ദൈർഘ്യം നിയന്ത്രിക്കാൻ സഹായിക്കുന്നതിന്, ഞങ്ങൾ ഒരു പുതിയ API പാരാമീറ്റർ verbosity അവതരിപ്പിച്ചു, അത് low, medium (ഡിഫോൾട്ട്), high. എന്നിവയുടെ മൂല്യങ്ങൾ എടുക്കുന്നു. വ്യക്തമായ നിർദ്ദേശങ്ങൾ വെർബോസിറ്റി പാരാമീറ്ററുകളുമായി വൈരുദ്ധ്യമുണ്ടെങ്കിൽ, വ്യക്തമായ നിർദ്ദേശങ്ങൾ മുൻഗണന നൽകും. ഉദാഹരണത്തിന്, നിങ്ങൾ GPT‑5 നോട് "5 ഖണ്ഡികകളുള്ള ഒരു ഉപന്യാസം എഴുതാൻ" ആവശ്യപ്പെടുകയാണെങ്കിൽ, മോഡലിന്റെ മറുപടി എല്ലായ്പ്പോഴും വെർബോസിറ്റി ലെവൽ പരിഗണിക്കാതെ 5 ഖണ്ഡികകളായിരിക്കണം (എന്നിരുന്നാലും, ഖണ്ഡികകൾ ദൈർഘ്യമേറിയതോ ചെറുതോ ആകാം).

വാക്കുകളുടെ സമൃദ്ധി=കുറവ്

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

വാക്കുകളുടെ സമൃദ്ധി=ഇടത്തരം

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

വാക്കുകളുടെ സമൃദ്ധി=ഉയർന്നത്

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

ടൂൾ കോളുകൾക്ക് മുമ്പുള്ള ആമുഖ സന്ദേശങ്ങൾ

നിർദ്ദേശം ലഭിച്ചാൽ, ടൂൾ കോളുകൾക്ക് മുമ്പും ഇടയിൽ ഉപയോക്താവിന് ദൃശ്യമായ ആമുഖ സന്ദേശങ്ങൾ GPT‑5 ഔട്ട്പുട്ട് ചെയ്യും. മറഞ്ഞിരിക്കുന്ന റീസണിംഗ് സന്ദേശങ്ങളിൽ നിന്ന് വ്യത്യസ്തമായി, ഈ ദൃശ്യ സന്ദേശങ്ങൾ GPT‑5‑ന് ഉപയോക്താവുമായി പദ്ധതികളും പുരോഗതിയും ആശയവിനിമയം നടത്താൻ അനുവദിക്കുന്നു, ഉപകരണ കോൾസിന് പിന്നിലെ സമീപനവും ഉദ്ദേശ്യവും മനസ്സിലാക്കാൻ അന്തിമ ഉപയോക്താക്കളെ സഹായിക്കുന്നു.

ഇഷ്ടാനുസൃത ഉപകരണങ്ങൾ

JSON-ന് പകരം പ്ലെയിൻടെക്സ്റ്റ് ഉള്ള ഒരു ടൂളിനെ വിളിക്കാൻ GPT‑5‑നെ അനുവദിക്കുന്ന ഒരു പുതിയ ടൂൾ തരം - കസ്റ്റം ടൂളുകൾ - ഞങ്ങൾ അവതരിപ്പിക്കുന്നു. ഇഷ്ടാനുസൃത ഉപകരണ ഫോർമാറ്റുകൾ പിന്തുടരാൻ GPT‑5‑നെ നിയന്ത്രിക്കാൻ, ഡെവലപ്പർമാർക്ക് ഒരു റീജെക്സ് അല്ലെങ്കിൽ കൂടുതൽ വിശദമായി നിർവചിച്ച സന്ദർഭം-രഹിത വ്യാകരണം(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) നൽകാം.

മുമ്പ്, ഡെവലപ്പർ നിർവചിച്ച ഉപകരണങ്ങൾക്കായുള്ള ഞങ്ങളുടെ ഇന്റർഫേസിന് അവയെ JSON ഉപയോഗിച്ച് വിളിക്കേണ്ടതുണ്ടായിരുന്നു, ഇത് വെബ് API-കളും ഡെവലപ്പർമാരും സാധാരണയായി ഉപയോഗിക്കുന്ന ഒരു സാധാരണ ഫോർമാറ്റാണ്. എന്നിരുന്നാലും, സാധുവായ JSON ഔട്ട്പുട്ട് ചെയ്യുന്നതിന് മോഡൽ എല്ലാ ഉദ്ധരണി ചിഹ്നങ്ങൾ, ബാക്ക്സ്ലാഷുകൾ, ന്യൂലൈനുകൾ, മറ്റ് നിയന്ത്രണ അക്ഷരങ്ങൾ എന്നിവയെ പൂർണ്ണമായും ഒഴിവാക്കണം. ഞങ്ങളുടെ മോഡലുകൾ JSON ഔട്ട്പുട്ട് ചെയ്യാൻ നന്നായി പരിശീലനം നേടിയിട്ടുണ്ടെങ്കിലും, നൂറുകണക്കിന് വരികളുള്ള code അല്ലെങ്കിൽ 5-പേജ് റിപ്പോർട്ട് പോലുള്ള നീണ്ട ഇൻപുട്ടുകളിൽ, പിശകുകൾ സംഭവിക്കാനുള്ള സാധ്യത വർദ്ധിക്കുന്നു. ഇഷ്ടാനുസൃത ഉപകരണങ്ങൾ ഉപയോഗിച്ച്, GPT‑5 ന് എസ്കേപ്പിംഗ് ആവശ്യമുള്ള എല്ലാ പ്രതീകങ്ങളിൽ നിന്നും രക്ഷപ്പെടാതെ തന്നെ ടൂൾ ഇൻപുട്ടുകൾ പ്ലെയിൻടെക്സ്റ്റായി എഴുതാൻ കഴിയും.

SWE-ബെഞ്ച് JSON ടൂളുകൾക്ക് പകരം കസ്റ്റം ടൂളുകൾ ഉപയോഗിച്ച് സ്ഥിരീകരിക്കുമ്പോൾ, GPT‑5 ഏകദേശം ഒരേ സ്കോർ നേടുന്നു.

സുരക്ഷാ

GPT‑5 സുരക്ഷയുടെ പരിധി കൂടുതൽ മുന്നോട്ട് കൊണ്ടുപോകുകയും കൂടുതൽ കരുത്തുറ്റതും വിശ്വസനീയവും സഹായകരവുമായ ഒരു മോഡലായിരിക്കുന്നു. ഞങ്ങളുടെ മുൻ മോഡലുകളെ അപേക്ഷിച്ച് GPT‑5 ന് ഭ്രമാത്മകത ഉണ്ടാകാനുള്ള സാധ്യത വളരെ കുറവാണ്, അതിന്റെ നടപടികളും കഴിവുകളും കൂടുതൽ സത്യസന്ധമായി ഉപയോക്താവിനെ അറിയിക്കുകയും സുരക്ഷാ പരിധികൾക്കുള്ളിൽ തന്നെ തുടരുമ്പോൾ സാധ്യമാകുന്നിടത്തെല്ലാം ഏറ്റവും സഹായകരമായ ഉത്തരം നൽകുകയും ചെയ്യുന്നു. നിങ്ങൾക്ക് ഞങ്ങളുടെ ഗവേഷണ ബ്ലോഗിൽ കൂടുതൽ വായിക്കാം.

ലഭ്യതയും വിലനിർണ്ണയം

GPT‑5 ഇപ്പോൾ API പ്ലാറ്റ്ഫോമിൽ മൂന്ന് വലുപ്പങ്ങളിൽ ലഭ്യമാണ്: gpt-5, gpt-5-mini, gpt-5-nano. ഇത് മറുപടി API, ചാറ്റ് Completions API എന്നിവയിൽ ലഭ്യമാണ്, കൂടാതെ Codex CLI-ൽ ഡിഫോൾട്ടാണ്. GPT‑5 ന് $1.25/1M ഇൻപുട്ട് ടോക്കൺ-കൾക്കും $10/1M ഔട്ട്പുട്ട് ടോക്കൺ-കൾക്കും വിലയുണ്ട്, GPT‑5 mini ക്ക് $0.25/1M ഇൻപുട്ട് ടോക്കൺ-കൾക്കും $2/1M ഔട്ട്പുട്ട് ടോക്കൺ-കൾക്കും വിലയുണ്ട്, GPT‑5 nanoയ്ക്ക് $0.05/1M ഇൻപുട്ട് ടോക്കൺ-കൾക്കും $0.40/1M ഔട്ട്പുട്ട് ടോക്കൺ-കൾക്കും വിലയുണ്ട്.

ഈ മോഡലുകൾ reasoning_effort , verbosity API പാരാമീറ്ററുകൾ, കൂടാതെ ഇഷ്ടാനുസൃത ഉപകരണങ്ങൾ പിന്തുണയ്ക്കുന്നു. അവ സമാന്തര ഉപകരണ വിളികൾ, ഉൾക്കൊള്ളിച്ച ഉപകരണങ്ങൾ (വെബ് തിരയൽ, ഫയൽ തിരയൽ, ചിത്ര-സൃഷ്ടി എന്നിവയും കൂടുതൽ), കോർ API സവിശേഷതകൾ (സ്ട്രീമിംഗ്, സ്ട്രക്ചർഡ് ഔട്ട്പുട്ടുകൾ എന്നിവയും കൂടുതൽ), പ്രോംപ്റ്റ് കാഷിംഗ്, ബാച്ച് API പോലുള്ള ചെലവ് ലാഭിക്കുന്ന സവിശേഷതകൾ എന്നിവ പിന്തുണയ്ക്കുന്നു.

ChatGPT‑ൽ ഉപയോഗിക്കുന്ന നോൺ-റീസണിംഗ് പതിപ്പ് GPT‑5 API-ൽ gpt-5-ചാറ്റ്-latest എന്ന പേരിൽ ലഭ്യമാണ്, കൂടാതെ $1.25/1M ഇൻപുട്ട് ടോക്കൺ-കൾക്കും $10/1M ഔട്ട്പുട്ട് ടോക്കൺ-കൾക്കും വിലയുണ്ട്.

Microsoft 365 Copilot, Copilot, GitHub Copilot, Azure AI Foundry എന്നിവയുൾപ്പെടെ മൈക്രോസോഫ്റ്റ് പ്ലാറ്റ്ഫോമുകളിലുടനീളം GPT‑5 സമാരംഭിക്കുന്നു.

വിശദമായ ബെഞ്ച്മാർക്കുകൾ

ബുദ്ധി
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94.6%91.1%85.2%88.9%92.7%46.4%40.2%-
FrontierMath(with python tool only)26.3%22.1%9.6%15.8%15.4%---
GPQA diamond(no tools)85.7%82.3%71.2%83.3%81.4%66.3%65.0%50.3%
HLE[1](no tools)24.8%16.7%8.7%20.2%14.7%5.4%3.7%-
HMMT 2025(no tools)93.3%87.8%75.6%81.7%85.0%28.9%35.0%-

[1] ഞങ്ങളുടെ മുൻ ബ്ലോഗ് പോസ്റ്റിൽ റിപ്പോർട്ട് ചെയ്ത സംഖ്യകളിൽ ചെറിയ ഒരു വ്യത്യാസമുണ്ട്, കാരണം അവ HLE-യുടെ പഴയ പതിപ്പിൽ പ്രവർത്തിപ്പിക്കപ്പെട്ടവയാണ്.

മൾട്ടിമോഡൽ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84.2%81.6%75.6%82.9%81.6%74.8%72.7%55.4%
MMMU-Pro(avg across standard and vision sets)78.4%74.1%62.6%76.4%73.4%60.3%58.9%33.0%
CharXiv reasoning(python enabled)81.1%75.5%62.7%78.6%72.0%56.7%56.8%40.5%
VideoMMMU, max frame 25684.6%82.5%66.8%83.3%79.4%60.9%55.1%30.2%
ERQA65.7%62.9%50.1%64.0%56.5%44.3%42.3%26.5%
കോഡിംഗ്
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks$112K$75K$49K$86K$66K$34K$31K$9K
SWE-bench Verified[2]74.9%71.0%54.7%69.1%68.1%54.6%23.6%-
Aider polyglot(diff)88.0%71.6%48.4%79.6%58.2%52.9%31.6%6.2%

[2] ഞങ്ങളുടെ അടിസ്ഥാന സൗകര്യത്തിൽ പ്രവർത്തിക്കാൻ കഴിയാത്ത 23/500 പ്രശ്നങ്ങൾ ഞങ്ങൾ ഒഴിവാക്കുന്നു. ഒഴിവാക്കിയ 23 ടാസ്കുകളുടെ പൂർണ്ണ പട്ടിക 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', 'sphinx-doc__sphinx-9367' എന്നിവയാണ്.

നിർദ്ദേശം പിന്തുടരൽ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69.6%62.3%54.9%60.4%57.5%46.2%42.2%31.1%
Internal API instruction following eval(hard)64.0%65.8%56.1%47.4%44.7%49.1%45.1%31.6%
COLLIE99.0%98.5%96.9%98.4%96.1%65.8%54.6%42.5%

[3] കുറിപ്പ്: MultiChallenge (GPT-4o)-ലെ ഡിഫോൾട്ട് ഗ്രേഡർ പതിവായി മോഡൽ മറുപടികൾ തെറ്റായി സ്കോർ ചെയ്യുന്നതായി ഞങ്ങൾ കണ്ടെത്തുന്നു. ഒരു o3-mini പോലുള്ള റീസണിംഗ് മോഡലിലേക്ക് ഗ്രേഡർ മാറ്റുന്നത്, ഞങ്ങൾ പരിശോധിച്ച സാമ്പിളുകളിലെ ഗ്രേഡിംഗിലെ കൃത്യത ഗണ്യമായി മെച്ചപ്പെടുത്തുന്നുവെന്ന് ഞങ്ങൾ മനസിലാക്കുന്നു.

ഫംഗ്ഷൻ കോളിംഗ്
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62.6%60.0%41.0%64.8%60.2%56.0%51.0%14.0%
Tau2-bench retail81.1%78.3%62.3%80.2%70.5%74.0%66.0%21.5%
Tau2-bench telecom96.7%74.1%35.5%58.2%40.5%34.0%44.0%12.1%
ദീർഘമായ സന്ദർഭം
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95.2%84.3%43.2%55.0%56.4%57.2%47.2%36.6%
OpenAI-MRCR: 2 needle 256k86.8%58.8%34.9%--56.2%45.5%22.6%
Graphwalks bfs <128k78.3%73.4%64.0%77.3%62.3%61.7%61.7%25.0%
Graphwalks parents <128k73.3%64.3%43.8%72.9%51.1%58.0%60.5%9.4%
BrowseComp Long Context 128k90.0%89.4%80.4%88.3%80.0%85.9%89.0%89.4%
BrowseComp Long Context 256k88.8%86.0%68.4%--75.5%81.6%19.1%
VideoMME(long, with subtitle category)86.7%78.5%65.7%84.9%79.5%78.7%68.4%55.2%
മതിഭ്രമങ്ങൾ
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1.0%0.7%1.0%5.2%3.0%0.7%1.1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1.2%1.3%2.8%6.8%8.9%1.1%1.8%-
FActScore hallucination rate(no tools)[lower is better]2.8%3.5%7.3%23.5%38.7%6.7%10.9%-

രചയിതാവ്

OpenAI