2026 മാർച്ച് 5

GPT‑5.4 അവതരിപ്പിക്കുന്നു

പ്രൊഫഷണൽ ജോലിക്കായി രൂപകൽപ്പന ചെയ്തിരിക്കുന്നു.

ലോഡിംഗ്…

ഇന്ന്, ഞങ്ങൾ ChatGPT‑ൽ GPT‑5.4 പുറത്തിറക്കുന്നു (GPT‑5.4 Thinking എന്ന പേരില്‍), API, Codex എന്നിവയില്‍. പ്രൊഫഷണൽ ജോലികൾക്കായി ഞങ്ങളുടെ ഏറ്റവും കഴിവുള്ളതും കാര്യക്ഷമവുമായ അത്യാധുനിക മോഡൽ. സങ്കീർണ്ണ ടാസ്കുകളിൽ പരമാവധി പ്രകടനം ആവശ്യമുള്ളവര്‍ക്കായി, ChatGPT‑ലും API-ലും ഞങ്ങൾ GPT‑5.4 Pro കൂടി പുറത്തിറക്കുന്നു.

GPT‑5.4 റീസണിംഗ്, കോഡിംഗ്, ഏജന്റിക് പ്രവാഹങ്ങൾ എന്നിവയിലെ ഞങ്ങളുടെ അടുത്തകാലത്തെ മികച്ച പുരോഗതികളെ ഒരൊറ്റ അത്യാധുനിക മോഡലിൽ കോര്‍ത്തിണക്കിയിരിക്കുന്നു. ഇത് GPT‑5.3‑Codex⁠ ന്റെ വ്യവസായത്തിലെ മുൻനിര കോഡിംഗ് കഴിവുകൾ ഉൾക്കൊള്ളുന്നു. കൂടാതെ, ഉപകരണങ്ങൾ, സോഫ്റ്റ്‌വെയർ പരിതസ്ഥിതികൾ, സ്പ്രെഡ്ഷീറ്റുകൾ, പ്രെസന്റേഷനുകൾ, ഡോക്യുമെന്റുകൾ എന്നിവ ഉൾപ്പെടുന്ന പ്രൊഫഷണൽ ടാസ്കുകളിലുടനീളം മോഡൽ പ്രവർത്തനക്ഷമത മെച്ചപ്പെടുത്തുന്നു. കൃത്യമായും, ഫലപ്രദമായും, കാര്യക്ഷമമായും സങ്കീർണ്ണമായ ജോലികൾ ചെയ്തുതീർക്കുന്ന ഒരു മോഡലാണ് ഇതിന്റെ ഫലം, കുറഞ്ഞ ആശയവിനിമയത്തോടെ നിങ്ങൾ ആവശ്യപ്പെട്ടതെല്ലാം നൽകുന്നു.

ChatGPT‑ൽ, GPT‑5.4 Thinking-ന് ഇനി അതിന്റെ ചിന്താരീതിയുടെ ഒരു മുൻകൂർ പദ്ധതി നൽകാൻ കഴിയും, അതിനാൽ അത് പ്രവർത്തിക്കുന്ന സമയത്ത് നിങ്ങൾക്ക് പ്രതികരണത്തിനിടയിൽ ദിശ ക്രമീകരിക്കാനും കഴിയും, കൂടാതെ അധിക ടേൺസ് ഇല്ലാതെ തന്നെ നിങ്ങൾക്ക് ആവശ്യത്തിനു കൂടുതൽ അടുത്തായി പൊരുത്തപ്പെടുന്ന അന്തിമ ഔട്ട്പുട്ടിൽ എത്താനും കഴിയും. GPT‑5.4 Thinking ഡീപ്പ് വെബ് ഗവേഷണം മെച്ചപ്പെടുത്തുകയും ചെയ്യുന്നു, പ്രത്യേകിച്ച് വളരെ പ്രത്യേകമായ ക്വെറികൾക്കായി, കൂടാതെ കൂടുതൽ ദൈർഘ്യമുള്ള ചിന്ത ആവശ്യമായ ചോദ്യങ്ങൾക്ക് സന്ദർഭം കൂടുതൽ നന്നായി നിലനിർത്തുകയും ചെയ്യുന്നു. ഒരുമിച്ച്, ഈ മെച്ചപ്പെടുത്തലുകൾ ഉയർന്ന ഗുണനിലവാരമുള്ള ഉത്തരങ്ങൾ കൂടുതൽ വേഗത്തിൽ ലഭിക്കാനും നിലവിലെ ടാസ്കില്‍ പ്രസക്തമായി തുടരാനും സഹായിക്കുന്നു.

Codex-ലും API-ലും, GPT‑5.4 ഞങ്ങൾ പുറത്തിറക്കിയ ആദ്യത്തെ പൊതുവായ ഉപയോഗത്തിനുള്ള മോഡലാണ്; അത്യാധുനിക കമ്പ്യൂട്ടർ ഉപയോഗ ശേഷികൾ സ്വാഭാവികമായി ഉൾക്കൊള്ളുന്നതിലൂടെ, ഏജന്റുകൾക്ക് കമ്പ്യൂട്ടറുകൾ പ്രവർത്തിപ്പിക്കാനും ആപ്ലിക്കേഷനുകളിലുടനീളം സങ്കീർണ്ണമായ വർക്ക്‌ഫ്ലോകൾ നടപ്പിലാക്കാനും കഴിയും. ഇത് ഇതിന് ഒരു മില്യൺ ടോക്കണുകൾ വരെയുള്ള കോൺടെക്സ്റ്റ് പിന്തുണയുണ്ട്, വലിയ കാന്‍വാസില്‍ ഏജന്റുകളെ ടാസ്കുകൾ പ്ലാൻ ചെയ്യാനും, നടപ്പിലാക്കാനും, സ്ഥിരീകരിക്കാനും അനുവദിക്കുന്നു. GPT‑5.4, ടൂൾ തിരയൽ ഉപയോഗിച്ച്, ഉപകരണങ്ങളുടെയും കണക്ടറുകളുടെയും വലിയ ഇക്കോസിസ്റ്റങ്ങളിലുടനീളം മോഡലുകൾ പ്രവർത്തിക്കുന്ന രീതി കൂടി മെച്ചപ്പെടുത്തുന്നു; ബുദ്ധിശക്തി നഷ്ടപ്പെടാതെ ഏജന്റുകളെ ശരിയായ ഉപകരണങ്ങൾ കൂടുതൽ കാര്യക്ഷമമായി കണ്ടെത്താനും ഉപയോഗിക്കാനും ഇത് സഹായിക്കുന്നു. അവസാനമായി, GPT‑5.4 ഞങ്ങളുടെ ഏറ്റവും ടോക്കൺ കാര്യക്ഷമമായ റീസണിംഗ് മോഡൽ ആണ്, GPT‑5.2 നെ അപേക്ഷിച്ച് പ്രശ്നങ്ങൾ പരിഹരിക്കാൻ ഗണ്യമായി കുറവ് ടോക്കൺ-കൾ മാത്രം ഉപയോഗിക്കുന്നു—അങ്ങനെ ടോക്കൺ ഉപയോഗം കുറയുകയും വേഗത വർധിക്കുകയും ചെയ്യുന്നു.

പൊതുവായ റീസണിംഗ്, കോഡിംഗ്, പ്രൊഫഷണൽ വിജ്ഞാന ജോലികളിലെ പുരോഗതികളോടൊപ്പം, GPT‑5.4 ChatGPT, the API, Codex എന്നിവയിലുടനീളം കൂടുതൽ വിശ്വസനീയമായ ഏജന്റുകൾ, വേഗതയേറിയ ഡെവലപ്പർ വർക്ക്‌ഫ്ലോകൾ, ഉയർന്ന നിലവാരമുള്ള ഔട്ട്പുട്ടുകൾ എന്നിവ സാധ്യമാക്കുന്നു.

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (വിജയങ്ങൾ അല്ലെങ്കിൽ സമനില)	83.0%	70.9%	70.9%
SWE-Bench Pro (പൊതുവായി)	57.7%	56.8%	55.6%
OSWorld-സ്ഥിരീകരിച്ചത്	75.0%	74.0%*	47.3%
Toolathlon	54.6%	51.9%	46.3%
BrowseComp	82.7%	77.3%	65.8%

*മുമ്പ് 64.7% ആയി റിപ്പോർട്ട് ചെയ്തിരുന്നത്. GPT‑5.3‑Codex യഥാർത്ഥ ചിത്ര റെസല്യൂഷൻ സംരക്ഷിക്കുന്ന പുതുതായി അവതരിപ്പിച്ച ഒരു API പാരാമീറ്ററിലൂടെ 74.0% നേടുന്നു.

വിജ്ഞാന പ്രവർത്തനം

GPT‑5.2യുടെ അടിസ്ഥാനത്തിൽ നിർമ്മിച്ച് പൊതുവായ റീസണിംഗ് കഴിവുകളുടെ പിന്‍ബലത്തില്‍, GPT‑5.4 പ്രൊഫഷണലുകൾക്ക് പ്രാധാന്യമുള്ള യഥാർത്ഥ ലോക ടാസ്കുകളിൽ കൂടുതൽ സ്ഥിരതയുള്ളതും മിനുക്കമുള്ളതുമായ ഫലങ്ങൾ നൽകുന്നു.

GDPval⁠ എന്നതിൽ, 44 തൊഴിൽ മേഖലകളിലുടനീളമുള്ള കൃത്യമായി നിർവ്വചിക്കപ്പെട്ട വിജ്ഞാന പ്രവൃത്തികൾ ചെയ്യാനുള്ള ഏജന്റുകളുടെ കഴിവ് പരിശോധിക്കുന്നതിൽ, GPT‑5.4 പുതിയൊരു നേട്ടം കൈവരിച്ചിരിക്കുന്നു, വ്യവസായ പ്രൊഫഷണലുകളുമായി താരതമ്യം ചെയ്യുമ്പോൾ 83.0% കാര്യങ്ങളിലും അവരോടൊപ്പമെത്താനോ അതിലധികമോ ആണ്, GPT‑5.2‑‑ൽ ഇത് 71.0% മാത്രമായിരുന്നു.

GDPval-ൽ, യുഎസ് GDP-യിലേക്ക് ഏറ്റവും കൂടുതൽ സംഭാവന നൽകുന്ന മികച്ച 9 വ്യവസായ മേഖലകളിൽ നിന്നുള്ള 44 തൊഴിലുകളെ ആസ്പദമാക്കി, കൃത്യമായി നിർവചിക്കപ്പെട്ട വിജ്ഞാന പ്രവൃത്തികൾ മോഡലുകൾ ചെയ്യാൻ ശ്രമിക്കുന്ന ഒന്നാണ്. ടാസ്കുകൾ വിൽപ്പന അവതരണങ്ങൾ, അക്കൗണ്ടിംഗ് സ്പ്രെഡ്ഷീറ്റ്, അടിയന്തിര പരിചരണ ഷെഡ്യൂളുകൾ, നിർമ്മാണ ഡയഗ്രം, അല്ലെങ്കിൽ ചെറു വീഡിയോകൾ പോലുള്ള യഥാർത്ഥ പ്രവർത്തന ഉൽപ്പന്നങ്ങൾ ആവശ്യപ്പെടുന്നു. GPT‑5.4‑നായി റീസണിംഗ് ശ്രമം എക്സ്-ഹൈ ആയും GPT‑5.2‑നായി ഹെവി ആയും സജ്ജമാക്കി (ChatGPT‑ൽ അല്പം താഴ്ന്ന ലെവലിൽ).

“GPT-5.4 ഞങ്ങൾ ഇതുവരെ പരീക്ഷിച്ചിട്ടുള്ള ഏറ്റവും മികച്ച മോഡൽ ആണ്. പ്രൊഫഷണൽ സേവന ജോലികൾക്കായുള്ള മോഡൽ പ്രകടനം അളക്കുന്ന ഞങ്ങളുടെ APEX-Agents ബെഞ്ച്മാർക്കിൽ ഇത് ഇപ്പോൾ ലീഡർബോർഡിന്റെ മുകളിൽ ആണ്. സ്ലൈഡ് ഡെക്കുകൾ, സാമ്പത്തിക മോഡലുകൾ, നിയമ വിശകലനം എന്നിവ പോലുള്ള ദീർഘകാല ഡെലിവറബിളുകൾ സൃഷ്ടിക്കുന്നതിൽ ഇത് മികവ് പുലർത്തുന്നു, മത്സരാത്മക അത്യാധുനിക മോഡലുകളേക്കാൾ വേഗത്തിലും കുറഞ്ഞ ചെലവിലും പ്രവർത്തിക്കുമ്പോഴും മികച്ച പ്രകടനം നൽകുന്നു.”

— ബ്രണ്ടൻ ഫൂഡി, മെർക്കോറിലെ CEO

GPT‑5.4‑ന്റെ മെച്ചപ്പെടുത്തലിൽ ഞങ്ങൾ പ്രത്യേക ശ്രദ്ധ നൽകി സ്പ്രെഡ്ഷീറ്റുകൾ, അവതരണങ്ങൾ, ഡോക്യുമെന്റുകൾ എന്നിവ സൃഷ്ടിക്കാനും എഡിറ്റ് ചെയ്യാനും ഉള്ള കഴിവ്. ജൂനിയർ ഇൻവെസ്റ്റ്‌മെന്റ് ബാങ്കിംഗ് അനലിസ്റ്റ് ചെയ്യാൻ സാധ്യതയുള്ള സ്പ്രെഡ്ഷീറ്റ് മോഡലിംഗ് ടാസ്കുകളുടെ ഒരു ആഭ്യന്തര ബെഞ്ച്മാർക്കിൽ, GPT‑5.4 87.5% എന്ന ശരാശരി സ്കോർ നേടുന്നു, 68.4% , GPT‑5.2‑നുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ. അവതരണ വിലയിരുത്തൽ പ്രോംപ്റ്റുകളുടെ ഒരു സെറ്റിൽ, ശക്തമായ സൗന്ദര്യാത്മകത, കൂടുതൽ ദൃശ്യ വൈവിധ്യം, കൂടാതെ ഇമേജ് ജനറേഷൻ കൂടുതൽ ഫലപ്രദമായി ഉപയോഗിച്ചതിനാൽ, മനുഷ്യ റേറ്റർമാർ GPT‑5.4‑യെ 68.0% സമയത്തും GPT‑5.2‑ൽ നിന്നുള്ള അവതരണങ്ങളെക്കാൾ ഇഷ്ടപ്പെട്ടു.

GPT-5.2 vs GPT-5.4 ൽ നിന്നുള്ള സ്പ്രെഡ്ഷീറ്റ് ഔട്ട്പുട്ടുകളുടെ സൈഡ്-ബൈ-സൈഡ് ഉദാഹരണം

ഡോക്യുമെന്റുകൾ റീസണിംഗ് ശ്രമം xhigh ആയി സജ്ജമാക്കി സൃഷ്ടിച്ചു

GPT‑5.4 ഉപയോഗിച്ച് ChatGPT‑ൽ നിങ്ങൾക്ക് ഈ കഴിവുകൾ പരീക്ഷിക്കാം Thinking അല്ലെങ്കിൽ Pro. നിങ്ങൾ ഒരു എന്റർപ്രൈസ് ഉപഭോക്താവാണെങ്കിൽ, ഇന്ന് തന്നെ ലോഞ്ച് ചെയ്ത, പുതുതായി പുറത്തിറക്കിയ ഞങ്ങളുടെ Excel-നും Google Sheets-നും വേണ്ടിയുള്ള ChatGPT പ്ലഗിനുകൾ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഉപയോഗിക്കാൻ ഞങ്ങൾ ശുപാർശ ചെയ്യുന്നു. Codex-ലും API-ലും ലഭ്യമായ ഞങ്ങളുടെ സ്പ്രെഡ്ഷീറ്റ്⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) യും പ്രെസന്റേഷൻ കഴിവുകളും⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഞങ്ങൾ അപ്ഡേറ്റ് ചെയ്തിട്ടുണ്ട്.

GPT‑5.4 രൂപപ്പെടുത്താൻ യഥാർത്ഥ ജോലിയിൽ കൂടുതൽ മികച്ചതാക്കാൻ, ഭ്രമാത്മകതയും പിശകുകളും കുറയ്ക്കുന്നതിൽ ഞങ്ങൾ മികവ് തുടരുകയും ചെയ്തു. GPT‑5.4 ഇതുവരെ ഞങ്ങളുടെ ഏറ്റവും വസ്തുതാപരമായ മോഡലാണ്: ഉപയോക്താക്കൾ വസ്തുതാപരമായ പിശകുകൾ ഫ്ലാഗ് ചെയ്ത തിരിച്ചറിയൽ നീക്കിയ പ്രോംപ്റ്റുകളുടെ ഒരു സെറ്റിൽ, GPT‑5.4‑ന് GPT‑5.2 നെ അപേക്ഷിച്ച്, വ്യക്തിഗത അവകാശവാദങ്ങൾ 33% കുറവ് തെറ്റായിരിക്കാനുള്ള സാധ്യതയുണ്ട്, കൂടാതെ അതിന്റെ പൂർണ്ണ പ്രതികരണങ്ങൾ 18% കുറവ് ഏതെങ്കിലും പിശകുകൾ ഉൾക്കൊള്ളാനുള്ള സാധ്യതയുണ്ട്.

“GPT-5.4 രേഖകൾ കൂടുതലുള്ള നിയമപ്രവർത്തനങ്ങൾക്ക് ഒരു പുതിയ മാനദണ്ഡം സ്ഥാപിക്കുന്നു. ഞങ്ങളുടെ ബിഗ്‌ലോ ബെഞ്ച് മൂല്യനിർണ്ണയത്തിൽ, ഇത് 91% സ്കോർ ചെയ്തു. മറ്റ് മോഡലുകളുമായി താരതമ്യം ചെയ്യുമ്പോൾ, GPT-5.4 നിലവിൽ സങ്കീർണ്ണമായ ഇടപാട് വിശകലനം ഘടനാപരമായി ക്രമീകരിക്കുന്നതിലും, ദീർഘമായ കരാറുകളിലുടനീളം കൃത്യത നിലനിർത്തുന്നതിലും, നിയമപ്രവർത്തകർക്ക് ആവശ്യമായ ഉയർന്ന തലത്തിലുള്ള വിശദാംശങ്ങൾ നൽകുന്നതിലും കൂടുതൽ മികച്ചതാണ്.”

— നിക്കോ ഗ്രൂപ്പൻ, ഹാർവിയിലെ ഹെഡ് ഓഫ് അപ്ലൈഡ് റിസർച്ച്

കമ്പ്യൂട്ടർ ഉപയോഗവും വിഷനും

GPT‑5.4 ഞങ്ങളുടെ ആദ്യത്തെ സാധാരണ ഉപയോഗത്തിനുള്ള മോഡൽ ആണ്, സ്വാഭാവിക കമ്പ്യൂട്ടർ ഉപയോഗ ശേഷികൾ ഉള്ളതും ഡെവലപ്പർമാർക്കും ഏജന്റുകൾക്കും ഒരുപോലെ ഒരു വലിയ മുന്നേറ്റം അടയാളപ്പെടുത്തുന്നതുമാണ്. വെബ്‌സൈറ്റുകളിലും സോഫ്റ്റ്‌വെയർ സിസ്റ്റങ്ങളിലുമാകെ യഥാർത്ഥ ജോലികൾ പൂർത്തിയാക്കുന്ന ഏജൻ്റുകൾ നിർമ്മിക്കുന്ന ഡെവലപ്പർമാർക്കായി നിലവിൽ ലഭ്യമായ ഏറ്റവും മികച്ച മോഡൽ ഇതാണ്.

വിപുലമായ കമ്പ്യൂട്ടർ-ഉപയോഗ വർക്ക്‌ലോഡുകളിലുടനീളം മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്ന തരത്തിൽ GPT‑5.4 ഞങ്ങൾ രൂപകൽപ്പന ചെയ്തിട്ടുണ്ട്. Playwright പോലുള്ള ലൈബ്രറികൾ വഴി കമ്പ്യൂട്ടറുകൾ പ്രവർത്തിപ്പിക്കാൻ കോഡ് എഴുതുന്നതിലും, സ്ക്രീൻഷോട്ടുകൾക്ക് പ്രതികരണമായി മൗസും കീബോർഡും കമാൻഡുകൾ നൽകുന്നതിലും ഇത് മികച്ചതാണ്. ഡെവലപ്പർ സന്ദേശങ്ങളിലൂടെ അതിന്റെ പെരുമാറ്റം നിയന്ത്രിക്കാനാകും, അതായത് പ്രത്യേക ഉപയോഗ സാഹചര്യങ്ങൾക്ക് അനുയോജ്യമായി ഡെവലപ്പർമാർക്ക് അത് ക്രമീകരിക്കാനാകും. ഡെവലപ്പർമാർക്ക് ഇച്ഛാനുസൃത സ്ഥിരീകരണ നയങ്ങൾ വ്യക്തമാക്കുന്നതിലൂടെ വ്യത്യസ്ത തലത്തിലുള്ള റിസ്ക് സഹിഷ്ണുതയ്ക്ക് അനുയോജ്യമായി മോഡലിന്റെ സുരക്ഷാ സ്വഭാവം ക്രമീകരിക്കാനാകും.

വ്യത്യസ്ത ക്രമീകരണങ്ങളിലുടനീളം കമ്പ്യൂട്ടർ ഉപയോഗം പരിശോധിക്കുന്ന ബെഞ്ച്മാർക്കുകളിലുടനീളം മോഡലിന്റെ പ്രകടനവും ലവചിത്വവും പ്രതിഫലിക്കുന്നു. OSWorld-Verified-ൽ, സ്ക്രീൻഷോട്ടുകളും കീബോർഡ്/മൗസ് പ്രവർത്തനങ്ങളും വഴി ഒരു മോഡൽ ഡെസ്ക്ടോപ്പ് പരിസ്ഥിതിയിൽ നാവിഗേറ്റ് ചെയ്യാനുള്ള കഴിവ് അളക്കുമ്പോൾ, GPT‑5.4 ഒരു state-of-the-art ആയ 75.0% നേടുന്നു വിജയ നിരക്ക്, GPT‑5.2 നെ വളരെ മറികടന്ന് 47.3% വരെ എത്തുന്നു, കൂടാതെ മനുഷ്യ പ്രകടനത്തെ 72.4%.¹ൽ മറികടക്കുന്നു

ബ്രൗസർ ഉപയോഗം പരിശോധിക്കുന്ന WebArena-Verified ൽ, DOM- and screenshot-driven ഇടപെടലുകൾ രണ്ടും ഉപയോഗിക്കുമ്പോൾ GPT‑5.4 67.3% വിജയനിരക്ക് കൈവരിക്കുന്നു, GPT‑5.2യുടെ 65.4% നെ അപേക്ഷിച്ച്. ബ്രൗസർ ഉപയോഗം പരിശോധിക്കുന്ന ഓൺലൈൻ-മൈൻഡ്2വെബ്-ൽ, സ്ക്രീൻഷോട്ട്-അടിസ്ഥാനത്തിലുള്ള നിരീക്ഷണങ്ങൾ മാത്രം ഉപയോഗിച്ച് GPT‑5.4 92.8% വിജയനിരക്ക് കൈവരിക്കുന്നു, 70.9% വിജയനിരക്ക് കൈവരിക്കുന്ന ChatGPT Atlas-ന്റെ ഏജന്റ് മോഡിനെ അപേക്ഷിച്ച് മെച്ചപ്പെട്ടതാണ്.

ടൂൾ യീൽഡ് എന്നത് ഒരു അസിസ്റ്റന്റ്, ടൂൾ പ്രതികരണങ്ങൾക്കായി കാത്തിരിക്കാൻ യീൽഡ് ചെയ്യുന്നതാണ്. 3 ടൂളുകൾ സമാന്തരമായി വിളിക്കപ്പെടുകയും, തുടർന്ന് 3 ടൂളുകൾ കൂടി സമാന്തരമായി വിളിക്കപ്പെടുകയും ചെയ്താൽ, മൊത്തം യീൽഡ്ന്റെ എണ്ണം 2 ആയിരിക്കും. ടൂൾ യീൽഡുകള്‍, ടൂൾ കോളുകളേക്കാൾ ലേറ്റൻസിയുടെ മികച്ച പ്രോക്സിയാണ്, കാരണം അവ സമാന്തരവൽക്കരണത്തിന്റെ പ്രയോജനങ്ങളെ പ്രതിഫലിപ്പിക്കുന്നു.

GPT‑5.4 ഒരു ബ്രൗസർ ഇന്റർഫേസിന്റെ സ്ക്രീൻഷോട്ടുകൾ വ്യാഖ്യാനിക്കുകയും ഇമെയിലുകൾ അയയ്ക്കാനും ഒരു കലണ്ടർ ഇവന്റ് ഷെഡ്യൂൾ ചെയ്യാനും കോഓർഡിനേറ്റ്-അടിസ്ഥാനത്തിലുള്ള ക്ലിക്കിംഗ് വഴി UI ഘടകങ്ങളുമായി ഇടപഴകുകയും ചെയ്യുന്നു.

GPT‑5.4‑യുടെ മെച്ചപ്പെടുത്തിയ കമ്പ്യൂട്ടർ ഉപയോഗം മോഡലിന്റെ മെച്ചപ്പെടുത്തിയ പൊതുവായ ദൃശ്യ ഗ്രഹണ ശേഷികളിലാണ് അടിസ്ഥാനമാക്കപ്പെട്ടിരിക്കുന്നത്. MMMU-Pro ൽ, ഒരു മോഡലിന്റെ ദൃശ്യബോധവും റീസണിംഗും പരിശോധിക്കുന്ന ഒരു ടെസ്റ്റിൽ, GPT‑5.4 ടൂൾ ഉപയോഗമില്ലാതെ 81.2% വിജയനിരക്ക് നേടുന്നു, GPT‑5.2‑ന്റെ 79.5%. മെച്ചപ്പെട്ട ദൃശ്യ ഗ്രഹണശേഷിഎന്നത് മികച്ച ഡോക്യുമെന്റ് പാഴ്സിംഗ് ശേഷികളായും മാറുന്നു. ഓമ്‌നിഡോക് ബെഞ്ചിൽ , റീസണിംഗ് ശ്രമമില്ലാതെ GPT‑5.4 ശരാശരി പിശക് (മോഡൽ പ്രവചനവും ഗ്രൗണ്ട് ട്രൂത്തും തമ്മിലുള്ള നോർമലൈസ്ഡ് എഡിറ്റ് ഡിസ്റ്റൻസ് വഴി അളക്കുന്നത്) 0.109 നേടുന്നു, ഇത് GPT‑5.2‑ന്റെ 0.140-നേക്കാൾ മികച്ചതാണ്.

MMMUPro റീസണിംഗ് ശ്രമം xhigh ആയി സജ്ജമാക്കി പ്രവർത്തിപ്പിച്ചു. കുറഞ്ഞ ചെലവും കുറഞ്ഞ ലേറ്റൻസിയും ഉള്ള പ്രകടനം പ്രതിഫലിപ്പിക്കുന്നതിനായി, റീസണിംഗ് ശ്രമം none ആയി സജ്ജീകരിച്ച് OmniDocBench പ്രവർത്തിപ്പിച്ചു.

പൂർണ്ണ വിശ്വസ്തത ആവശ്യമായ സാഹചര്യങ്ങളില്‍ സാന്ദ്രവും ഉയർന്ന റെസല്യൂഷനുള്ള ചിത്രങ്ങൾക്കായി ദൃശ്യങ്ങളുടെ മനസ്സിലാക്കലും ഞങ്ങൾ മെച്ചപ്പെടുത്തുന്നു. GPT‑5.4 മുതൽ, ഞങ്ങൾ ഒരു ഒറിജിനൽ ഇമേജ് ഇൻപുട്ട് ഡീറ്റെയിൽ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ലെവൽ അവതരിപ്പിക്കുന്നു; ഇത് 10.24M മൊത്തം പിക്സലുകൾ അല്ലെങ്കിൽ 6000-പിക്സൽ പരമാവധി ഡൈമെൻഷൻ (ഏത് കുറവാണോ അത്) വരെ പൂർണ്ണ വിശ്വാസ്യതയുള്ള മനസിലാക്കല്‍ പിന്തുണയ്ക്കുന്നു; high ഇമേജ് ഇൻപുട്ട് ഡീറ്റെയിൽ ലെവൽ ഇപ്പോൾ 2.56M മൊത്തം പിക്സലുകൾ അല്ലെങ്കിൽ 2048-പിക്സൽ പരമാവധി ഡൈമെൻഷൻ (ഏത് കുറവാണോ അത്) വരെ പിന്തുണയ്ക്കുന്നു. API ഉപയോക്താക്കളുമായി നടത്തിയ ആദ്യ പരീക്ഷണത്തിൽ, ഒറിജിനൽ അല്ലെങ്കിൽ high ഡീറ്റെയിൽ ഉപയോഗിക്കുമ്പോൾ ലോക്കലൈസേഷൻ കഴിവ്, ചിത്രത്തെ മനസ്സിലാക്കൽ, ക്ലിക്ക് കൃത്യത എന്നിവയിൽ ശക്തമായ മെച്ചപ്പെടുത്തലുകൾ ഞങ്ങൾ നിരീക്ഷിച്ചു.

“~30K HOAയും പ്രോപ്പർട്ടി ടാക്സ് പോർട്ടലുകളിലുടനീളം കമ്പ്യൂട്ടർ ഉപയോഗ പ്രകടനം അളക്കുന്ന ഞങ്ങളുടെ മൂല്യനിർണ്ണയങ്ങളിൽ, മുൻ CUA മോഡലുകളിലെ ~73–79% നെ അപേക്ഷിച്ച്, GPT-5.4 ആദ്യ ശ്രമത്തിൽ 95% വിജയനിരക്കും മൂന്ന് ശ്രമങ്ങൾക്കുള്ളിൽ 100% വിജയനിരക്കും കൈവരിച്ചു. ഇത് സെഷനുകൾ ~3x വേഗത്തിൽ പൂർത്തിയാക്കുകയും ~70% കുറവ് ടോക്കൺ ഉപയോഗിക്കുകയും ചെയ്തു, ഇത് വലിയ തോതിലുള്ള ഉപയോഗത്തിൽ വിശ്വസനീയതയും ലാഭക്ഷമതയും ഗണ്യമായി മെച്ചപ്പെടുത്തുന്നു."

— ഡോഡ് ഫ്രേസർ, മെയിൻസ്റ്റേയിലെ CEO

API-യിൽ, ഡെവലപ്പർമാർക്ക് അപ്ഡേറ്റ് ചെയ്ത കമ്പ്യൂട്ടർ ടൂൾ ഉപയോഗിച്ച് ഈ കഴിവുകൾ ആക്സസ് ചെയ്യാൻ കഴിയും. ശുപാർശ ചെയ്യുന്ന മികച്ച പ്രാക്ടീസുകൾക്കായി ദയവായി ഞങ്ങളുടെ അപ്‌ഡേറ്റ് ചെയ്ത ഡോക്യുമെന്റേഷൻ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കാണുക.

കോഡിംഗ്

GPT‑5.4, GPT‑5.3‑Codex ന്റെ കോഡിംഗ് ശക്തികളെ മുൻനിര വിജ്ഞാന പ്രവർത്തനവും കമ്പ്യൂട്ടർ-ഉപയോഗ ശേഷികളും ചേർത്ത് സംയോജിപ്പിക്കുന്നു. ദീർഘകാല ടാസ്കുകളിൽ, മോഡൽ ഉപകരണങ്ങൾ ഉപയോഗിക്കാനും, ആവർത്തിച്ച് മെച്ചപ്പെടുത്താനും, കുറവ് മാനുവൽ ഇടപെടലോടെ പ്രവർത്തനം കൂടുതൽ മുന്നോട്ട് കൊണ്ടുപോകാനും കഴിയുന്ന സാഹചര്യങ്ങളിൽ ഇത് ഏറ്റവും പ്രാധാന്യമുള്ളതാണ്. റീസണിംഗ് ശ്രമങ്ങളിലുടനീളം കുറഞ്ഞ ലേറ്റൻസി നിലനിർത്തിക്കൊണ്ട്, SWE-Bench Pro-ൽ ഇത് GPT‑5.3‑Codex‑നെ തുല്യമാക്കുകയോ അതിനെ മറികടക്കുകയോ ചെയ്യുന്നു.

ഞങ്ങളുടെ മോഡലുകളുടെ പ്രൊഡക്ഷൻ പെരുമാറ്റം പരിശോധിച്ചും, ഇത് ഓഫ്‌ലൈനായി സിമുലേറ്റ് ചെയ്തും ഞങ്ങൾ ലേറ്റൻസി കണക്കാക്കുന്നു. ടൂൾ കോൾ ദൈർഘ്യം (കോഡ് നിർവഹണ സമയം), സാമ്പിൾ ചെയ്ത ടോക്കണുകൾ, ഇൻപുട്ട് ടോക്കണുകൾ എന്നിവ കണക്കിലെടുത്താണ് ലാറ്റൻസി കണക്കുകൂട്ടല്‍ നടത്തുന്നത് . യഥാർത്ഥ ലോക ലേറ്റൻസി ഗണ്യമായി വ്യത്യാസപ്പെടാം, മാത്രമല്ല അത് ഞങ്ങളുടെ സിമുലേഷനിൽ ഉൾക്കൊള്ളാത്ത നിരവധി ഘടകങ്ങളെ ആശ്രയിച്ചിരിക്കുന്നു. റീസണിംഗ് ശ്രമങ്ങൾ ഒന്നുമില്ലാത്ത നിലയിൽ നിന്ന് എക്സ്-ഹൈ എന്ന തലത്തിലേക്ക് ഉയർത്തി.

ടോഗിൾ ചെയ്താൽ, Codex-ലെ /fast mode GPT‑5.4‑നൊപ്പം ടോക്കൺ വേഗത 1.5x വരെ വേഗത്തിൽ നൽകുന്നു. ഇത് അതേ മോഡലും അതേ ബുദ്ധിയും തന്നെയാണ്, പക്ഷേ കൂടുതൽ വേഗത്തിൽ. അതായത് ഉപയോക്താക്കൾക്ക് ഒഴുക്കിൽ തുടരുമ്പോൾ കോഡിംഗ് ടാസ്കുകൾ, ആവർത്തനം, ഡീബഗ്ഗിംഗ് എന്നിവയിലൂടെ മുന്നോട്ട് നീങ്ങാൻ കഴിയും. ഡെവലപ്പർമാർക്ക് മുൻഗണനാ പ്രോസസ്സിംഗ്⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഉപയോഗിച്ച് API വഴി അതേ വേഗത്തിൽ GPT‑5.4 ആക്സസ് ചെയ്യാൻ കഴിയും.

വിലയിരുത്തലിലും ആന്തരിക പരിശോധനയിലും, മുമ്പ് ഞങ്ങൾ പുറത്തിറക്കിയ ഏതൊരു മോഡലുകളേക്കാളും ശ്രദ്ധേയമായി കൂടുതൽ സൗന്ദര്യപരവും കൂടുതൽ പ്രവർത്തനക്ഷമവുമായ ഫലങ്ങളോടെ, സങ്കീർണ്ണമായ ഫ്രണ്ട് എൻഡ് ടാസ്ക്-കളിൽ GPT‑5.4 മികവ് പുലർത്തുന്നുവെന്ന് ഞങ്ങൾ കണ്ടെത്തി.

മോഡലിന്റെ മെച്ചപ്പെടുത്തിയ കമ്പ്യൂട്ടർ-ഉപയോഗവും കോഡിംഗ് കഴിവുകളും ഒരുമിച്ച് പ്രവർത്തിക്കുന്നതിന്റെ ഒരു പ്രദർശനമായി, “Playwright (Interactive)⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)” എന്ന പേരിലുള്ള ഒരു പരീക്ഷണാത്മക Codex സ്കിൽ ഞങ്ങൾ കൂടി പുറത്തിറക്കുന്നു. ഇത് Codex-നെ വെബ്, Electron ആപ്പുകൾ വിഷ്വലി ഡീബഗ് ചെയ്യാൻ അനുവദിക്കുന്നു; അത് ഒരു ആപ്പ് നിർമ്മിക്കുന്നതിനിടെ തന്നെ, അത് നിർമ്മിക്കുന്ന ആപ്പിനെ ടെസ്റ്റ് ചെയ്യാനും ഉപയോഗിക്കാം.

GPT‑5.4 ഉപയോഗിച്ച്, ലഘുവായ ഒരു പ്രോംപ്റ്റിൽ നിന്ന് നിർമ്മിച്ച തീം പാർക്ക് സിമുലേഷൻ ഗെയിം; ബ്രൗസർ പ്ലേ-ടെസ്റ്റിംഗിനായി പ്ലേറൈറ്റ് ഇന്ററാക്ടീവും, ഐസോമെട്രിക് അസറ്റ് സെറ്റുകൾക്കായി ഇമേജ് ജനറേഷനും ഇതിൽ ഉപയോഗിച്ചിരിക്കുന്നു. സിമുലേഷനിൽ ടൈൽ-അടിസ്ഥാനത്തിലുള്ള പാത സ്ഥാപിക്കൽ, റൈഡും സീനറിയും നിർമ്മിക്കൽ, അതിഥികളുടെ പാത കണ്ടെത്തൽ, ക്യൂയിൽ നിൽക്കൽ, റൈഡ് ചക്രങ്ങൾ എന്നിവ ഉൾപ്പെടുന്നു; അതേസമയം പണം, അതിഥികളുടെ എണ്ണം, സന്തോഷം, ശുചിത്വം, റേറ്റിംഗ് എന്നിവ പോലുള്ള പാർക്ക് മെട്രിക്കുകൾ ലേഔട്ട് എത്രമാത്രം ഫലപ്രദമായി പ്രവർത്തിക്കുന്നു, അതിനോട് അതിഥികൾ എങ്ങനെ പ്രതികരിക്കുന്നു എന്നിവയെ ആശ്രയിച്ച് ഉയരുകയോ താഴുകയോ ചെയ്യും. പാർക്ക് നിർമ്മിക്കുകയും വികസിപ്പിക്കുകയും ചെയ്യുക, പാതകളും ആകർഷണങ്ങളും സ്ഥാപിക്കുകയും നീക്കം ചെയ്യുകയും ചെയ്യുക, ക്യാമറ നാവിഗേഷൻ പരിശോധിക്കുക, കൂടാതെ നിരവധി റൗണ്ടുകളിലായി കളിക്കുമ്പോൾ അതിഥികൾ, ക്യൂകൾ, റൈഡ് സ്റ്റേറ്റുകൾ, UI മെട്രിക്കുകൾ എന്നിവ ശരിയായി അപ്ഡേറ്റ് ആകുന്നുവെന്ന് സ്ഥിരീകരിക്കുക എന്നിവയിലൂടെ ബ്രൗസർ പ്ലേടെസ്റ്റുകൾ ഓട്ടോമേറ്റ് ചെയ്യാൻ പ്ലേറൈറ്റ് ഉപയോഗിച്ചു.

പ്രോംപ്റ്റ്: $playwright-interactive, $imagegen എന്നിവ ഉപയോഗിക്കുക. ബ്രൗസറിൽ എനിക്ക് നിർമ്മിക്കാനും നിയന്ത്രിക്കാനും കഴിയുന്ന തരത്തിൽ, സംവേദനാത്മകമായ ഒരു ഐസോമെട്രിക് തീം പാർക്ക് സിമുലേഷൻ ഗെയിം സൃഷ്ടിക്കുക. ഗെയിമിന്റെ മൊത്തത്തിലുള്ള ദൃശ്യഭംഗി നിശ്ചയിക്കാനും റൈഡുകൾ, പാതകൾ, ഭൂപ്രദേശം, മരങ്ങൾ, വെള്ളം, ഭക്ഷണശാലകൾ, അലങ്കാരങ്ങൾ, കെട്ടിടങ്ങൾ, ഐക്കണുകൾ, UI ചിത്രീകരണങ്ങൾ എന്നിവയുൾപ്പെടെയുള്ള അസറ്റുകൾ നിർമ്മിക്കാനും imagegen ഉപയോഗിക്കുക. ഈ ലോകം ഐസോമെട്രിക് കാഴ്ചപ്പാടിൽ നിന്ന് നോക്കുമ്പോൾ മികച്ച ആർട്ട് ഡയറക്ഷനോടു കൂടിയതും, മനോഹരവും, സമ്പന്നവുമായിരിക്കണം. പാതകൾ നിർമ്മിക്കാനും നീക്കം ചെയ്യാനും, പുതിയ ആകർഷണങ്ങൾ ചേർക്കാനും, കാഴ്ചകൾ ക്രമീകരിക്കാനും, പാർക്കിലെ അതിഥികളുടെ നീക്കങ്ങളും റൈഡുകളുടെ നിലയും പാർക്കിന്റെ വളർച്ചയും നിരീക്ഷിച്ചുകൊണ്ട് സുഗമമായി സഞ്ചരിക്കാനും എന്നെ അനുവദിക്കുക. അതിഥികളുടെ സ്വാഭാവികമായ ചലനങ്ങളും, പണം, ശുചിത്വം, ക്യൂ നിൽക്കൽ, സന്തോഷം എന്നിവ ഉൾപ്പെടുന്ന ലളിതമായ പാർക്ക് മാനേജ്‌മെന്റ് സംവിധാനങ്ങളും ഇതിൽ ഉൾപ്പെടുത്തണം. ഈ അനുഭവം ഒരു പരുക്കൻ മാതൃക പോലെയല്ലാതെ, വ്യക്തവും പൂർണ്ണവുമായ ഒരു ഗെയിം പോലെ തോന്നിപ്പിക്കണം. യാഥാർത്ഥ്യത്തേക്കാൾ ഉപരിയായി ഗെയിമിന്റെ ആകർഷണീയതയ്ക്കും, വ്യക്തതയ്ക്കും മുൻഗണന നൽകുക.

പ്ലേ ടെസ്റ്റിംഗ് നടത്തുമ്പോൾ, നിരവധി റൗണ്ടുകളിലായി ഒരു പാർക്ക് നിർമ്മിച്ച് വികസിപ്പിക്കുന്നുവെന്ന് ഉറപ്പാക്കുക, പ്ലേസ്മെന്റും നാവിഗേഷനും സുഗമമായി പ്രവർത്തിക്കുന്നുവെന്ന് പരിശോധിക്കുക, പാർക്കിന്റെ ലേഔട്ടിനോടും ആകർഷണങ്ങളോടും അതിഥികൾ പ്രതികരിക്കുന്നുവെന്ന് സ്ഥിരീകരിക്കുക, കൂടാതെ ദൃശ്യങ്ങൾ, UI, ഇടപെടലുകൾ സ്ഥിരതയുള്ളതും ഏകോപിതവുമായതായി തോന്നുന്നുവെന്ന് ഉറപ്പാക്കുക.

“ഞങ്ങളുടെ എഞ്ചിനീയർമാർ GPT-5.4 കണ്ടെത്തുന്നു മുമ്പത്തെ മോഡലുകളേക്കാൾ കൂടുതൽ സ്വാഭാവികവും ആത്മവിശ്വാസപൂർണ്ണവുമാണ് . അവ്യക്തമായ പ്രശ്നങ്ങൾ സ്വയം രണ്ടാമതായി ഊഹിക്കാതെ തന്നെ അത് കൈകാര്യം ചെയ്യുന്നു, കാര്യങ്ങൾ മുന്നോട്ട് നീങ്ങാൻ ജോലികളെ സമാന്തരമാക്കുന്നതിൽ ഇത് മുൻകൈയെടുക്കുകയും ചെയ്യുന്നു.”

— ലീ റോബിൻസൺ, കർസറിലെ ഡെവലപ്പർ എഡ്യൂക്കേഷൻ വൈസ് പ്രസിഡന്റ്

ഉപകരണങ്ങളുടെ ഉപയോഗം

GPT‑5.4‑ഉം ബാഹ്യ ഉപകരണങ്ങളുമായി മോഡലുകൾ പ്രവർത്തിക്കുന്ന രീതി ഞങ്ങൾ ഗണ്യമായി മെച്ചപ്പെടുത്തി. ഏജന്റുകൾക്ക് ഇപ്പോൾ കൂടുതൽ വലിയ ടൂൾ ഇക്കോസിസ്റ്റങ്ങളിലുടനീളം പ്രവർത്തിക്കാനും, ശരിയായ ടൂളുകൾ കൂടുതൽ വിശ്വസനീയമായി തിരഞ്ഞെടുക്കാനും, കുറഞ്ഞ ചെലവും ലേറ്റൻസിയും ഉപയോഗിച്ച് മൾട്ടി-സ്റ്റെപ്പ് വർക്ക്ഫ്ലോകൾ പൂർത്തിയാക്കാനും കഴിയും.

ടൂള്‍ തിരയുക

API-യിൽ, GPT‑5.4 ടൂൾ തിരയൽ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) അവതരിപ്പിക്കുന്നു, ഇത് നിരവധി മോഡലുകൾ നൽകിയിരിക്കുമ്പോൾ കാര്യക്ഷമമായി പ്രവർത്തിക്കാൻ അനുവദിക്കുന്നു.

മുമ്പ്, ഒരു മോഡലിന് ടൂളുകൾ നൽകിയിരുന്നപ്പോൾ, എല്ലാ ടൂൾ നിർവചനങ്ങളും പ്രോംപ്റ്റിൽ മുൻകൂട്ടി ഉൾപ്പെടുത്തിയിരുന്നു. വളരെ അധികം ഉപകരണങ്ങളുള്ള സിസ്റ്റങ്ങളിലേക്കായി, ഇത് ഓരോ അഭ്യർത്ഥനയിലും ആയിരക്കണക്കിന്—അല്ലെങ്കിൽ പതിനായിരക്കണക്കിന് വരെ—ടോക്കൺ-കൾ ചേർക്കാൻ ഇടയാക്കാം; ഇതിലൂടെ ചെലവ് വർധിക്കുകയും, പ്രതികരണങ്ങൾ മന്ദഗതിയിലാകുകയും, മോഡൽ ഒരിക്കലും ഉപയോഗിക്കാതിരിക്കാവുന്ന വിവരങ്ങളാൽ കോൺടെക്സ്റ്റ് നിറയുകയും ചെയ്യും.

ടൂൾ സെർച്ച് ഉപയോഗിച്ച്, GPT‑5.4 ന് ലഭ്യമായ ടൂളുകളുടെ ലഘുവായ പട്ടികയും ടൂൾ സെർച്ച് കഴിവും ലഭിക്കുന്നു. മോഡലിന് ഒരു ടൂൾ ഉപയോഗിക്കേണ്ടിവരുമ്പോൾ, ആ ടൂളിന്റെ നിർവചനം പരിശോധിച്ച് ആ സമയത്ത് സംഭാഷണത്തിൽ ചേർക്കാം.

ഈ സമീപനം ടൂൾ-ഹെവി വർക്ക്ഫ്ലോകൾക്കായി ആവശ്യമായ ടോക്കൺ-കളുടെ എണ്ണം ഗണ്യമായി കുറയ്ക്കുകയും കാഷെ നിലനിർത്തുകയും ചെയ്യുന്നു, അതിലൂടെ അഭ്യർത്ഥനകൾ കൂടുതൽ വേഗത്തിലും കുറഞ്ഞ ചെലവിലും നടത്താം. ഇത് ഏജൻ്റുകൾക്ക് വളരെ വലുതായ ഉപകരണ ഇക്കോസിസ്റ്റങ്ങളുമായി വിശ്വസനീയമായി പ്രവർത്തിക്കാനും സാധ്യമാക്കുന്നു. ടൂൾ നിർവചനങ്ങളുടെ പതിനായിരക്കണക്കിന് ടോക്കൺ-കൾ ഉൾക്കൊള്ളാൻ സാധ്യതയുള്ള MCP സെർവറുകൾക്കായി, കാര്യക്ഷമതയിലെ നേട്ടങ്ങൾ ഗണ്യമായിരിക്കാം.

കാര്യക്ഷമതയിലെ നേട്ടങ്ങൾ കാണിക്കാൻ, രണ്ട് മോഡുകളിൽ എല്ലാ 36 MCP സെർവറുകളും സജ്ജീകരിച്ച നിലയിൽ സ്കെയിലിന്റെ MCP അറ്റ്‌ലസ്⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ബെഞ്ച്മാർക്കിൽ നിന്നുള്ള 250 ടാസ്കുകൾ ഞങ്ങൾ വിലയിരുത്തി: (1) ഓരോ MCP ഫംഗ്ഷനും നേരിട്ട് മോഡൽ കോൺടെക്സ്റ്റിൽ എക്സ്പോസ് ചെയ്യുക, (2) എല്ലാ MCP സെർവറുകളെയും ടൂൾ സെർച്ചിന് പിന്നിൽ സ്ഥാപിക്കുക. ടൂൾ-തിരയൽ കോൺഫിഗറേഷൻ അതേ കൃത്യത കൈവരിക്കുമ്പോൾ മൊത്തം ടോക്കൺ ഉപയോഗം 47% കുറച്ചു.

ഉദാഹരണ ടോക്കൺ എണ്ണങ്ങൾ MCP-Atlas പബ്ലിക് ഡാറ്റാസെറ്റിലെ 250 ടാസ്കുകളുടെ ശരാശരി എടുത്തതാണ്.

ഏജന്റിക് ടൂൾ കോളിംഗ്

GPT‑5.4 ടൂൾ കോളിംഗ് കൂടി മെച്ചപ്പെടുത്തുന്നു, പ്രത്യേകിച്ച് API-യിൽ, റീസണിംഗ് സമയത്ത് ടൂളുകൾ എപ്പോൾ എങ്ങനെ ഉപയോഗിക്കണമെന്ന് തീരുമാനിക്കുമ്പോൾ അത് കൂടുതൽ കൃത്യവും കാര്യക്ഷമവുമാക്കുന്നു. GPT‑5.2 നെ അപേക്ഷിച്ച്, യഥാർത്ഥ ലോക ഉപകരണങ്ങളും APIകളും ഉപയോഗിച്ച് മൾട്ടി-സ്റ്റെപ്പ് ടാസ്കുകൾ പൂർത്തിയാക്കുന്നതിൽ AI ഏജൻ്റുകൾ എത്രത്തോളം കഴിവുള്ളവരാണെന്ന് പരിശോധിക്കുന്ന ഒരു ബെഞ്ച്മാർക്കായ Toolathlon-ൽ, കുറച്ച് ടേൺസിൽ തന്നെ ഇത് കൂടുതൽ ഉയർന്ന കൃത്യത കൈവരിക്കുന്നു. ഉദാഹരണത്തിന്, ഒരു ഏജന്റിന് ഇമെയിലുകൾ വായിക്കണം, അസൈൻമെന്റ് അറ്റാച്ച്മെന്റുകൾ എക്സ്ട്രാക്റ്റ് ചെയ്യണം, അവ അപ്‌ലോഡ് ചെയ്യണം, അവ ഗ്രേഡ് ചെയ്യണം, കൂടാതെ ഒരു സ്പ്രെഡ്ഷീറ്റിൽ ഫലങ്ങൾ രേഖപ്പെടുത്തണം.

ലേറ്റൻസി-സെൻസിറ്റീവ് ഉപയോഗ കേസുകൾക്കായി റീസണിംഗ് ശ്രമം 'ഒന്നുമില്ല' എന്ന് ആക്കുന്നത് മുൻഗണനയായിരിക്കുന്ന സാഹചര്യങ്ങളിൽ, GPT‑5.4 അതിന്റെ മുൻഗാമികളേക്കാൾ കൂടുതൽ മെച്ചപ്പെടുത്തുന്നു.

In τ2-ബെഞ്ച്⁠⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ൽ, ഒരു മോഡൽ ഉപഭോക്തൃ സേവന ടാസ്ക് പൂർത്തിയാക്കുന്നതിനായി ഉപകരണങ്ങൾ ഉപയോഗിക്കണം, അവിടെ ലോകത്തിന്റെ അവസ്ഥയിൽ ആശയവിനിമയം നടത്താനും നടപടികൾ സ്വീകരിക്കാനും കഴിയുന്ന ഒരു സിമുലേറ്റഡ് ഉപയോക്താവ് ഉണ്ടായിരിക്കാം. റീസണിംഗ് ശ്രമം 'ഒന്നുമില്ല' ആയി ക്രമീകരിച്ചിരുന്നു.

മെച്ചപ്പെട്ട വെബ് തിരയൽ

GPT‑5.4 ഏജന്റിക് വെബ് തിരയലിൽ കൂടുതൽ മികച്ചതാണ്. BrowseComp-ൽ, കണ്ടെത്താൻ ബുദ്ധിമുട്ടുള്ള വിവരങ്ങൾ കണ്ടെത്താൻ AI ഏജന്റുകൾക്ക് വെബ് സ്ഥിരമായി ബ്രൗസ് ചെയ്യാൻ എത്രത്തോളം കഴിയുന്നുവെന്ന അളവിൽ, GPT‑5.4, GPT‑5.2‑നെക്കാൾ 17%_abs മുന്നേറുന്നു, കൂടാതെ GPT‑5.4 Pro, 89.3% എന്ന പുതിയ സ്റ്റേറ്റ് ഓഫ് ദി ആർട്ട് നിലവാരം സ്ഥാപിക്കുന്നു.

പ്രായോഗികമായി പറഞ്ഞാൽ, ഇതിന്റെ അർത്ഥം GPT‑5.4 വെബിലെ നിരവധി ഉറവിടങ്ങളിൽ നിന്നുള്ള വിവരങ്ങൾ ഒരുമിച്ച് പുറത്തെടുക്കൽ ആവശ്യമായ ചോദ്യങ്ങൾക്ക് ഉത്തരങ്ങൾ നൽകുന്നതിൽ Thinking കൂടുതൽ ശക്തമാണ്. “വൈക്കോല്‍ കൂനയില്‍ സൂചി തിരയുന്ന” തരത്തിലുള്ള ചോദ്യങ്ങൾക്കായി പ്രത്യേകിച്ച്, ഏറ്റവും പ്രസക്തമായ ഉറവിടങ്ങളെ തിരിച്ചറിയുന്നതിനായി ഇത് പല റൗണ്ടുകളിലായി കൂടുതൽ സ്ഥിരതയോടെ തിരയുകയും, അവയെ വ്യക്തവും നന്നായി ആലോചിച്ച മറുപടിയായി സംയോജിപ്പിക്കുകയും ചെയ്യാം.

BrowseComp-ൽ, മലിനീകരണം തടയാനും പ്രകടനത്തിന്റെ ന്യായമായ അളവ് ഉറപ്പാക്കാനും, വിലയിരുത്തലിൽ നിന്ന് ബെഞ്ച്മാർക്ക് ഉത്തരങ്ങൾ ഉൾക്കൊള്ളുന്ന വെബ്സൈറ്റുകൾ ഒഴിവാക്കുന്ന ഒരു തിരയൽ ബ്ലോക്ക് ലിസ്റ്റ് ഞങ്ങൾ ഉപയോഗിച്ചു. GPT‑5.4‑നെ GPT‑5.2‑യ്ക്ക് ശേഷമുള്ള ഒരു തീയതിയിൽ അളന്നു, അതിനാൽ മോഡലിലെ മാറ്റങ്ങൾ, ഞങ്ങളുടെ തിരയൽ സിസ്റ്റം, ഇന്റർനെറ്റിന്റെ നില എന്നിവയിലെ മാറ്റങ്ങളെ സ്കോറുകൾ പ്രതിഫലിപ്പിക്കുന്നു. GPT‑5.4 നെ കൂടുതൽ ദൈർഘ്യമുള്ള, അപ്ഡേറ്റ് ചെയ്ത ബ്ലോക്ക് ലിസ്റ്റ് ഉപയോഗിച്ച് പരീക്ഷിച്ചു. മോഡലുകൾ ChatGPT സേര്‍ച്ച്‌ ടൂള്‍ ഉപയോഗിക്കുന്നു, ഇതിന് API തിരയലിൽ നിന്ന് ചെറിയ വ്യത്യാസങ്ങൾ ഉണ്ടായേക്കാം.

“GPT-5.4 xhigh മൾട്ടി-സ്റ്റെപ്പ് ടൂൾ ഉപയോഗത്തിനുള്ള ഏറ്റവും അത്യാധുനികമായ സാങ്കേതികവിദ്യയാണ്. വ്യവസായത്തിലെ ഏറ്റവും കർശനമായ ടൂൾ ഉപയോഗ ബെഞ്ച്മാർക്കുകൾ നടത്തുന്നവരിൽ ഒന്നാണ് സാപ്പിയർ, നൂറുകണക്കിന് പുരോഗതിയുള്ള യഥാർത്ഥ ലോക വർക്ക്‌ഫ്ലോകളിലുടനീളം മോഡലുകളെ പരിശോധിക്കുന്നത്. മുമ്പത്തെ മോഡലുകൾക്ക് പൂർത്തിയാക്കാൻ കഴിയാതെ പോയ ജോലികൾ GPT-5.4 പൂർത്തിയാക്കി - ഇതുവരെ ഏറ്റവും സ്ഥിരതയുള്ള മോഡൽ.”

— വേഡ്, സാപ്പിയറിലെ CEO

സ്റ്റിയറബിലിറ്റി

Codex പ്രവർത്തനം ആരംഭിക്കുമ്പോൾ അതിന്റെ സമീപനം എങ്ങനെ രേഖപ്പെടുത്തുന്നുവോ അതുപോലെ, GPT‑5.4 ChatGPT‑യിൽ ചിന്തിക്കുന്നത് ഇനി ദൈർഘ്യമേറിയതും കൂടുതൽ സങ്കീർണ്ണവുമായ ചോദ്യങ്ങൾക്ക് ഒരു പ്രാരംഭ കുറിപ്പോടെ അതിന്റെ പ്രവർത്തനം രൂപരേഖപ്പെടുത്തും. നിങ്ങൾക്ക് നിർദ്ദേശങ്ങൾ ചേർക്കാനോ പ്രതികരണത്തിനിടയിൽ അതിന്റെ ദിശ ക്രമീകരിക്കാനോ കഴിയും. ഇത് വീണ്ടും തുടക്കം മുതൽ ആരംഭിക്കാതെയും അല്ലെങ്കിൽ ഒന്നിലധികം അധിക ടേൺകൾ ആവശ്യപ്പെടാതെയും, നിങ്ങൾ ആഗ്രഹിക്കുന്ന കൃത്യമായ ഫലത്തിലേക്ക് മോഡലിനെ നയിക്കുന്നത് എളുപ്പമാക്കുന്നു. ഈ ഫീച്ചർ ഇപ്പോൾ chatgpt.com⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ലും Android ആപ്പിലും ലഭ്യമാണ്, iOS ആപ്പിലേക്ക് ഉടൻ വരുന്നു.

മോഡലിന് ബുദ്ധിമുട്ടുള്ള ടാസ്കുകളിൽ കൂടുതൽ സമയം ആലോചിക്കാനും, സംഭാഷണത്തിലെ മുൻകാല ഘട്ടങ്ങളെക്കുറിച്ചുള്ള ശക്തമായ ബോധം നിലനിർത്തിക്കൊണ്ടിരിക്കാനും കഴിയും. ഇത് ദൈർഘ്യമേറിയ പ്രവൃത്തി പ്രവാഹങ്ങളും കൂടുതൽ സങ്കീർണ്ണമായ പ്രോംപ്റ്റുകളും കൈകാര്യം ചെയ്യാൻ അനുവദിക്കുന്നു, അതേസമയം മുഴുവൻ സമയവും ഉത്തരങ്ങൾ ഏകോപിതവും പ്രസക്തവുമായിരിക്കാൻ സഹായിക്കുന്നു.

ചിത്രീകരണത്തിനായി ഈ വീഡിയോ വേഗത്തിലാക്കിയിരിക്കുന്നു.

സുരക്ഷാ

കഴിഞ്ഞ ഏതാനും മാസങ്ങളായി, GPT‑5.4‑നെ വിന്യാസത്തിനായി തയ്യാറാക്കുന്നതിനിടെ, ഞങ്ങൾ GPT‑5.3‑Codex‑നൊപ്പം അവതരിപ്പിച്ച സുരക്ഷാ സംരക്ഷണങ്ങൾ തുടർച്ചയായി മെച്ചപ്പെടുത്തിക്കൊണ്ടിരിക്കുന്നു. GPT‑5.3‑Codex പോലെ, ഞങ്ങളുടെ പ്രിപെയർഡ്നസ് ഫ്രെയിംവർക്ക് പ്രകാരം GPT‑5.4‑നെ ഉയർന്ന സൈബർ ശേഷിയായി പരിഗണിക്കുന്നു, കൂടാതെ സിസ്റ്റം കാർഡ്⁠-ൽ രേഖപ്പെടുത്തിയിരിക്കുന്നതുപോലെ അനുബന്ധ സംരക്ഷണങ്ങളോടെ അത് വിന്യസിക്കുന്നു. ഇവയിൽ വിപുലീകരിച്ച സൈബർ സുരക്ഷാ സ്റ്റാക്ക് ഉൾപ്പെടുന്നു. അതിൽ നിരീക്ഷണ സംവിധാനങ്ങൾ, വിശ്വസനീയമായ ആക്സസ് നിയന്ത്രണങ്ങൾ, കൂടാതെ സീറോ ഡാറ്റ റിട്ടെൻഷൻ (ZDR) സർഫേസുകളിലുള്ള ഉപഭോക്താക്കൾക്കായി ഉയർന്ന അപകടസാധ്യതയുള്ള അഭ്യർത്ഥനകൾക്ക് അസിങ്ക്രോണസ് ബ്ലോക്കിംഗ് എന്നിവയും ഉൾപ്പെടുന്നു. കൂടാതെ വിപുലമായ സുരക്ഷാ ഇക്കോസിസ്റ്റത്തിലേക്കുള്ള തുടർച്ചയായ നിക്ഷേപവും.

സൈബർസുരക്ഷാ കഴിവുകൾ സ്വാഭാവികമായിത്തന്നെ ഇരട്ട-ഉപയോഗമായതിനാൽ, ഞങ്ങൾ ഞങ്ങളുടെ നയങ്ങളും ക്ലാസിഫയറുകളും തുടർച്ചയായി ക്രമീകരിച്ചുകൊണ്ടിരിക്കുമ്പോൾ വിന്യാസത്തിന് മുൻകരുതൽ സമീപനം നിലനിർത്തുന്നു. ZDR സർഫേസുകളിലെ ചില ഉപഭോക്താക്കൾക്കായി, അഭ്യർത്ഥന-തല തടയൽ ഞങ്ങളുടെ സൈബർ അപകടസാധ്യത ലഘൂകരണ സ്റ്റാക്കിന്റെ ഭാഗമായിത്തന്നെ തുടരുന്നു; ക്ലാസിഫയറുകൾ ഇപ്പോഴും മെച്ചപ്പെടുന്നതിനാൽ, ഈ സുരക്ഷാ സംവിധാനങ്ങൾ ഞങ്ങൾ തുടർന്നും പരിഷ്കരിക്കുന്നതിനിടെ ചില തെറ്റായ പോസിറ്റീവുകൾ സംഭവിക്കാം. ഈ അപ്‌ഡേറ്റുകൾ പ്രായോഗികമായി സുരക്ഷാ മുൻകരുതലുകൾ പ്രവർത്തിക്കുന്ന രീതി മെച്ചപ്പെടുത്തുകയാണ് ലക്ഷ്യമിടുന്നത്; അതിൽ അനാവശ്യമായ നിരസിക്കലുകളും അമിതമായ മുന്നറിയിപ്പുകളോടുകൂടിയ മറുപടികളും കുറയ്ക്കുന്നതും ഉൾപ്പെടുന്നു, അതേസമയം ദുരുപയോഗത്തിനെതിരായ ശക്തമായ സംരക്ഷണങ്ങൾ നിലനിർത്തുകയും ചെയ്യുന്നു.

മോഡലുകൾ എങ്ങനെ യുക്തിചിന്ത നടത്തുന്നു എന്ന് കൂടുതൽ മനസ്സിലാക്കാനും സാധ്യതയുള്ള തെറ്റായ പെരുമാറ്റം കണ്ടെത്താൻ സഹായിക്കാനും, ചെയ്ൻ-ഓഫ്-തോട്ട് (CoT) നിരീക്ഷണക്ഷമതയെക്കുറിച്ചുള്ള ഞങ്ങളുടെ സുരക്ഷാ ഗവേഷണം ഞങ്ങൾ തുടർന്നു. ഈ പ്രവർത്തനത്തിന്റെ ഭാഗമായി, നിരീക്ഷണം ഒഴിവാക്കാൻ മോഡലുകൾക്ക് അവരുടെ റീസണിംഗ് ഉദ്ദേശപൂർവ്വം മറച്ചുവെക്കാനാകുമോ എന്ന് അളക്കുന്ന ഒരു പുതിയ ഓപ്പൺ-സോഴ്‌സ് മൂല്യനിർണ്ണയം, CoT controllability⁠, ഞങ്ങൾ അവതരിപ്പിക്കുന്നു. ഞങ്ങൾ കണ്ടെത്തുന്നത് GPT‑5.4 Thinking-ന്റെ CoT നിയന്ത്രിക്കാനുള്ള കഴിവ് കുറവാണ്; ഇത് സുരക്ഷയ്ക്കായി ഒരു അനുകൂല ഗുണമാണ്, മോഡലിന് തന്റെ റീസണിംഗ് മറയ്ക്കാനുള്ള കഴിവ് ഇല്ലെന്ന് സൂചിപ്പിക്കുകയും CoT നിരീക്ഷണം ഫലപ്രദമായ ഒരു സുരക്ഷാ ഉപകരണമായി തുടരുന്നു എന്നും നിർദ്ദേശിക്കുന്നു.

ലഭ്യതയും വിലനിർണ്ണയവും

GPT‑5.4 ഇന്ന് ChatGPT‑ലും Codex-ലും ക്രമേണ പുറത്തിറങ്ങുന്നു. API-യിൽ, GPT‑5.4 ഇപ്പോൾ gpt-5.4 ആയി ലഭ്യമാണ്. GPT‑5.4 Pro API-യിൽ gpt-5.4-pro എന്ന പേരിൽ ലഭ്യമാണ് ഏറ്റവും സങ്കീർണ്ണമായ ടാസ്കുകളിൽ പരമാവധി പ്രകടനം ആവശ്യമായ ഡെവലപ്പർമാർക്കായി.

ChatGPT‑ൽ, GPT‑5.4 Thinking ഇന്ന് മുതൽ ChatGPT Plus, Team, Pro ഉപയോക്താക്കൾക്ക് ലഭ്യമാണ്, GPT‑5.2‑നെ പകരം വച്ച് Thinking. GPT‑5.2 Thinking പണമടച്ച ഉപയോക്താക്കൾക്ക് മോഡൽ പിക്കറിൽ Legacy Models വിഭാഗത്തിന് കീഴിൽ മൂന്ന് മാസത്തേക്ക് കൂടി ലഭ്യമായിരിക്കും, അതിനുശേഷം 2026, ജൂൺ 5-ന് ഇത് നിർത്തലാക്കുന്നതാണ്. Enterprise, Edu പ്ലാനുകളിലുള്ളവർക്ക് അഡ്മിൻ സെറ്റിംഗ്സ് വഴി പ്രാരംഭ ആക്‌സസ് പ്രവർത്തന സജ്ജമാക്കാം. GPT‑5.4 Pro, Pro, Enterprise പദ്ധതികളിൽ ലഭ്യമാണ്. സന്ദർഭ വിൻഡോകൾ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ChatGPT‑ൽ GPT‑5.4‑നായി GPT‑5.2 Thinking ൽ നിന്ന് Thinking മാറ്റമില്ലാതെ തുടരുന്നു.

GPT‑5.4 GPT‑5.3‑codex ന്റെ അത്യാധുനിക കോഡിംഗ് കഴിവുകൾ ഉൾക്കൊള്ളുന്നതും ChatGPT, API, Codex എന്നിവയിലുടനീളം പുറത്തിറങ്ങുന്നതുമായ ഞങ്ങളുടെ ആദ്യ പ്രധാന റീസണിംഗ് മോഡൽ ആണ്. ആ കുതിച്ചാുചട്ടം പ്രതിഫലിപ്പിക്കാനും, Codex ഉപയോഗിക്കുമ്പോൾ മോഡലുകൾ തമ്മിലുള്ള തിരഞ്ഞെടുപ്പ് ലളിതമാക്കാനും, ഞങ്ങൾ അതിനെ GPT‑5.4 എന്ന് വിളിക്കുന്നു. കാലക്രമേണ, ഞങ്ങളുടെ Instant മോഡലുകളും Thinking മോഡലുകളും വ്യത്യസ്ത വേഗതകളിൽ വികസിക്കുമെന്ന് നിങ്ങൾക്ക് പ്രതീക്ഷിക്കാം.

Codex-ലെ GPT‑5.4‑ൽ 1M context window-ന് പരീക്ഷണാത്മക പിന്തുണ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. ഡെവലപ്പർമാർക്ക് model_context_window യും model_auto_compact_token_limitയും ക്രമീകരിച്ച് ഇത് പരീക്ഷിക്കാം. സ്റ്റാൻഡേർഡ് 272K കോൺടെക്സ്റ്റ് വിൻഡോയെ കവിയുന്ന അഭ്യർത്ഥനകൾ സാധാരണ നിരക്കിന്റെ 2x നിരക്കിൽ ഉപയോഗ പരിധികളിൽ എണ്ണപ്പെടും.

APIയിൽ, GPT‑5.4‑ന് ഓരോ ടോക്കൺ-നും വില GPT‑5.2‑നെക്കാൾ കൂടുതലാണ്, അതിന്റെ മെച്ചപ്പെട്ട കഴിവുകൾ പ്രതിഫലിപ്പിക്കുന്നതിനായി; അതേസമയം, അതിന്റെ കൂടുതൽ ടോക്കൺ കാര്യക്ഷമത പല ജോലികൾക്കും ആവശ്യമായ മൊത്തം ടോക്കൺ-കളുടെ എണ്ണം കുറയ്ക്കാൻ സഹായിക്കുന്നു. Batch, Flex വിലനിർണ്ണയം സ്റ്റാൻഡേർഡ് API നിരക്കിന്റെ പകുതിയിൽ ലഭ്യമാണ്, അതേസമയം Priority പ്രോസസ്സിംഗ് സ്റ്റാൻഡേർഡ് API നിരക്കിന്റെ ഇരട്ടിയിൽ ലഭ്യമാണ്.

API മോഡൽ	ഇൻപുട്ട് വില	കാഷെയിലുള്ള ഇൻപുട്ട് വില	ഔട്ട്പുട്ട് വില
gpt-5.2	$1.75 / M ടോക്കൺകൾ	$0.175 / M ടോക്കണുകൾ	$14 / M ടോക്കണുകൾ
gpt-5.4	$2.50 / M ടോക്കൺ	$0.25 / M ടോക്കണുകൾ	$15 / M ടോക്കണുകൾ
gpt-5.2-pro	$21 / M ടോക്കണുകൾ	-	$168 / M ടോക്കണുകൾ
gpt-5.4-pro	$30 / M ടോക്കൺ	-	$180 / M ടോക്കണുകൾ

വിലയിരുത്തലുകൾ

പ്രൊഫഷണൽ

എവാല്യൂവേഷൻ	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83.0%	82.0%	70.9%	70.9%	74.1%
FinanceAgent v1.1	56.0%	61.5%	54.0%	59.5%	—
നിക്ഷേപ ബാങ്കിംഗ് മോഡലിംഗ് ടാസ്കുകൾ (ആന്തരികം)	87.3%	83.6%	79.3%	68.4%	71.7%
OfficeQA	68.1%	—	65.1%	63.1%	—

കോഡിംഗ്

എവാല്യൂവേഷൻ	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (പൊതുവായി)	57.7%	—	56.8%	55.6%	—
Terminal-Bench 2.0	75.1%	—	77.3%	62.2%	—

കമ്പ്യൂട്ടർ ഉപയോഗവും വിഷനും

എവാല്യൂവേഷൻ	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld-സ്ഥിരീകരിച്ചത്	75.0%	—	74.0%	47.3%	—
MMMU Pro (ഉപകരണങ്ങളില്ല)	81.2%	—	—	79.5%	—
MMMU Pro (ടൂളുകൾ ഉൾപ്പെടെ)	82.1%	—	—	80.4%	—

ഉപകരണങ്ങളുടെ ഉപയോഗം

എവാല്യൂവേഷൻ	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82.7%	89.3%	77.3%	65.8%	77.9%
MCP അറ്റ്ലസ്	67.2%	—	—	60.6%	—
Toolathlon	54.6%	—	51.9%	45.7%	—
Tau2-bench Telecom	98.9%	—	—	98.7%	—

അക്കാദമിക്

എവാല്യൂവേഷൻ	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ഫ്രോണ്ടിയർ സയൻസ് റിസർച്ച്	33.0%	36.7%	—	25.2%	—
ഫ്രോണ്ടിയർമാത്ത് ടയർ 1–3	47.6%	—	—	40.7%	—
ഫ്രോണ്ടിയർമാത്ത് ടയർ 4	27.1%	38.0%	—	18.8%	31.3%
GPQA Diamond	92.8%	94.4%	92.6%	92.4%	93.2%
ഹ്യുമാനിറ്റീസ് അവസാന പരീക്ഷ (ടൂളുകളില്ല)	39.8%	42.7%	—	34.5%	36.6%
ഹ്യുമാനിറ്റീസ് അവസാന പരീക്ഷ (ടൂളുകളോടെ)	52.1%	58.7%	—	45.5%	50.0%

ലോംഗ് കോൺടെക്സ്റ്റ്

എവാല്യൂവേഷൻ	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0K–128K	93.0%	—	—	94.0%	—
ഗ്രാഫ്‌വാക്കുകൾ BFS 256K–1M	21.4%	—	—	—	—
Graphwalks പാരന്റുകൾ 0–128K (കൃത്യത)	89.8%	—	—	89.0%	—
Graphwalks പാരന്റുകൾ 256K–1M (കൃത്യത)	32.4%	—	—	—	—
OpenAI MRCR v2 8-നീഡിൽ 4K–8K	97.3%	—	—	98.2%	—
OpenAI MRCR v2 8-നീഡിൽ 8K–16K	91.4%	—	—	89.3%	—
OpenAI MRCR v2 8-സൂചി 16K–32K	97.2%	—	—	95.3%	—
OpenAI MRCR v2 8-നീഡിൽ 32K–64K	90.5%	—	—	92.0%	—
OpenAI MRCR v2 8-സൂചി 64K–128K	86.0%	—	—	85.6%	—
OpenAI MRCR v2 8-നീഡിൽ 128K–256K	79.3%	—	—	77.0%	—
OpenAI MRCR v2 8-നീഡിൽ 256K–512K	57.5%	—	—	—	—
OpenAI MRCR v2 8-സൂചികൾ 512K–1M	36.6%	—	—	—	—

അബ്സ്ട്രാക്റ്റ് റീസണിംഗ്

എവാല്യൂവേഷൻ	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGI-1 (സ്ഥിരീകരിച്ചത്)	93.7%	94.5%	—	86.2%	90.5%
ARC-AGI-2 (സ്ഥിരീകരിച്ചത്)	73.3%	83.3%	—	52.9%	54.2% (ഉയർന്ന)

റീസണിംഗ് ഇല്ലാത്ത മൂല്യനിർണ്ണയങ്ങൾ

എവാല്യൂവേഷൻ	GPT‑5.4 (none)	GPT‑5.2 (ഒന്നുമില്ല)	GPT‑4.1
OmniDocBench (നോർമലൈസ്ഡ് എഡിറ്റ് ഡിസ്റ്റൻസ്)	0.109	0.140	—
Tau2-bench Telecom	64.3%	57.2%	43.6%

മറ്റെവിടെയെങ്കിലും പ്രത്യേകം സൂചിപ്പിച്ചിട്ടില്ലാത്ത പക്ഷം, റീസണിംഗ് ശ്രമം xhigh' എന്ന് സെറ്റ് ചെയ്താണ് ഈ വിലയിരുത്തലുകൾ നടത്തിയത് ബെഞ്ച്മാർക്കുകൾ ഒരു ഗവേഷണ പരിസ്ഥിതിയിൽ നടത്തപ്പെട്ടവയാണ്, ചില സാഹചര്യങ്ങളിൽ ഇത് പ്രൊഡക്ഷൻ ChatGPT‑ൽ നിന്ന് അല്പം വ്യത്യസ്തമായ ഔട്ട്പുട്ട് നൽകാൻ സാധ്യതയുണ്ട്.

2026

രചയിതാവ്

OpenAI

അടിക്കുറിപ്പുകൾ

¹ OSWorld: യഥാർത്ഥ കമ്പ്യൂട്ടർ പരിസരങ്ങളിലെ ഓപ്പന്‍ ഏന്‍ഡ് പ്രവർത്തനങ്ങളിൽ മൾട്ടിമോഡൽ ഏജന്റുകളുടെ പ്രകടനം ബെഞ്ച്മാർക്ക് ചെയ്ത് വിലയിരുത്തൽ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)-ൽ റിപ്പോർട്ട് ചെയ്ത Human performance.

വായന തുടരുക

എല്ലാം കാണുക

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

Microsoft 365 Copilot-ൽ ഇപ്പോൾ മുൻഗണന നൽകുന്ന മോഡൽ GPT-5.6 ആണ്

Product2026 ജൂലൈ 9

GPT-5.6: നിങ്ങളുടെ അഭിലാഷം അനുസരിച്ച് വളരുന്ന അത്യാധുനിക ഇൻ്റലിജൻസ്

Product2026 ജൂലൈ 9

നിങ്ങളുടെ ഏറ്റവും വലിയ ലക്ഷ്യങ്ങൾ കൈവരിക്കാനുള്ള ജോലികളിൽ ഇനി ChatGPT-യും ഒരു പങ്കാളിയാണ്

Product2026 ജൂലൈ 9