പ്രധാന ഉള്ളടക്കത്തിലേക്ക് നീങ്ങുക
OpenAI

2026 മാർച്ച് 5

Productവിടുതൽ

GPT‑5.4 അവതരിപ്പിക്കുന്നു

പ്രൊഫഷണൽ ജോലിക്കായി രൂപകൽപ്പന ചെയ്തിരിക്കുന്നു.

ലോഡിംഗ്…

ഇന്ന്, ഞങ്ങൾ ChatGPT‑ൽ GPT‑5.4 പുറത്തിറക്കുന്നു (GPT‑5.4 Thinking എന്ന പേരില്‍), API, Codex എന്നിവയില്‍. പ്രൊഫഷണൽ ജോലികൾക്കായി ഞങ്ങളുടെ ഏറ്റവും കഴിവുള്ളതും കാര്യക്ഷമവുമായ അത്യാധുനിക മോഡൽ. സങ്കീർണ്ണ ടാസ്കുകളിൽ പരമാവധി പ്രകടനം ആവശ്യമുള്ളവര്‍ക്കായി, ChatGPT‑ലും API-ലും ഞങ്ങൾ GPT‑5.4 Pro കൂടി പുറത്തിറക്കുന്നു.

GPT‑5.4 റീസണിംഗ്, കോഡിംഗ്, ഏജന്റിക് പ്രവാഹങ്ങൾ എന്നിവയിലെ ഞങ്ങളുടെ അടുത്തകാലത്തെ മികച്ച പുരോഗതികളെ ഒരൊറ്റ അത്യാധുനിക മോഡലിൽ കോര്‍ത്തിണക്കിയിരിക്കുന്നു. ഇത് GPT‑5.3‑Codex ന്റെ വ്യവസായത്തിലെ മുൻനിര കോഡിംഗ് കഴിവുകൾ ഉൾക്കൊള്ളുന്നു. കൂടാതെ, ഉപകരണങ്ങൾ, സോഫ്റ്റ്‌വെയർ പരിതസ്ഥിതികൾ, സ്പ്രെഡ്ഷീറ്റുകൾ, പ്രെസന്റേഷനുകൾ, ഡോക്യുമെന്റുകൾ എന്നിവ ഉൾപ്പെടുന്ന പ്രൊഫഷണൽ ടാസ്കുകളിലുടനീളം മോഡൽ പ്രവർത്തനക്ഷമത മെച്ചപ്പെടുത്തുന്നു. കൃത്യമായും, ഫലപ്രദമായും, കാര്യക്ഷമമായും സങ്കീർണ്ണമായ ജോലികൾ ചെയ്തുതീർക്കുന്ന ഒരു മോഡലാണ് ഇതിന്റെ ഫലം, കുറഞ്ഞ ആശയവിനിമയത്തോടെ നിങ്ങൾ ആവശ്യപ്പെട്ടതെല്ലാം നൽകുന്നു.

ChatGPT‑ൽ, GPT‑5.4 Thinking-ന് ഇനി അതിന്റെ ചിന്താരീതിയുടെ ഒരു മുൻകൂർ പദ്ധതി നൽകാൻ കഴിയും, അതിനാൽ അത് പ്രവർത്തിക്കുന്ന സമയത്ത് നിങ്ങൾക്ക് പ്രതികരണത്തിനിടയിൽ ദിശ ക്രമീകരിക്കാനും കഴിയും, കൂടാതെ അധിക ടേൺസ് ഇല്ലാതെ തന്നെ നിങ്ങൾക്ക് ആവശ്യത്തിനു കൂടുതൽ അടുത്തായി പൊരുത്തപ്പെടുന്ന അന്തിമ ഔട്ട്പുട്ടിൽ എത്താനും കഴിയും. GPT‑5.4 Thinking ഡീപ്പ് വെബ് ഗവേഷണം മെച്ചപ്പെടുത്തുകയും ചെയ്യുന്നു, പ്രത്യേകിച്ച് വളരെ പ്രത്യേകമായ ക്വെറികൾക്കായി, കൂടാതെ കൂടുതൽ ദൈർഘ്യമുള്ള ചിന്ത ആവശ്യമായ ചോദ്യങ്ങൾക്ക് സന്ദർഭം കൂടുതൽ നന്നായി നിലനിർത്തുകയും ചെയ്യുന്നു. ഒരുമിച്ച്, ഈ മെച്ചപ്പെടുത്തലുകൾ ഉയർന്ന ഗുണനിലവാരമുള്ള ഉത്തരങ്ങൾ കൂടുതൽ വേഗത്തിൽ ലഭിക്കാനും നിലവിലെ ടാസ്കില്‍ പ്രസക്തമായി തുടരാനും സഹായിക്കുന്നു.

Codex-ലും API-ലും, GPT‑5.4 ഞങ്ങൾ പുറത്തിറക്കിയ ആദ്യത്തെ പൊതുവായ ഉപയോഗത്തിനുള്ള മോഡലാണ്; അത്യാധുനിക കമ്പ്യൂട്ടർ ഉപയോഗ ശേഷികൾ സ്വാഭാവികമായി ഉൾക്കൊള്ളുന്നതിലൂടെ, ഏജന്റുകൾക്ക് കമ്പ്യൂട്ടറുകൾ പ്രവർത്തിപ്പിക്കാനും ആപ്ലിക്കേഷനുകളിലുടനീളം സങ്കീർണ്ണമായ വർക്ക്‌ഫ്ലോകൾ നടപ്പിലാക്കാനും കഴിയും. ഇത് ഇതിന് ഒരു മില്യൺ ടോക്കണുകൾ വരെയുള്ള കോൺടെക്സ്റ്റ് പിന്തുണയുണ്ട്, വലിയ കാന്‍വാസില്‍ ഏജന്റുകളെ ടാസ്കുകൾ പ്ലാൻ ചെയ്യാനും, നടപ്പിലാക്കാനും, സ്ഥിരീകരിക്കാനും അനുവദിക്കുന്നു. GPT‑5.4, ടൂൾ തിരയൽ ഉപയോഗിച്ച്, ഉപകരണങ്ങളുടെയും കണക്ടറുകളുടെയും വലിയ ഇക്കോസിസ്റ്റങ്ങളിലുടനീളം മോഡലുകൾ പ്രവർത്തിക്കുന്ന രീതി കൂടി മെച്ചപ്പെടുത്തുന്നു; ബുദ്ധിശക്തി നഷ്ടപ്പെടാതെ ഏജന്റുകളെ ശരിയായ ഉപകരണങ്ങൾ കൂടുതൽ കാര്യക്ഷമമായി കണ്ടെത്താനും ഉപയോഗിക്കാനും ഇത് സഹായിക്കുന്നു. അവസാനമായി, GPT‑5.4 ഞങ്ങളുടെ ഏറ്റവും ടോക്കൺ കാര്യക്ഷമമായ റീസണിംഗ് മോഡൽ ആണ്, GPT‑5.2 നെ അപേക്ഷിച്ച് പ്രശ്നങ്ങൾ പരിഹരിക്കാൻ ഗണ്യമായി കുറവ് ടോക്കൺ-കൾ മാത്രം ഉപയോഗിക്കുന്നു—അങ്ങനെ ടോക്കൺ ഉപയോഗം കുറയുകയും വേഗത വർധിക്കുകയും ചെയ്യുന്നു.

പൊതുവായ റീസണിംഗ്, കോഡിംഗ്, പ്രൊഫഷണൽ വിജ്ഞാന ജോലികളിലെ പുരോഗതികളോടൊപ്പം, GPT‑5.4 ChatGPT, the API, Codex എന്നിവയിലുടനീളം കൂടുതൽ വിശ്വസനീയമായ ഏജന്റുകൾ, വേഗതയേറിയ ഡെവലപ്പർ വർക്ക്‌ഫ്ലോകൾ, ഉയർന്ന നിലവാരമുള്ള ഔട്ട്പുട്ടുകൾ എന്നിവ സാധ്യമാക്കുന്നു.


GPT‑5.4 

GPT‑5.3‑Codex

GPT‑5.2

GDPval (വിജയങ്ങൾ അല്ലെങ്കിൽ സമനില)

83.0%

70.9%

70.9%

SWE-Bench Pro (പൊതുവായി)

57.7%

56.8%

55.6%

OSWorld-സ്ഥിരീകരിച്ചത്

75.0%

74.0%* 

47.3%

Toolathlon

54.6%

51.9%

46.3%

BrowseComp

82.7%

77.3%

65.8%

*മുമ്പ് 64.7% ആയി റിപ്പോർട്ട് ചെയ്തിരുന്നത്. GPT‑5.3‑Codex യഥാർത്ഥ ചിത്ര റെസല്യൂഷൻ സംരക്ഷിക്കുന്ന പുതുതായി അവതരിപ്പിച്ച ഒരു API പാരാമീറ്ററിലൂടെ 74.0% നേടുന്നു.

വിജ്ഞാന പ്രവർത്തനം

GPT‑5.2യുടെ അടിസ്ഥാനത്തിൽ നിർമ്മിച്ച് പൊതുവായ റീസണിംഗ് കഴിവുകളുടെ പിന്‍ബലത്തില്‍, GPT‑5.4 പ്രൊഫഷണലുകൾക്ക് പ്രാധാന്യമുള്ള യഥാർത്ഥ ലോക ടാസ്കുകളിൽ കൂടുതൽ സ്ഥിരതയുള്ളതും മിനുക്കമുള്ളതുമായ ഫലങ്ങൾ നൽകുന്നു.

GDPval എന്നതിൽ, 44 തൊഴിൽ മേഖലകളിലുടനീളമുള്ള കൃത്യമായി നിർവ്വചിക്കപ്പെട്ട വിജ്ഞാന പ്രവൃത്തികൾ ചെയ്യാനുള്ള ഏജന്റുകളുടെ കഴിവ് പരിശോധിക്കുന്നതിൽ, GPT‑5.4 പുതിയൊരു നേട്ടം കൈവരിച്ചിരിക്കുന്നു, വ്യവസായ പ്രൊഫഷണലുകളുമായി താരതമ്യം ചെയ്യുമ്പോൾ 83.0% കാര്യങ്ങളിലും അവരോടൊപ്പമെത്താനോ അതിലധികമോ ആണ്, GPT‑5.2‑‑ൽ ഇത് 71.0% മാത്രമായിരുന്നു.

GDPval-ൽ, യുഎസ് GDP-യിലേക്ക് ഏറ്റവും കൂടുതൽ സംഭാവന നൽകുന്ന മികച്ച 9 വ്യവസായ മേഖലകളിൽ നിന്നുള്ള 44 തൊഴിലുകളെ ആസ്പദമാക്കി, കൃത്യമായി നിർവചിക്കപ്പെട്ട വിജ്ഞാന പ്രവൃത്തികൾ മോഡലുകൾ ചെയ്യാൻ ശ്രമിക്കുന്ന ഒന്നാണ്. ടാസ്കുകൾ വിൽപ്പന അവതരണങ്ങൾ, അക്കൗണ്ടിംഗ് സ്പ്രെഡ്ഷീറ്റ്, അടിയന്തിര പരിചരണ ഷെഡ്യൂളുകൾ, നിർമ്മാണ ഡയഗ്രം, അല്ലെങ്കിൽ ചെറു വീഡിയോകൾ പോലുള്ള യഥാർത്ഥ പ്രവർത്തന ഉൽപ്പന്നങ്ങൾ ആവശ്യപ്പെടുന്നു. GPT‑5.4‑നായി റീസണിംഗ് ശ്രമം എക്സ്-ഹൈ ആയും GPT‑5.2‑നായി ഹെവി ആയും സജ്ജമാക്കി (ChatGPT‑ൽ അല്പം താഴ്ന്ന ലെവലിൽ).

“GPT-5.4 ഞങ്ങൾ ഇതുവരെ പരീക്ഷിച്ചിട്ടുള്ള ഏറ്റവും മികച്ച മോഡൽ ആണ്. പ്രൊഫഷണൽ സേവന ജോലികൾക്കായുള്ള മോഡൽ പ്രകടനം അളക്കുന്ന ഞങ്ങളുടെ APEX-Agents ബെഞ്ച്മാർക്കിൽ ഇത് ഇപ്പോൾ ലീഡർബോർഡിന്റെ മുകളിൽ ആണ്. സ്ലൈഡ് ഡെക്കുകൾ, സാമ്പത്തിക മോഡലുകൾ, നിയമ വിശകലനം എന്നിവ പോലുള്ള ദീർഘകാല ഡെലിവറബിളുകൾ സൃഷ്ടിക്കുന്നതിൽ ഇത് മികവ് പുലർത്തുന്നു, മത്സരാത്മക അത്യാധുനിക മോഡലുകളേക്കാൾ വേഗത്തിലും കുറഞ്ഞ ചെലവിലും പ്രവർത്തിക്കുമ്പോഴും മികച്ച പ്രകടനം നൽകുന്നു.”
— ബ്രണ്ടൻ ഫൂഡി, മെർക്കോറിലെ CEO

GPT‑5.4‑ന്റെ മെച്ചപ്പെടുത്തലിൽ ഞങ്ങൾ പ്രത്യേക ശ്രദ്ധ നൽകി സ്പ്രെഡ്ഷീറ്റുകൾ, അവതരണങ്ങൾ, ഡോക്യുമെന്റുകൾ എന്നിവ സൃഷ്ടിക്കാനും എഡിറ്റ് ചെയ്യാനും ഉള്ള കഴിവ്. ജൂനിയർ ഇൻവെസ്റ്റ്‌മെന്റ് ബാങ്കിംഗ് അനലിസ്റ്റ് ചെയ്യാൻ സാധ്യതയുള്ള സ്പ്രെഡ്ഷീറ്റ് മോഡലിംഗ് ടാസ്കുകളുടെ ഒരു ആഭ്യന്തര ബെഞ്ച്മാർക്കിൽ, GPT‑5.4 87.5% എന്ന ശരാശരി സ്കോർ നേടുന്നു, 68.4% , GPT‑5.2‑നുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ. അവതരണ വിലയിരുത്തൽ പ്രോംപ്റ്റുകളുടെ ഒരു സെറ്റിൽ, ശക്തമായ സൗന്ദര്യാത്മകത, കൂടുതൽ ദൃശ്യ വൈവിധ്യം, കൂടാതെ ഇമേജ് ജനറേഷൻ കൂടുതൽ ഫലപ്രദമായി ഉപയോഗിച്ചതിനാൽ, മനുഷ്യ റേറ്റർമാർ GPT‑5.4‑യെ 68.0% സമയത്തും GPT‑5.2‑ൽ നിന്നുള്ള അവതരണങ്ങളെക്കാൾ ഇഷ്ടപ്പെട്ടു.

GPT-5.2 vs GPT-5.4 ൽ നിന്നുള്ള സ്പ്രെഡ്ഷീറ്റ് ഔട്ട്പുട്ടുകളുടെ സൈഡ്-ബൈ-സൈഡ് ഉദാഹരണം

ഡോക്യുമെന്റുകൾ റീസണിംഗ് ശ്രമം xhigh ആയി സജ്ജമാക്കി സൃഷ്ടിച്ചു

GPT‑5.4 ഉപയോഗിച്ച് ChatGPT‑ൽ നിങ്ങൾക്ക് ഈ കഴിവുകൾ പരീക്ഷിക്കാം Thinking അല്ലെങ്കിൽ Pro. നിങ്ങൾ ഒരു എന്റർപ്രൈസ് ഉപഭോക്താവാണെങ്കിൽ, ഇന്ന് തന്നെ ലോഞ്ച് ചെയ്ത, പുതുതായി പുറത്തിറക്കിയ ഞങ്ങളുടെ Excel-നും Google Sheets-നും വേണ്ടിയുള്ള ChatGPT പ്ലഗിനുകൾ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഉപയോഗിക്കാൻ ഞങ്ങൾ ശുപാർശ ചെയ്യുന്നു. Codex-ലും API-ലും ലഭ്യമായ ഞങ്ങളുടെ സ്പ്രെഡ്ഷീറ്റ്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) യും പ്രെസന്റേഷൻ കഴിവുകളും(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഞങ്ങൾ അപ്ഡേറ്റ് ചെയ്തിട്ടുണ്ട്.

GPT‑5.4 രൂപപ്പെടുത്താൻ യഥാർത്ഥ ജോലിയിൽ കൂടുതൽ മികച്ചതാക്കാൻ, ഭ്രമാത്മകതയും പിശകുകളും കുറയ്ക്കുന്നതിൽ ഞങ്ങൾ മികവ് തുടരുകയും ചെയ്തു. GPT‑5.4 ഇതുവരെ ഞങ്ങളുടെ ഏറ്റവും വസ്തുതാപരമായ മോഡലാണ്: ഉപയോക്താക്കൾ വസ്തുതാപരമായ പിശകുകൾ ഫ്ലാഗ് ചെയ്ത തിരിച്ചറിയൽ നീക്കിയ പ്രോംപ്റ്റുകളുടെ ഒരു സെറ്റിൽ, GPT‑5.4‑ന് GPT‑5.2 നെ അപേക്ഷിച്ച്, വ്യക്തിഗത അവകാശവാദങ്ങൾ 33% കുറവ് തെറ്റായിരിക്കാനുള്ള സാധ്യതയുണ്ട്, കൂടാതെ അതിന്റെ പൂർണ്ണ പ്രതികരണങ്ങൾ 18% കുറവ് ഏതെങ്കിലും പിശകുകൾ ഉൾക്കൊള്ളാനുള്ള സാധ്യതയുണ്ട്.

“GPT-5.4 രേഖകൾ കൂടുതലുള്ള നിയമപ്രവർത്തനങ്ങൾക്ക് ഒരു പുതിയ മാനദണ്ഡം സ്ഥാപിക്കുന്നു. ഞങ്ങളുടെ ബിഗ്‌ലോ ബെഞ്ച് മൂല്യനിർണ്ണയത്തിൽ, ഇത് 91% സ്കോർ ചെയ്തു. മറ്റ് മോഡലുകളുമായി താരതമ്യം ചെയ്യുമ്പോൾ, GPT-5.4 നിലവിൽ സങ്കീർണ്ണമായ ഇടപാട് വിശകലനം ഘടനാപരമായി ക്രമീകരിക്കുന്നതിലും, ദീർഘമായ കരാറുകളിലുടനീളം കൃത്യത നിലനിർത്തുന്നതിലും, നിയമപ്രവർത്തകർക്ക് ആവശ്യമായ ഉയർന്ന തലത്തിലുള്ള വിശദാംശങ്ങൾ നൽകുന്നതിലും കൂടുതൽ മികച്ചതാണ്.”
— നിക്കോ ഗ്രൂപ്പൻ, ഹാർവിയിലെ ഹെഡ് ഓഫ് അപ്ലൈഡ് റിസർച്ച്

കമ്പ്യൂട്ടർ ഉപയോഗവും വിഷനും

GPT‑5.4 ഞങ്ങളുടെ ആദ്യത്തെ സാധാരണ ഉപയോഗത്തിനുള്ള മോഡൽ ആണ്, സ്വാഭാവിക കമ്പ്യൂട്ടർ ഉപയോഗ ശേഷികൾ ഉള്ളതും ഡെവലപ്പർമാർക്കും ഏജന്റുകൾക്കും ഒരുപോലെ ഒരു വലിയ മുന്നേറ്റം അടയാളപ്പെടുത്തുന്നതുമാണ്. വെബ്‌സൈറ്റുകളിലും സോഫ്റ്റ്‌വെയർ സിസ്റ്റങ്ങളിലുമാകെ യഥാർത്ഥ ജോലികൾ പൂർത്തിയാക്കുന്ന ഏജൻ്റുകൾ നിർമ്മിക്കുന്ന ഡെവലപ്പർമാർക്കായി നിലവിൽ ലഭ്യമായ ഏറ്റവും മികച്ച മോഡൽ ഇതാണ്.

വിപുലമായ കമ്പ്യൂട്ടർ-ഉപയോഗ വർക്ക്‌ലോഡുകളിലുടനീളം മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്ന തരത്തിൽ GPT‑5.4 ഞങ്ങൾ രൂപകൽപ്പന ചെയ്തിട്ടുണ്ട്. Playwright പോലുള്ള ലൈബ്രറികൾ വഴി കമ്പ്യൂട്ടറുകൾ പ്രവർത്തിപ്പിക്കാൻ കോഡ് എഴുതുന്നതിലും, സ്ക്രീൻഷോട്ടുകൾക്ക് പ്രതികരണമായി മൗസും കീബോർഡും കമാൻഡുകൾ നൽകുന്നതിലും ഇത് മികച്ചതാണ്. ഡെവലപ്പർ സന്ദേശങ്ങളിലൂടെ അതിന്റെ പെരുമാറ്റം നിയന്ത്രിക്കാനാകും, അതായത് പ്രത്യേക ഉപയോഗ സാഹചര്യങ്ങൾക്ക് അനുയോജ്യമായി ഡെവലപ്പർമാർക്ക് അത് ക്രമീകരിക്കാനാകും. ഡെവലപ്പർമാർക്ക് ഇച്ഛാനുസൃത സ്ഥിരീകരണ നയങ്ങൾ വ്യക്തമാക്കുന്നതിലൂടെ വ്യത്യസ്ത തലത്തിലുള്ള റിസ്ക് സഹിഷ്ണുതയ്ക്ക് അനുയോജ്യമായി മോഡലിന്റെ സുരക്ഷാ സ്വഭാവം ക്രമീകരിക്കാനാകും.

വ്യത്യസ്ത ക്രമീകരണങ്ങളിലുടനീളം കമ്പ്യൂട്ടർ ഉപയോഗം പരിശോധിക്കുന്ന ബെഞ്ച്മാർക്കുകളിലുടനീളം മോഡലിന്റെ പ്രകടനവും ലവചിത്വവും പ്രതിഫലിക്കുന്നു. OSWorld-Verified-ൽ, സ്ക്രീൻഷോട്ടുകളും കീബോർഡ്/മൗസ് പ്രവർത്തനങ്ങളും വഴി ഒരു മോഡൽ ഡെസ്ക്ടോപ്പ് പരിസ്ഥിതിയിൽ നാവിഗേറ്റ് ചെയ്യാനുള്ള കഴിവ് അളക്കുമ്പോൾ, GPT‑5.4 ഒരു state-of-the-art ആയ 75.0% നേടുന്നു വിജയ നിരക്ക്, GPT‑5.2 നെ വളരെ മറികടന്ന് 47.3% വരെ എത്തുന്നു, കൂടാതെ മനുഷ്യ പ്രകടനത്തെ 72.4%.1ൽ മറികടക്കുന്നു

ബ്രൗസർ ഉപയോഗം പരിശോധിക്കുന്ന WebArena-Verified ൽ, DOM- and screenshot-driven ഇടപെടലുകൾ രണ്ടും ഉപയോഗിക്കുമ്പോൾ GPT‑5.4 67.3% വിജയനിരക്ക് കൈവരിക്കുന്നു, GPT‑5.2യുടെ 65.4% നെ അപേക്ഷിച്ച്. ബ്രൗസർ ഉപയോഗം പരിശോധിക്കുന്ന ഓൺലൈൻ-മൈൻഡ്2വെബ്-ൽ, സ്ക്രീൻഷോട്ട്-അടിസ്ഥാനത്തിലുള്ള നിരീക്ഷണങ്ങൾ മാത്രം ഉപയോഗിച്ച് GPT‑5.4 92.8% വിജയനിരക്ക് കൈവരിക്കുന്നു, 70.9% വിജയനിരക്ക് കൈവരിക്കുന്ന ChatGPT Atlas-ന്റെ ഏജന്റ് മോഡിനെ അപേക്ഷിച്ച് മെച്ചപ്പെട്ടതാണ്.

ടൂൾ യീൽഡ് എന്നത് ഒരു അസിസ്റ്റന്റ്, ടൂൾ പ്രതികരണങ്ങൾക്കായി കാത്തിരിക്കാൻ യീൽഡ് ചെയ്യുന്നതാണ്. 3 ടൂളുകൾ സമാന്തരമായി വിളിക്കപ്പെടുകയും, തുടർന്ന് 3 ടൂളുകൾ കൂടി സമാന്തരമായി വിളിക്കപ്പെടുകയും ചെയ്താൽ, മൊത്തം യീൽഡ്ന്റെ എണ്ണം 2 ആയിരിക്കും. ടൂൾ യീൽഡുകള്‍, ടൂൾ കോളുകളേക്കാൾ ലേറ്റൻസിയുടെ മികച്ച പ്രോക്സിയാണ്, കാരണം അവ സമാന്തരവൽക്കരണത്തിന്റെ പ്രയോജനങ്ങളെ പ്രതിഫലിപ്പിക്കുന്നു.

GPT‑5.4 ഒരു ബ്രൗസർ ഇന്റർഫേസിന്റെ സ്ക്രീൻഷോട്ടുകൾ വ്യാഖ്യാനിക്കുകയും ഇമെയിലുകൾ അയയ്ക്കാനും ഒരു കലണ്ടർ ഇവന്റ് ഷെഡ്യൂൾ ചെയ്യാനും കോഓർഡിനേറ്റ്-അടിസ്ഥാനത്തിലുള്ള ക്ലിക്കിംഗ് വഴി UI ഘടകങ്ങളുമായി ഇടപഴകുകയും ചെയ്യുന്നു.

GPT‑5.4‑യുടെ മെച്ചപ്പെടുത്തിയ കമ്പ്യൂട്ടർ ഉപയോഗം മോഡലിന്റെ മെച്ചപ്പെടുത്തിയ പൊതുവായ ദൃശ്യ ഗ്രഹണ ശേഷികളിലാണ് അടിസ്ഥാനമാക്കപ്പെട്ടിരിക്കുന്നത്. MMMU-Pro ൽ, ഒരു മോഡലിന്റെ ദൃശ്യബോധവും റീസണിംഗും പരിശോധിക്കുന്ന ഒരു ടെസ്റ്റിൽ, GPT‑5.4 ടൂൾ ഉപയോഗമില്ലാതെ 81.2% വിജയനിരക്ക് നേടുന്നു, GPT‑5.2‑ന്റെ 79.5%. മെച്ചപ്പെട്ട ദൃശ്യ ഗ്രഹണശേഷിഎന്നത് മികച്ച ഡോക്യുമെന്റ് പാഴ്സിംഗ് ശേഷികളായും മാറുന്നു. ഓമ്‌നിഡോക് ബെഞ്ചിൽ , റീസണിംഗ് ശ്രമമില്ലാതെ GPT‑5.4 ശരാശരി പിശക് (മോഡൽ പ്രവചനവും ഗ്രൗണ്ട് ട്രൂത്തും തമ്മിലുള്ള നോർമലൈസ്ഡ് എഡിറ്റ് ഡിസ്റ്റൻസ് വഴി അളക്കുന്നത്) 0.109 നേടുന്നു, ഇത് GPT‑5.2‑ന്റെ 0.140-നേക്കാൾ മികച്ചതാണ്.

MMMUPro റീസണിംഗ് ശ്രമം xhigh ആയി സജ്ജമാക്കി പ്രവർത്തിപ്പിച്ചു. കുറഞ്ഞ ചെലവും കുറഞ്ഞ ലേറ്റൻസിയും ഉള്ള പ്രകടനം പ്രതിഫലിപ്പിക്കുന്നതിനായി, റീസണിംഗ് ശ്രമം none ആയി സജ്ജീകരിച്ച് OmniDocBench പ്രവർത്തിപ്പിച്ചു.

പൂർണ്ണ വിശ്വസ്തത ആവശ്യമായ സാഹചര്യങ്ങളില്‍ സാന്ദ്രവും ഉയർന്ന റെസല്യൂഷനുള്ള ചിത്രങ്ങൾക്കായി ദൃശ്യങ്ങളുടെ മനസ്സിലാക്കലും ഞങ്ങൾ മെച്ചപ്പെടുത്തുന്നു. GPT‑5.4 മുതൽ, ഞങ്ങൾ ഒരു ഒറിജിനൽ ഇമേജ് ഇൻപുട്ട് ഡീറ്റെയിൽ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ലെവൽ അവതരിപ്പിക്കുന്നു; ഇത് 10.24M മൊത്തം പിക്സലുകൾ അല്ലെങ്കിൽ 6000-പിക്സൽ പരമാവധി ഡൈമെൻഷൻ (ഏത് കുറവാണോ അത്) വരെ പൂർണ്ണ വിശ്വാസ്യതയുള്ള മനസിലാക്കല്‍ പിന്തുണയ്ക്കുന്നു; high ഇമേജ് ഇൻപുട്ട് ഡീറ്റെയിൽ ലെവൽ ഇപ്പോൾ 2.56M മൊത്തം പിക്സലുകൾ അല്ലെങ്കിൽ 2048-പിക്സൽ പരമാവധി ഡൈമെൻഷൻ (ഏത് കുറവാണോ അത്) വരെ പിന്തുണയ്ക്കുന്നു. API ഉപയോക്താക്കളുമായി നടത്തിയ ആദ്യ പരീക്ഷണത്തിൽ, ഒറിജിനൽ അല്ലെങ്കിൽ high ഡീറ്റെയിൽ ഉപയോഗിക്കുമ്പോൾ ലോക്കലൈസേഷൻ കഴിവ്, ചിത്രത്തെ മനസ്സിലാക്കൽ, ക്ലിക്ക് കൃത്യത എന്നിവയിൽ ശക്തമായ മെച്ചപ്പെടുത്തലുകൾ ഞങ്ങൾ നിരീക്ഷിച്ചു.

“~30K HOAയും പ്രോപ്പർട്ടി ടാക്സ് പോർട്ടലുകളിലുടനീളം കമ്പ്യൂട്ടർ ഉപയോഗ പ്രകടനം അളക്കുന്ന ഞങ്ങളുടെ മൂല്യനിർണ്ണയങ്ങളിൽ, മുൻ CUA മോഡലുകളിലെ ~73–79% നെ അപേക്ഷിച്ച്, GPT-5.4 ആദ്യ ശ്രമത്തിൽ 95% വിജയനിരക്കും മൂന്ന് ശ്രമങ്ങൾക്കുള്ളിൽ 100% വിജയനിരക്കും കൈവരിച്ചു. ഇത് സെഷനുകൾ ~3x വേഗത്തിൽ പൂർത്തിയാക്കുകയും ~70% കുറവ് ടോക്കൺ ഉപയോഗിക്കുകയും ചെയ്തു, ഇത് വലിയ തോതിലുള്ള ഉപയോഗത്തിൽ വിശ്വസനീയതയും ലാഭക്ഷമതയും ഗണ്യമായി മെച്ചപ്പെടുത്തുന്നു."
— ഡോഡ് ഫ്രേസർ, മെയിൻസ്റ്റേയിലെ CEO

API-യിൽ, ഡെവലപ്പർമാർക്ക് അപ്ഡേറ്റ് ചെയ്ത കമ്പ്യൂട്ടർ ടൂൾ ഉപയോഗിച്ച് ഈ കഴിവുകൾ ആക്സസ് ചെയ്യാൻ കഴിയും. ശുപാർശ ചെയ്യുന്ന മികച്ച പ്രാക്ടീസുകൾക്കായി ദയവായി ഞങ്ങളുടെ അപ്‌ഡേറ്റ് ചെയ്ത ഡോക്യുമെന്റേഷൻ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കാണുക.

കോഡിംഗ്

GPT‑5.4, GPT‑5.3‑Codex ന്റെ കോഡിംഗ് ശക്തികളെ മുൻനിര വിജ്ഞാന പ്രവർത്തനവും കമ്പ്യൂട്ടർ-ഉപയോഗ ശേഷികളും ചേർത്ത് സംയോജിപ്പിക്കുന്നു. ദീർഘകാല ടാസ്കുകളിൽ, മോഡൽ ഉപകരണങ്ങൾ ഉപയോഗിക്കാനും, ആവർത്തിച്ച് മെച്ചപ്പെടുത്താനും, കുറവ് മാനുവൽ ഇടപെടലോടെ പ്രവർത്തനം കൂടുതൽ മുന്നോട്ട് കൊണ്ടുപോകാനും കഴിയുന്ന സാഹചര്യങ്ങളിൽ ഇത് ഏറ്റവും പ്രാധാന്യമുള്ളതാണ്. റീസണിംഗ് ശ്രമങ്ങളിലുടനീളം കുറഞ്ഞ ലേറ്റൻസി നിലനിർത്തിക്കൊണ്ട്, SWE-Bench Pro-ൽ ഇത് GPT‑5.3‑Codex‑നെ തുല്യമാക്കുകയോ അതിനെ മറികടക്കുകയോ ചെയ്യുന്നു.

ഞങ്ങളുടെ മോഡലുകളുടെ പ്രൊഡക്ഷൻ പെരുമാറ്റം പരിശോധിച്ചും, ഇത് ഓഫ്‌ലൈനായി സിമുലേറ്റ് ചെയ്തും ഞങ്ങൾ ലേറ്റൻസി കണക്കാക്കുന്നു. ടൂൾ കോൾ ദൈർഘ്യം (കോഡ് നിർവഹണ സമയം), സാമ്പിൾ ചെയ്ത ടോക്കണുകൾ, ഇൻപുട്ട് ടോക്കണുകൾ എന്നിവ കണക്കിലെടുത്താണ് ലാറ്റൻസി കണക്കുകൂട്ടല്‍ നടത്തുന്നത് . യഥാർത്ഥ ലോക ലേറ്റൻസി ഗണ്യമായി വ്യത്യാസപ്പെടാം, മാത്രമല്ല അത് ഞങ്ങളുടെ സിമുലേഷനിൽ ഉൾക്കൊള്ളാത്ത നിരവധി ഘടകങ്ങളെ ആശ്രയിച്ചിരിക്കുന്നു. റീസണിംഗ് ശ്രമങ്ങൾ ഒന്നുമില്ലാത്ത നിലയിൽ നിന്ന് എക്സ്-ഹൈ എന്ന തലത്തിലേക്ക് ഉയർത്തി.

ടോഗിൾ ചെയ്താൽ, Codex-ലെ /fast mode GPT‑5.4‑നൊപ്പം ടോക്കൺ വേഗത 1.5x വരെ വേഗത്തിൽ നൽകുന്നു. ഇത് അതേ മോഡലും അതേ ബുദ്ധിയും തന്നെയാണ്, പക്ഷേ കൂടുതൽ വേഗത്തിൽ. അതായത് ഉപയോക്താക്കൾക്ക് ഒഴുക്കിൽ തുടരുമ്പോൾ കോഡിംഗ് ടാസ്കുകൾ, ആവർത്തനം, ഡീബഗ്ഗിംഗ് എന്നിവയിലൂടെ മുന്നോട്ട് നീങ്ങാൻ കഴിയും. ഡെവലപ്പർമാർക്ക് മുൻഗണനാ പ്രോസസ്സിംഗ്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഉപയോഗിച്ച് API വഴി അതേ വേഗത്തിൽ GPT‑5.4 ആക്സസ് ചെയ്യാൻ കഴിയും.

വിലയിരുത്തലിലും ആന്തരിക പരിശോധനയിലും, മുമ്പ് ഞങ്ങൾ പുറത്തിറക്കിയ ഏതൊരു മോഡലുകളേക്കാളും ശ്രദ്ധേയമായി കൂടുതൽ സൗന്ദര്യപരവും കൂടുതൽ പ്രവർത്തനക്ഷമവുമായ ഫലങ്ങളോടെ, സങ്കീർണ്ണമായ ഫ്രണ്ട് എൻഡ് ടാസ്ക്-കളിൽ GPT‑5.4 മികവ് പുലർത്തുന്നുവെന്ന് ഞങ്ങൾ കണ്ടെത്തി.

മോഡലിന്റെ മെച്ചപ്പെടുത്തിയ കമ്പ്യൂട്ടർ-ഉപയോഗവും കോഡിംഗ് കഴിവുകളും ഒരുമിച്ച് പ്രവർത്തിക്കുന്നതിന്റെ ഒരു പ്രദർശനമായി, “Playwright (Interactive)(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)” എന്ന പേരിലുള്ള ഒരു പരീക്ഷണാത്മക Codex സ്കിൽ ഞങ്ങൾ കൂടി പുറത്തിറക്കുന്നു. ഇത് Codex-നെ വെബ്, Electron ആപ്പുകൾ വിഷ്വലി ഡീബഗ് ചെയ്യാൻ അനുവദിക്കുന്നു; അത് ഒരു ആപ്പ് നിർമ്മിക്കുന്നതിനിടെ തന്നെ, അത് നിർമ്മിക്കുന്ന ആപ്പിനെ ടെസ്റ്റ് ചെയ്യാനും ഉപയോഗിക്കാം.

GPT‑5.4 ഉപയോഗിച്ച്, ലഘുവായ ഒരു പ്രോംപ്റ്റിൽ നിന്ന് നിർമ്മിച്ച തീം പാർക്ക് സിമുലേഷൻ ഗെയിം; ബ്രൗസർ പ്ലേ-ടെസ്റ്റിംഗിനായി പ്ലേറൈറ്റ് ഇന്ററാക്ടീവും, ഐസോമെട്രിക് അസറ്റ് സെറ്റുകൾക്കായി ഇമേജ് ജനറേഷനും ഇതിൽ ഉപയോഗിച്ചിരിക്കുന്നു. സിമുലേഷനിൽ ടൈൽ-അടിസ്ഥാനത്തിലുള്ള പാത സ്ഥാപിക്കൽ, റൈഡും സീനറിയും നിർമ്മിക്കൽ, അതിഥികളുടെ പാത കണ്ടെത്തൽ, ക്യൂയിൽ നിൽക്കൽ, റൈഡ് ചക്രങ്ങൾ എന്നിവ ഉൾപ്പെടുന്നു; അതേസമയം പണം, അതിഥികളുടെ എണ്ണം, സന്തോഷം, ശുചിത്വം, റേറ്റിംഗ് എന്നിവ പോലുള്ള പാർക്ക് മെട്രിക്കുകൾ ലേഔട്ട് എത്രമാത്രം ഫലപ്രദമായി പ്രവർത്തിക്കുന്നു, അതിനോട് അതിഥികൾ എങ്ങനെ പ്രതികരിക്കുന്നു എന്നിവയെ ആശ്രയിച്ച് ഉയരുകയോ താഴുകയോ ചെയ്യും. പാർക്ക് നിർമ്മിക്കുകയും വികസിപ്പിക്കുകയും ചെയ്യുക, പാതകളും ആകർഷണങ്ങളും സ്ഥാപിക്കുകയും നീക്കം ചെയ്യുകയും ചെയ്യുക, ക്യാമറ നാവിഗേഷൻ പരിശോധിക്കുക, കൂടാതെ നിരവധി റൗണ്ടുകളിലായി കളിക്കുമ്പോൾ അതിഥികൾ, ക്യൂകൾ, റൈഡ് സ്റ്റേറ്റുകൾ, UI മെട്രിക്കുകൾ എന്നിവ ശരിയായി അപ്ഡേറ്റ് ആകുന്നുവെന്ന് സ്ഥിരീകരിക്കുക എന്നിവയിലൂടെ ബ്രൗസർ പ്ലേടെസ്റ്റുകൾ ഓട്ടോമേറ്റ് ചെയ്യാൻ പ്ലേറൈറ്റ് ഉപയോഗിച്ചു.

പ്രോംപ്റ്റ്: $playwright-interactive, $imagegen എന്നിവ ഉപയോഗിക്കുക. ബ്രൗസറിൽ എനിക്ക് നിർമ്മിക്കാനും നിയന്ത്രിക്കാനും കഴിയുന്ന തരത്തിൽ, സംവേദനാത്മകമായ ഒരു ഐസോമെട്രിക് തീം പാർക്ക് സിമുലേഷൻ ഗെയിം സൃഷ്ടിക്കുക. ഗെയിമിന്റെ മൊത്തത്തിലുള്ള ദൃശ്യഭംഗി നിശ്ചയിക്കാനും റൈഡുകൾ, പാതകൾ, ഭൂപ്രദേശം, മരങ്ങൾ, വെള്ളം, ഭക്ഷണശാലകൾ, അലങ്കാരങ്ങൾ, കെട്ടിടങ്ങൾ, ഐക്കണുകൾ, UI ചിത്രീകരണങ്ങൾ എന്നിവയുൾപ്പെടെയുള്ള അസറ്റുകൾ നിർമ്മിക്കാനും imagegen ഉപയോഗിക്കുക. ഈ ലോകം ഐസോമെട്രിക് കാഴ്ചപ്പാടിൽ നിന്ന് നോക്കുമ്പോൾ മികച്ച ആർട്ട് ഡയറക്ഷനോടു കൂടിയതും, മനോഹരവും, സമ്പന്നവുമായിരിക്കണം. പാതകൾ നിർമ്മിക്കാനും നീക്കം ചെയ്യാനും, പുതിയ ആകർഷണങ്ങൾ ചേർക്കാനും, കാഴ്ചകൾ ക്രമീകരിക്കാനും, പാർക്കിലെ അതിഥികളുടെ നീക്കങ്ങളും റൈഡുകളുടെ നിലയും പാർക്കിന്റെ വളർച്ചയും നിരീക്ഷിച്ചുകൊണ്ട് സുഗമമായി സഞ്ചരിക്കാനും എന്നെ അനുവദിക്കുക. അതിഥികളുടെ സ്വാഭാവികമായ ചലനങ്ങളും, പണം, ശുചിത്വം, ക്യൂ നിൽക്കൽ, സന്തോഷം എന്നിവ ഉൾപ്പെടുന്ന ലളിതമായ പാർക്ക് മാനേജ്‌മെന്റ് സംവിധാനങ്ങളും ഇതിൽ ഉൾപ്പെടുത്തണം. ഈ അനുഭവം ഒരു പരുക്കൻ മാതൃക പോലെയല്ലാതെ, വ്യക്തവും പൂർണ്ണവുമായ ഒരു ഗെയിം പോലെ തോന്നിപ്പിക്കണം. യാഥാർത്ഥ്യത്തേക്കാൾ ഉപരിയായി ഗെയിമിന്റെ ആകർഷണീയതയ്ക്കും, വ്യക്തതയ്ക്കും മുൻഗണന നൽകുക. 

പ്ലേ ടെസ്റ്റിംഗ് നടത്തുമ്പോൾ, നിരവധി റൗണ്ടുകളിലായി ഒരു പാർക്ക് നിർമ്മിച്ച് വികസിപ്പിക്കുന്നുവെന്ന് ഉറപ്പാക്കുക, പ്ലേസ്മെന്റും നാവിഗേഷനും സുഗമമായി പ്രവർത്തിക്കുന്നുവെന്ന് പരിശോധിക്കുക, പാർക്കിന്റെ ലേഔട്ടിനോടും ആകർഷണങ്ങളോടും അതിഥികൾ പ്രതികരിക്കുന്നുവെന്ന് സ്ഥിരീകരിക്കുക, കൂടാതെ ദൃശ്യങ്ങൾ, UI, ഇടപെടലുകൾ സ്ഥിരതയുള്ളതും ഏകോപിതവുമായതായി തോന്നുന്നുവെന്ന് ഉറപ്പാക്കുക.

“ഞങ്ങളുടെ എഞ്ചിനീയർമാർ GPT-5.4 കണ്ടെത്തുന്നു മുമ്പത്തെ മോഡലുകളേക്കാൾ കൂടുതൽ സ്വാഭാവികവും ആത്മവിശ്വാസപൂർണ്ണവുമാണ് . അവ്യക്തമായ പ്രശ്നങ്ങൾ സ്വയം രണ്ടാമതായി ഊഹിക്കാതെ തന്നെ അത് കൈകാര്യം ചെയ്യുന്നു, കാര്യങ്ങൾ മുന്നോട്ട് നീങ്ങാൻ ജോലികളെ സമാന്തരമാക്കുന്നതിൽ ഇത് മുൻകൈയെടുക്കുകയും ചെയ്യുന്നു.”
— ലീ റോബിൻസൺ, കർസറിലെ ഡെവലപ്പർ എഡ്യൂക്കേഷൻ വൈസ് പ്രസിഡന്റ്

ഉപകരണങ്ങളുടെ ഉപയോഗം

GPT‑5.4‑ഉം ബാഹ്യ ഉപകരണങ്ങളുമായി മോഡലുകൾ പ്രവർത്തിക്കുന്ന രീതി ഞങ്ങൾ ഗണ്യമായി മെച്ചപ്പെടുത്തി. ഏജന്റുകൾക്ക് ഇപ്പോൾ കൂടുതൽ വലിയ ടൂൾ ഇക്കോസിസ്റ്റങ്ങളിലുടനീളം പ്രവർത്തിക്കാനും, ശരിയായ ടൂളുകൾ കൂടുതൽ വിശ്വസനീയമായി തിരഞ്ഞെടുക്കാനും, കുറഞ്ഞ ചെലവും ലേറ്റൻസിയും ഉപയോഗിച്ച് മൾട്ടി-സ്റ്റെപ്പ് വർക്ക്ഫ്ലോകൾ പൂർത്തിയാക്കാനും കഴിയും.

ടൂള്‍ തിരയുക

API-യിൽ, GPT‑5.4 ടൂൾ തിരയൽ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) അവതരിപ്പിക്കുന്നു, ഇത് നിരവധി മോഡലുകൾ നൽകിയിരിക്കുമ്പോൾ കാര്യക്ഷമമായി പ്രവർത്തിക്കാൻ അനുവദിക്കുന്നു.

മുമ്പ്, ഒരു മോഡലിന് ടൂളുകൾ നൽകിയിരുന്നപ്പോൾ, എല്ലാ ടൂൾ നിർവചനങ്ങളും പ്രോംപ്റ്റിൽ മുൻകൂട്ടി ഉൾപ്പെടുത്തിയിരുന്നു. വളരെ അധികം ഉപകരണങ്ങളുള്ള സിസ്റ്റങ്ങളിലേക്കായി, ഇത് ഓരോ അഭ്യർത്ഥനയിലും ആയിരക്കണക്കിന്—അല്ലെങ്കിൽ പതിനായിരക്കണക്കിന് വരെ—ടോക്കൺ-കൾ ചേർക്കാൻ ഇടയാക്കാം; ഇതിലൂടെ ചെലവ് വർധിക്കുകയും, പ്രതികരണങ്ങൾ മന്ദഗതിയിലാകുകയും, മോഡൽ ഒരിക്കലും ഉപയോഗിക്കാതിരിക്കാവുന്ന വിവരങ്ങളാൽ കോൺടെക്സ്റ്റ് നിറയുകയും ചെയ്യും.

ടൂൾ സെർച്ച് ഉപയോഗിച്ച്, GPT‑5.4 ന് ലഭ്യമായ ടൂളുകളുടെ ലഘുവായ പട്ടികയും ടൂൾ സെർച്ച് കഴിവും ലഭിക്കുന്നു. മോഡലിന് ഒരു ടൂൾ ഉപയോഗിക്കേണ്ടിവരുമ്പോൾ, ആ ടൂളിന്റെ നിർവചനം പരിശോധിച്ച് ആ സമയത്ത് സംഭാഷണത്തിൽ ചേർക്കാം.

ഈ സമീപനം ടൂൾ-ഹെവി വർക്ക്ഫ്ലോകൾക്കായി ആവശ്യമായ ടോക്കൺ-കളുടെ എണ്ണം ഗണ്യമായി കുറയ്ക്കുകയും കാഷെ നിലനിർത്തുകയും ചെയ്യുന്നു, അതിലൂടെ അഭ്യർത്ഥനകൾ കൂടുതൽ വേഗത്തിലും കുറഞ്ഞ ചെലവിലും നടത്താം. ഇത് ഏജൻ്റുകൾക്ക് വളരെ വലുതായ ഉപകരണ ഇക്കോസിസ്റ്റങ്ങളുമായി വിശ്വസനീയമായി പ്രവർത്തിക്കാനും സാധ്യമാക്കുന്നു. ടൂൾ നിർവചനങ്ങളുടെ പതിനായിരക്കണക്കിന് ടോക്കൺ-കൾ ഉൾക്കൊള്ളാൻ സാധ്യതയുള്ള MCP സെർവറുകൾക്കായി, കാര്യക്ഷമതയിലെ നേട്ടങ്ങൾ ഗണ്യമായിരിക്കാം.

കാര്യക്ഷമതയിലെ നേട്ടങ്ങൾ കാണിക്കാൻ, രണ്ട് മോഡുകളിൽ എല്ലാ 36 MCP സെർവറുകളും സജ്ജീകരിച്ച നിലയിൽ സ്കെയിലിന്റെ MCP അറ്റ്‌ലസ്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ബെഞ്ച്മാർക്കിൽ നിന്നുള്ള 250 ടാസ്കുകൾ ഞങ്ങൾ വിലയിരുത്തി: (1) ഓരോ MCP ഫംഗ്ഷനും നേരിട്ട് മോഡൽ കോൺടെക്സ്റ്റിൽ എക്സ്പോസ് ചെയ്യുക, (2) എല്ലാ MCP സെർവറുകളെയും ടൂൾ സെർച്ചിന് പിന്നിൽ സ്ഥാപിക്കുക. ടൂൾ-തിരയൽ കോൺഫിഗറേഷൻ അതേ കൃത്യത കൈവരിക്കുമ്പോൾ മൊത്തം ടോക്കൺ ഉപയോഗം 47% കുറച്ചു.

ഉദാഹരണ ടോക്കൺ എണ്ണങ്ങൾ MCP-Atlas പബ്ലിക് ഡാറ്റാസെറ്റിലെ 250 ടാസ്കുകളുടെ ശരാശരി എടുത്തതാണ്.

ഏജന്റിക് ടൂൾ കോളിംഗ്

GPT‑5.4 ടൂൾ കോളിംഗ് കൂടി മെച്ചപ്പെടുത്തുന്നു, പ്രത്യേകിച്ച് API-യിൽ, റീസണിംഗ് സമയത്ത് ടൂളുകൾ എപ്പോൾ എങ്ങനെ ഉപയോഗിക്കണമെന്ന് തീരുമാനിക്കുമ്പോൾ അത് കൂടുതൽ കൃത്യവും കാര്യക്ഷമവുമാക്കുന്നു.  GPT‑5.2 നെ അപേക്ഷിച്ച്, യഥാർത്ഥ ലോക ഉപകരണങ്ങളും APIകളും ഉപയോഗിച്ച് മൾട്ടി-സ്റ്റെപ്പ് ടാസ്കുകൾ പൂർത്തിയാക്കുന്നതിൽ AI ഏജൻ്റുകൾ എത്രത്തോളം കഴിവുള്ളവരാണെന്ന് പരിശോധിക്കുന്ന ഒരു ബെഞ്ച്മാർക്കായ Toolathlon-ൽ, കുറച്ച് ടേൺസിൽ തന്നെ ഇത് കൂടുതൽ ഉയർന്ന കൃത്യത കൈവരിക്കുന്നു. ഉദാഹരണത്തിന്, ഒരു ഏജന്റിന് ഇമെയിലുകൾ വായിക്കണം, അസൈൻമെന്റ് അറ്റാച്ച്മെന്റുകൾ എക്സ്ട്രാക്റ്റ് ചെയ്യണം, അവ അപ്‌ലോഡ് ചെയ്യണം, അവ ഗ്രേഡ് ചെയ്യണം, കൂടാതെ ഒരു സ്പ്രെഡ്ഷീറ്റിൽ ഫലങ്ങൾ രേഖപ്പെടുത്തണം.

ടൂൾ യീൽഡ് എന്നത് ഒരു അസിസ്റ്റന്റ്, ടൂൾ പ്രതികരണങ്ങൾക്കായി കാത്തിരിക്കാൻ യീൽഡ് ചെയ്യുന്നതാണ്. 3 ടൂളുകൾ സമാന്തരമായി വിളിക്കപ്പെടുകയും, തുടർന്ന് 3 ടൂളുകൾ കൂടി സമാന്തരമായി വിളിക്കപ്പെടുകയും ചെയ്താൽ, മൊത്തം യീൽഡ്ന്റെ എണ്ണം 2 ആയിരിക്കും. ടൂൾ യീൽഡുകള്‍, ടൂൾ കോളുകളേക്കാൾ ലേറ്റൻസിയുടെ മികച്ച പ്രോക്സിയാണ്, കാരണം അവ സമാന്തരവൽക്കരണത്തിന്റെ പ്രയോജനങ്ങളെ പ്രതിഫലിപ്പിക്കുന്നു.

ലേറ്റൻസി-സെൻസിറ്റീവ് ഉപയോഗ കേസുകൾക്കായി റീസണിംഗ് ശ്രമം 'ഒന്നുമില്ല' എന്ന് ആക്കുന്നത് മുൻഗണനയായിരിക്കുന്ന സാഹചര്യങ്ങളിൽ, GPT‑5.4 അതിന്റെ മുൻഗാമികളേക്കാൾ കൂടുതൽ മെച്ചപ്പെടുത്തുന്നു.

In τ2-ബെഞ്ച്⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ൽ, ഒരു മോഡൽ ഉപഭോക്തൃ സേവന ടാസ്ക് പൂർത്തിയാക്കുന്നതിനായി ഉപകരണങ്ങൾ ഉപയോഗിക്കണം, അവിടെ ലോകത്തിന്റെ അവസ്ഥയിൽ ആശയവിനിമയം നടത്താനും നടപടികൾ സ്വീകരിക്കാനും കഴിയുന്ന ഒരു സിമുലേറ്റഡ് ഉപയോക്താവ് ഉണ്ടായിരിക്കാം. റീസണിംഗ് ശ്രമം 'ഒന്നുമില്ല' ആയി ക്രമീകരിച്ചിരുന്നു.

മെച്ചപ്പെട്ട വെബ് തിരയൽ

GPT‑5.4 ഏജന്റിക് വെബ് തിരയലിൽ കൂടുതൽ മികച്ചതാണ്. BrowseComp-ൽ, കണ്ടെത്താൻ ബുദ്ധിമുട്ടുള്ള വിവരങ്ങൾ കണ്ടെത്താൻ AI ഏജന്റുകൾക്ക് വെബ് സ്ഥിരമായി ബ്രൗസ് ചെയ്യാൻ എത്രത്തോളം കഴിയുന്നുവെന്ന അളവിൽ, GPT‑5.4, GPT‑5.2‑നെക്കാൾ 17%abs മുന്നേറുന്നു, കൂടാതെ GPT‑5.4 Pro, 89.3% എന്ന പുതിയ സ്റ്റേറ്റ് ഓഫ് ദി ആർട്ട് നിലവാരം സ്ഥാപിക്കുന്നു.

പ്രായോഗികമായി പറഞ്ഞാൽ, ഇതിന്റെ അർത്ഥം GPT‑5.4 വെബിലെ നിരവധി ഉറവിടങ്ങളിൽ നിന്നുള്ള വിവരങ്ങൾ ഒരുമിച്ച് പുറത്തെടുക്കൽ ആവശ്യമായ ചോദ്യങ്ങൾക്ക് ഉത്തരങ്ങൾ നൽകുന്നതിൽ Thinking കൂടുതൽ ശക്തമാണ്. “വൈക്കോല്‍ കൂനയില്‍ സൂചി തിരയുന്ന” തരത്തിലുള്ള ചോദ്യങ്ങൾക്കായി പ്രത്യേകിച്ച്, ഏറ്റവും പ്രസക്തമായ ഉറവിടങ്ങളെ തിരിച്ചറിയുന്നതിനായി ഇത് പല റൗണ്ടുകളിലായി കൂടുതൽ സ്ഥിരതയോടെ തിരയുകയും, അവയെ വ്യക്തവും നന്നായി ആലോചിച്ച മറുപടിയായി സംയോജിപ്പിക്കുകയും ചെയ്യാം.

BrowseComp-ൽ, മലിനീകരണം തടയാനും പ്രകടനത്തിന്റെ ന്യായമായ അളവ് ഉറപ്പാക്കാനും, വിലയിരുത്തലിൽ നിന്ന് ബെഞ്ച്മാർക്ക് ഉത്തരങ്ങൾ ഉൾക്കൊള്ളുന്ന വെബ്സൈറ്റുകൾ ഒഴിവാക്കുന്ന ഒരു തിരയൽ ബ്ലോക്ക് ലിസ്റ്റ് ഞങ്ങൾ ഉപയോഗിച്ചു. GPT‑5.4‑നെ GPT‑5.2‑യ്ക്ക് ശേഷമുള്ള ഒരു തീയതിയിൽ അളന്നു, അതിനാൽ മോഡലിലെ മാറ്റങ്ങൾ, ഞങ്ങളുടെ തിരയൽ സിസ്റ്റം, ഇന്റർനെറ്റിന്റെ നില എന്നിവയിലെ മാറ്റങ്ങളെ സ്കോറുകൾ പ്രതിഫലിപ്പിക്കുന്നു. GPT‑5.4 നെ കൂടുതൽ ദൈർഘ്യമുള്ള, അപ്ഡേറ്റ് ചെയ്ത ബ്ലോക്ക് ലിസ്റ്റ് ഉപയോഗിച്ച് പരീക്ഷിച്ചു. മോഡലുകൾ ChatGPT സേര്‍ച്ച്‌ ടൂള്‍ ഉപയോഗിക്കുന്നു, ഇതിന് API തിരയലിൽ നിന്ന് ചെറിയ വ്യത്യാസങ്ങൾ ഉണ്ടായേക്കാം.

“GPT-5.4 xhigh മൾട്ടി-സ്റ്റെപ്പ് ടൂൾ ഉപയോഗത്തിനുള്ള ഏറ്റവും അത്യാധുനികമായ സാങ്കേതികവിദ്യയാണ്. വ്യവസായത്തിലെ ഏറ്റവും കർശനമായ ടൂൾ ഉപയോഗ ബെഞ്ച്മാർക്കുകൾ നടത്തുന്നവരിൽ ഒന്നാണ് സാപ്പിയർ, നൂറുകണക്കിന് പുരോഗതിയുള്ള യഥാർത്ഥ ലോക വർക്ക്‌ഫ്ലോകളിലുടനീളം മോഡലുകളെ പരിശോധിക്കുന്നത്. മുമ്പത്തെ മോഡലുകൾക്ക് പൂർത്തിയാക്കാൻ കഴിയാതെ പോയ ജോലികൾ GPT-5.4 പൂർത്തിയാക്കി - ഇതുവരെ ഏറ്റവും സ്ഥിരതയുള്ള മോഡൽ.”
— വേഡ്, സാപ്പിയറിലെ CEO

സ്റ്റിയറബിലിറ്റി

Codex പ്രവർത്തനം ആരംഭിക്കുമ്പോൾ അതിന്റെ സമീപനം എങ്ങനെ രേഖപ്പെടുത്തുന്നുവോ അതുപോലെ, GPT‑5.4 ChatGPT‑യിൽ ചിന്തിക്കുന്നത് ഇനി ദൈർഘ്യമേറിയതും കൂടുതൽ സങ്കീർണ്ണവുമായ ചോദ്യങ്ങൾക്ക് ഒരു പ്രാരംഭ കുറിപ്പോടെ അതിന്റെ പ്രവർത്തനം രൂപരേഖപ്പെടുത്തും. നിങ്ങൾക്ക് നിർദ്ദേശങ്ങൾ ചേർക്കാനോ പ്രതികരണത്തിനിടയിൽ അതിന്റെ ദിശ ക്രമീകരിക്കാനോ കഴിയും. ഇത് വീണ്ടും തുടക്കം മുതൽ ആരംഭിക്കാതെയും അല്ലെങ്കിൽ ഒന്നിലധികം അധിക ടേൺകൾ ആവശ്യപ്പെടാതെയും, നിങ്ങൾ ആഗ്രഹിക്കുന്ന കൃത്യമായ ഫലത്തിലേക്ക് മോഡലിനെ നയിക്കുന്നത് എളുപ്പമാക്കുന്നു. ഈ ഫീച്ചർ ഇപ്പോൾ chatgpt.com(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ലും Android ആപ്പിലും ലഭ്യമാണ്, iOS ആപ്പിലേക്ക് ഉടൻ വരുന്നു.

മോഡലിന് ബുദ്ധിമുട്ടുള്ള ടാസ്കുകളിൽ കൂടുതൽ സമയം ആലോചിക്കാനും, സംഭാഷണത്തിലെ മുൻകാല ഘട്ടങ്ങളെക്കുറിച്ചുള്ള ശക്തമായ ബോധം നിലനിർത്തിക്കൊണ്ടിരിക്കാനും കഴിയും. ഇത് ദൈർഘ്യമേറിയ പ്രവൃത്തി പ്രവാഹങ്ങളും കൂടുതൽ സങ്കീർണ്ണമായ പ്രോംപ്റ്റുകളും കൈകാര്യം ചെയ്യാൻ അനുവദിക്കുന്നു, അതേസമയം മുഴുവൻ സമയവും ഉത്തരങ്ങൾ ഏകോപിതവും പ്രസക്തവുമായിരിക്കാൻ സഹായിക്കുന്നു.

ചിത്രീകരണത്തിനായി ഈ വീഡിയോ വേഗത്തിലാക്കിയിരിക്കുന്നു.

സുരക്ഷാ

കഴിഞ്ഞ ഏതാനും മാസങ്ങളായി, GPT‑5.4‑നെ വിന്യാസത്തിനായി തയ്യാറാക്കുന്നതിനിടെ, ഞങ്ങൾ GPT‑5.3‑Codex‑നൊപ്പം അവതരിപ്പിച്ച സുരക്ഷാ സംരക്ഷണങ്ങൾ തുടർച്ചയായി മെച്ചപ്പെടുത്തിക്കൊണ്ടിരിക്കുന്നു. GPT‑5.3‑Codex പോലെ, ഞങ്ങളുടെ പ്രിപെയർഡ്നസ് ഫ്രെയിംവർക്ക് പ്രകാരം GPT‑5.4‑നെ ഉയർന്ന സൈബർ ശേഷിയായി പരിഗണിക്കുന്നു, കൂടാതെ സിസ്റ്റം കാർഡ്-ൽ രേഖപ്പെടുത്തിയിരിക്കുന്നതുപോലെ അനുബന്ധ സംരക്ഷണങ്ങളോടെ അത് വിന്യസിക്കുന്നു. ഇവയിൽ വിപുലീകരിച്ച സൈബർ സുരക്ഷാ സ്റ്റാക്ക് ഉൾപ്പെടുന്നു. അതിൽ നിരീക്ഷണ സംവിധാനങ്ങൾ, വിശ്വസനീയമായ ആക്സസ് നിയന്ത്രണങ്ങൾ, കൂടാതെ സീറോ ഡാറ്റ റിട്ടെൻഷൻ (ZDR) സർഫേസുകളിലുള്ള ഉപഭോക്താക്കൾക്കായി ഉയർന്ന അപകടസാധ്യതയുള്ള അഭ്യർത്ഥനകൾക്ക് അസിങ്ക്രോണസ് ബ്ലോക്കിംഗ് എന്നിവയും ഉൾപ്പെടുന്നു. കൂടാതെ വിപുലമായ സുരക്ഷാ ഇക്കോസിസ്റ്റത്തിലേക്കുള്ള തുടർച്ചയായ നിക്ഷേപവും.

സൈബർസുരക്ഷാ കഴിവുകൾ സ്വാഭാവികമായിത്തന്നെ ഇരട്ട-ഉപയോഗമായതിനാൽ, ഞങ്ങൾ ഞങ്ങളുടെ നയങ്ങളും ക്ലാസിഫയറുകളും തുടർച്ചയായി ക്രമീകരിച്ചുകൊണ്ടിരിക്കുമ്പോൾ വിന്യാസത്തിന് മുൻകരുതൽ സമീപനം നിലനിർത്തുന്നു. ZDR സർഫേസുകളിലെ ചില ഉപഭോക്താക്കൾക്കായി, അഭ്യർത്ഥന-തല തടയൽ ഞങ്ങളുടെ സൈബർ അപകടസാധ്യത ലഘൂകരണ സ്റ്റാക്കിന്റെ ഭാഗമായിത്തന്നെ തുടരുന്നു; ക്ലാസിഫയറുകൾ ഇപ്പോഴും മെച്ചപ്പെടുന്നതിനാൽ, ഈ സുരക്ഷാ സംവിധാനങ്ങൾ ഞങ്ങൾ തുടർന്നും പരിഷ്കരിക്കുന്നതിനിടെ ചില തെറ്റായ പോസിറ്റീവുകൾ സംഭവിക്കാം. ഈ അപ്‌ഡേറ്റുകൾ പ്രായോഗികമായി സുരക്ഷാ മുൻകരുതലുകൾ പ്രവർത്തിക്കുന്ന രീതി മെച്ചപ്പെടുത്തുകയാണ് ലക്ഷ്യമിടുന്നത്; അതിൽ അനാവശ്യമായ നിരസിക്കലുകളും അമിതമായ മുന്നറിയിപ്പുകളോടുകൂടിയ മറുപടികളും കുറയ്ക്കുന്നതും ഉൾപ്പെടുന്നു, അതേസമയം ദുരുപയോഗത്തിനെതിരായ ശക്തമായ സംരക്ഷണങ്ങൾ നിലനിർത്തുകയും ചെയ്യുന്നു.

മോഡലുകൾ എങ്ങനെ യുക്തിചിന്ത നടത്തുന്നു എന്ന് കൂടുതൽ മനസ്സിലാക്കാനും സാധ്യതയുള്ള തെറ്റായ പെരുമാറ്റം കണ്ടെത്താൻ സഹായിക്കാനും, ചെയ്ൻ-ഓഫ്-തോട്ട് (CoT) നിരീക്ഷണക്ഷമതയെക്കുറിച്ചുള്ള ഞങ്ങളുടെ സുരക്ഷാ ഗവേഷണം ഞങ്ങൾ തുടർന്നു. ഈ പ്രവർത്തനത്തിന്റെ ഭാഗമായി, നിരീക്ഷണം ഒഴിവാക്കാൻ മോഡലുകൾക്ക് അവരുടെ റീസണിംഗ് ഉദ്ദേശപൂർവ്വം മറച്ചുവെക്കാനാകുമോ എന്ന് അളക്കുന്ന ഒരു പുതിയ ഓപ്പൺ-സോഴ്‌സ് മൂല്യനിർണ്ണയം, CoT controllability,  ഞങ്ങൾ അവതരിപ്പിക്കുന്നു. ഞങ്ങൾ കണ്ടെത്തുന്നത് GPT‑5.4 Thinking-ന്റെ CoT നിയന്ത്രിക്കാനുള്ള കഴിവ് കുറവാണ്; ഇത് സുരക്ഷയ്ക്കായി ഒരു അനുകൂല ഗുണമാണ്, മോഡലിന് തന്റെ റീസണിംഗ് മറയ്ക്കാനുള്ള കഴിവ് ഇല്ലെന്ന് സൂചിപ്പിക്കുകയും CoT നിരീക്ഷണം ഫലപ്രദമായ ഒരു സുരക്ഷാ ഉപകരണമായി തുടരുന്നു എന്നും നിർദ്ദേശിക്കുന്നു.

ലഭ്യതയും വിലനിർണ്ണയവും

GPT‑5.4 ഇന്ന് ChatGPT‑ലും Codex-ലും ക്രമേണ പുറത്തിറങ്ങുന്നു. API-യിൽ, GPT‑5.4 ഇപ്പോൾ gpt-5.4 ആയി ലഭ്യമാണ്. GPT‑5.4 Pro API-യിൽ gpt-5.4-pro എന്ന പേരിൽ ലഭ്യമാണ് ഏറ്റവും സങ്കീർണ്ണമായ ടാസ്കുകളിൽ പരമാവധി പ്രകടനം ആവശ്യമായ ഡെവലപ്പർമാർക്കായി.

ChatGPT‑ൽ, GPT‑5.4 Thinking ഇന്ന് മുതൽ ChatGPT Plus, Team, Pro ഉപയോക്താക്കൾക്ക് ലഭ്യമാണ്, GPT‑5.2‑നെ പകരം വച്ച് Thinking. GPT‑5.2 Thinking പണമടച്ച ഉപയോക്താക്കൾക്ക് മോഡൽ പിക്കറിൽ Legacy Models വിഭാഗത്തിന് കീഴിൽ മൂന്ന് മാസത്തേക്ക് കൂടി ലഭ്യമായിരിക്കും, അതിനുശേഷം 2026, ജൂൺ 5-ന് ഇത് നിർത്തലാക്കുന്നതാണ്. Enterprise, Edu പ്ലാനുകളിലുള്ളവർക്ക് അഡ്മിൻ സെറ്റിംഗ്സ് വഴി പ്രാരംഭ ആക്‌സസ് പ്രവർത്തന സജ്ജമാക്കാം. GPT‑5.4 Pro, Pro, Enterprise പദ്ധതികളിൽ ലഭ്യമാണ്. സന്ദർഭ വിൻഡോകൾ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ChatGPT‑ൽ GPT‑5.4‑നായി GPT‑5.2 Thinking ൽ നിന്ന് Thinking മാറ്റമില്ലാതെ തുടരുന്നു.

GPT‑5.4 GPT‑5.3‑codex ന്റെ അത്യാധുനിക കോഡിംഗ് കഴിവുകൾ ഉൾക്കൊള്ളുന്നതും ChatGPT, API, Codex എന്നിവയിലുടനീളം പുറത്തിറങ്ങുന്നതുമായ ഞങ്ങളുടെ ആദ്യ പ്രധാന റീസണിംഗ് മോഡൽ ആണ്. ആ കുതിച്ചാുചട്ടം പ്രതിഫലിപ്പിക്കാനും, Codex ഉപയോഗിക്കുമ്പോൾ മോഡലുകൾ തമ്മിലുള്ള തിരഞ്ഞെടുപ്പ് ലളിതമാക്കാനും, ഞങ്ങൾ അതിനെ GPT‑5.4 എന്ന് വിളിക്കുന്നു. കാലക്രമേണ, ഞങ്ങളുടെ Instant മോഡലുകളും Thinking മോഡലുകളും വ്യത്യസ്ത വേഗതകളിൽ വികസിക്കുമെന്ന് നിങ്ങൾക്ക് പ്രതീക്ഷിക്കാം.

Codex-ലെ GPT‑5.4‑ൽ 1M context window-ന് പരീക്ഷണാത്മക പിന്തുണ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. ഡെവലപ്പർമാർക്ക് model_context_window യും model_auto_compact_token_limitയും ക്രമീകരിച്ച് ഇത് പരീക്ഷിക്കാം. സ്റ്റാൻഡേർഡ് 272K കോൺടെക്സ്റ്റ് വിൻഡോയെ കവിയുന്ന അഭ്യർത്ഥനകൾ സാധാരണ നിരക്കിന്റെ 2x നിരക്കിൽ ഉപയോഗ പരിധികളിൽ എണ്ണപ്പെടും.

APIയിൽ, GPT‑5.4‑ന് ഓരോ ടോക്കൺ-നും വില GPT‑5.2‑നെക്കാൾ കൂടുതലാണ്, അതിന്റെ മെച്ചപ്പെട്ട കഴിവുകൾ പ്രതിഫലിപ്പിക്കുന്നതിനായി; അതേസമയം, അതിന്റെ കൂടുതൽ ടോക്കൺ കാര്യക്ഷമത പല ജോലികൾക്കും ആവശ്യമായ മൊത്തം ടോക്കൺ-കളുടെ എണ്ണം കുറയ്ക്കാൻ സഹായിക്കുന്നു. Batch, Flex വിലനിർണ്ണയം സ്റ്റാൻഡേർഡ് API നിരക്കിന്റെ പകുതിയിൽ ലഭ്യമാണ്, അതേസമയം Priority പ്രോസസ്സിംഗ് സ്റ്റാൻഡേർഡ് API നിരക്കിന്റെ ഇരട്ടിയിൽ ലഭ്യമാണ്.

API മോഡൽ

ഇൻപുട്ട് വില

കാഷെയിലുള്ള ഇൻപുട്ട് വില

ഔട്ട്പുട്ട് വില

gpt-5.2

$1.75 / M ടോക്കൺകൾ

$0.175 / M ടോക്കണുകൾ

$14 / M ടോക്കണുകൾ

gpt-5.4

$2.50 / M ടോക്കൺ

$0.25 / M ടോക്കണുകൾ

$15 / M ടോക്കണുകൾ

gpt-5.2-pro

$21 / M ടോക്കണുകൾ

-

$168 / M ടോക്കണുകൾ

gpt-5.4-pro

$30 / M ടോക്കൺ

-

$180 / M ടോക്കണുകൾ

വിലയിരുത്തലുകൾ

പ്രൊഫഷണൽ

എവാല്യൂവേഷൻ

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

GDPval

83.0%

82.0%

70.9%

70.9%

74.1%

FinanceAgent v1.1

56.0%

61.5%

54.0%

59.5%

നിക്ഷേപ ബാങ്കിംഗ് മോഡലിംഗ് ടാസ്കുകൾ (ആന്തരികം)

87.3%

83.6%

79.3%

68.4%

71.7%

OfficeQA

68.1%

65.1%

63.1%

കോഡിംഗ്

എവാല്യൂവേഷൻ

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

SWE-Bench Pro (പൊതുവായി)

57.7%

56.8%

55.6%

Terminal-Bench 2.0

75.1%

77.3%

62.2%

കമ്പ്യൂട്ടർ ഉപയോഗവും വിഷനും

എവാല്യൂവേഷൻ

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

OSWorld-സ്ഥിരീകരിച്ചത്

75.0%

74.0%

47.3%

MMMU Pro (ഉപകരണങ്ങളില്ല)

81.2%

79.5%

MMMU Pro (ടൂളുകൾ ഉൾപ്പെടെ)

82.1%

80.4%

ഉപകരണങ്ങളുടെ ഉപയോഗം

എവാല്യൂവേഷൻ

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

BrowseComp

82.7%

89.3%

77.3%

65.8%

77.9%

MCP അറ്റ്ലസ്

67.2%

60.6%

Toolathlon

54.6%

51.9%

45.7%

Tau2-bench Telecom

98.9%

98.7%

അക്കാദമിക്

എവാല്യൂവേഷൻ

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

ഫ്രോണ്ടിയർ സയൻസ് റിസർച്ച്

33.0%

36.7%

25.2%

ഫ്രോണ്ടിയർമാത്ത് ടയർ 1–3

47.6%

40.7%

ഫ്രോണ്ടിയർമാത്ത് ടയർ 4

27.1%

38.0%

18.8%

31.3%

GPQA Diamond

92.8%

94.4%

92.6%

92.4%

93.2%

ഹ്യുമാനിറ്റീസ് അവസാന പരീക്ഷ (ടൂളുകളില്ല)

39.8%

42.7%

34.5%

36.6%

ഹ്യുമാനിറ്റീസ് അവസാന പരീക്ഷ (ടൂളുകളോടെ)

52.1%

58.7%

45.5%

50.0%

ലോംഗ് കോൺടെക്സ്റ്റ്

എവാല്യൂവേഷൻ

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Graphwalks BFS 0K–128K

93.0%

94.0%

ഗ്രാഫ്‌വാക്കുകൾ BFS 256K–1M

21.4%

Graphwalks പാരന്റുകൾ 0–128K (കൃത്യത)

89.8%

89.0%

Graphwalks പാരന്റുകൾ 256K–1M (കൃത്യത)

32.4%

OpenAI MRCR v2 8-നീഡിൽ 4K–8K

97.3%

98.2%

OpenAI MRCR v2 8-നീഡിൽ 8K–16K

91.4%

89.3%

OpenAI MRCR v2 8-സൂചി 16K–32K

97.2%

95.3%

OpenAI MRCR v2 8-നീഡിൽ 32K–64K

90.5%

92.0%

OpenAI MRCR v2 8-സൂചി 64K–128K

86.0%

85.6%

OpenAI MRCR v2 8-നീഡിൽ 128K–256K

79.3%

77.0%

OpenAI MRCR v2 8-നീഡിൽ 256K–512K

57.5%

OpenAI MRCR v2 8-സൂചികൾ 512K–1M

36.6%

അബ്സ്ട്രാക്റ്റ് റീസണിംഗ്

എവാല്യൂവേഷൻ

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

ARC-AGI-1 (സ്ഥിരീകരിച്ചത്)

93.7%

94.5%

86.2%

90.5%

ARC-AGI-2 (സ്ഥിരീകരിച്ചത്)

73.3%

83.3%

52.9%

54.2% (ഉയർന്ന)

റീസണിംഗ് ഇല്ലാത്ത മൂല്യനിർണ്ണയങ്ങൾ

എവാല്യൂവേഷൻ

GPT‑5.4
(none)

GPT‑5.2
(ഒന്നുമില്ല)

GPT‑4.1

OmniDocBench (നോർമലൈസ്ഡ് എഡിറ്റ് ഡിസ്റ്റൻസ്)

0.109

0.140

Tau2-bench Telecom

64.3%

57.2%

43.6%

മറ്റെവിടെയെങ്കിലും പ്രത്യേകം സൂചിപ്പിച്ചിട്ടില്ലാത്ത പക്ഷം, റീസണിംഗ് ശ്രമം xhigh' എന്ന് സെറ്റ് ചെയ്താണ് ഈ വിലയിരുത്തലുകൾ നടത്തിയത് ബെഞ്ച്മാർക്കുകൾ ഒരു ഗവേഷണ പരിസ്ഥിതിയിൽ നടത്തപ്പെട്ടവയാണ്, ചില സാഹചര്യങ്ങളിൽ ഇത് പ്രൊഡക്ഷൻ ChatGPT‑ൽ നിന്ന് അല്പം വ്യത്യസ്തമായ ഔട്ട്പുട്ട് നൽകാൻ സാധ്യതയുണ്ട്.