ഇന്ന്, ഞങ്ങൾ ChatGPT‑ൽ GPT‑5.4 പുറത്തിറക്കുന്നു (GPT‑5.4 Thinking എന്ന പേരില്), API, Codex എന്നിവയില്. പ്രൊഫഷണൽ ജോലികൾക്കായി ഞങ്ങളുടെ ഏറ്റവും കഴിവുള്ളതും കാര്യക്ഷമവുമായ അത്യാധുനിക മോഡൽ. സങ്കീർണ്ണ ടാസ്കുകളിൽ പരമാവധി പ്രകടനം ആവശ്യമുള്ളവര്ക്കായി, ChatGPT‑ലും API-ലും ഞങ്ങൾ GPT‑5.4 Pro കൂടി പുറത്തിറക്കുന്നു.
GPT‑5.4 റീസണിംഗ്, കോഡിംഗ്, ഏജന്റിക് പ്രവാഹങ്ങൾ എന്നിവയിലെ ഞങ്ങളുടെ അടുത്തകാലത്തെ മികച്ച പുരോഗതികളെ ഒരൊറ്റ അത്യാധുനിക മോഡലിൽ കോര്ത്തിണക്കിയിരിക്കുന്നു. ഇത് GPT‑5.3‑Codex ന്റെ വ്യവസായത്തിലെ മുൻനിര കോഡിംഗ് കഴിവുകൾ ഉൾക്കൊള്ളുന്നു. കൂടാതെ, ഉപകരണങ്ങൾ, സോഫ്റ്റ്വെയർ പരിതസ്ഥിതികൾ, സ്പ്രെഡ്ഷീറ്റുകൾ, പ്രെസന്റേഷനുകൾ, ഡോക്യുമെന്റുകൾ എന്നിവ ഉൾപ്പെടുന്ന പ്രൊഫഷണൽ ടാസ്കുകളിലുടനീളം മോഡൽ പ്രവർത്തനക്ഷമത മെച്ചപ്പെടുത്തുന്നു. കൃത്യമായും, ഫലപ്രദമായും, കാര്യക്ഷമമായും സങ്കീർണ്ണമായ ജോലികൾ ചെയ്തുതീർക്കുന്ന ഒരു മോഡലാണ് ഇതിന്റെ ഫലം, കുറഞ്ഞ ആശയവിനിമയത്തോടെ നിങ്ങൾ ആവശ്യപ്പെട്ടതെല്ലാം നൽകുന്നു.
ChatGPT‑ൽ, GPT‑5.4 Thinking-ന് ഇനി അതിന്റെ ചിന്താരീതിയുടെ ഒരു മുൻകൂർ പദ്ധതി നൽകാൻ കഴിയും, അതിനാൽ അത് പ്രവർത്തിക്കുന്ന സമയത്ത് നിങ്ങൾക്ക് പ്രതികരണത്തിനിടയിൽ ദിശ ക്രമീകരിക്കാനും കഴിയും, കൂടാതെ അധിക ടേൺസ് ഇല്ലാതെ തന്നെ നിങ്ങൾക്ക് ആവശ്യത്തിനു കൂടുതൽ അടുത്തായി പൊരുത്തപ്പെടുന്ന അന്തിമ ഔട്ട്പുട്ടിൽ എത്താനും കഴിയും. GPT‑5.4 Thinking ഡീപ്പ് വെബ് ഗവേഷണം മെച്ചപ്പെടുത്തുകയും ചെയ്യുന്നു, പ്രത്യേകിച്ച് വളരെ പ്രത്യേകമായ ക്വെറികൾക്കായി, കൂടാതെ കൂടുതൽ ദൈർഘ്യമുള്ള ചിന്ത ആവശ്യമായ ചോദ്യങ്ങൾക്ക് സന്ദർഭം കൂടുതൽ നന്നായി നിലനിർത്തുകയും ചെയ്യുന്നു. ഒരുമിച്ച്, ഈ മെച്ചപ്പെടുത്തലുകൾ ഉയർന്ന ഗുണനിലവാരമുള്ള ഉത്തരങ്ങൾ കൂടുതൽ വേഗത്തിൽ ലഭിക്കാനും നിലവിലെ ടാസ്കില് പ്രസക്തമായി തുടരാനും സഹായിക്കുന്നു.
Codex-ലും API-ലും, GPT‑5.4 ഞങ്ങൾ പുറത്തിറക്കിയ ആദ്യത്തെ പൊതുവായ ഉപയോഗത്തിനുള്ള മോഡലാണ്; അത്യാധുനിക കമ്പ്യൂട്ടർ ഉപയോഗ ശേഷികൾ സ്വാഭാവികമായി ഉൾക്കൊള്ളുന്നതിലൂടെ, ഏജന്റുകൾക്ക് കമ്പ്യൂട്ടറുകൾ പ്രവർത്തിപ്പിക്കാനും ആപ്ലിക്കേഷനുകളിലുടനീളം സങ്കീർണ്ണമായ വർക്ക്ഫ്ലോകൾ നടപ്പിലാക്കാനും കഴിയും. ഇത് ഇതിന് ഒരു മില്യൺ ടോക്കണുകൾ വരെയുള്ള കോൺടെക്സ്റ്റ് പിന്തുണയുണ്ട്, വലിയ കാന്വാസില് ഏജന്റുകളെ ടാസ്കുകൾ പ്ലാൻ ചെയ്യാനും, നടപ്പിലാക്കാനും, സ്ഥിരീകരിക്കാനും അനുവദിക്കുന്നു. GPT‑5.4, ടൂൾ തിരയൽ ഉപയോഗിച്ച്, ഉപകരണങ്ങളുടെയും കണക്ടറുകളുടെയും വലിയ ഇക്കോസിസ്റ്റങ്ങളിലുടനീളം മോഡലുകൾ പ്രവർത്തിക്കുന്ന രീതി കൂടി മെച്ചപ്പെടുത്തുന്നു; ബുദ്ധിശക്തി നഷ്ടപ്പെടാതെ ഏജന്റുകളെ ശരിയായ ഉപകരണങ്ങൾ കൂടുതൽ കാര്യക്ഷമമായി കണ്ടെത്താനും ഉപയോഗിക്കാനും ഇത് സഹായിക്കുന്നു. അവസാനമായി, GPT‑5.4 ഞങ്ങളുടെ ഏറ്റവും ടോക്കൺ കാര്യക്ഷമമായ റീസണിംഗ് മോഡൽ ആണ്, GPT‑5.2 നെ അപേക്ഷിച്ച് പ്രശ്നങ്ങൾ പരിഹരിക്കാൻ ഗണ്യമായി കുറവ് ടോക്കൺ-കൾ മാത്രം ഉപയോഗിക്കുന്നു—അങ്ങനെ ടോക്കൺ ഉപയോഗം കുറയുകയും വേഗത വർധിക്കുകയും ചെയ്യുന്നു.
പൊതുവായ റീസണിംഗ്, കോഡിംഗ്, പ്രൊഫഷണൽ വിജ്ഞാന ജോലികളിലെ പുരോഗതികളോടൊപ്പം, GPT‑5.4 ChatGPT, the API, Codex എന്നിവയിലുടനീളം കൂടുതൽ വിശ്വസനീയമായ ഏജന്റുകൾ, വേഗതയേറിയ ഡെവലപ്പർ വർക്ക്ഫ്ലോകൾ, ഉയർന്ന നിലവാരമുള്ള ഔട്ട്പുട്ടുകൾ എന്നിവ സാധ്യമാക്കുന്നു.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (വിജയങ്ങൾ അല്ലെങ്കിൽ സമനില) | 83.0% | 70.9% | 70.9% |
SWE-Bench Pro (പൊതുവായി) | 57.7% | 56.8% | 55.6% |
OSWorld-സ്ഥിരീകരിച്ചത് | 75.0% | 74.0%* | 47.3% |
Toolathlon | 54.6% | 51.9% | 46.3% |
BrowseComp | 82.7% | 77.3% | 65.8% |
*മുമ്പ് 64.7% ആയി റിപ്പോർട്ട് ചെയ്തിരുന്നത്. GPT‑5.3‑Codex യഥാർത്ഥ ചിത്ര റെസല്യൂഷൻ സംരക്ഷിക്കുന്ന പുതുതായി അവതരിപ്പിച്ച ഒരു API പാരാമീറ്ററിലൂടെ 74.0% നേടുന്നു.
GPT‑5.2യുടെ അടിസ്ഥാനത്തിൽ നിർമ്മിച്ച് പൊതുവായ റീസണിംഗ് കഴിവുകളുടെ പിന്ബലത്തില്, GPT‑5.4 പ്രൊഫഷണലുകൾക്ക് പ്രാധാന്യമുള്ള യഥാർത്ഥ ലോക ടാസ്കുകളിൽ കൂടുതൽ സ്ഥിരതയുള്ളതും മിനുക്കമുള്ളതുമായ ഫലങ്ങൾ നൽകുന്നു.
GDPval എന്നതിൽ, 44 തൊഴിൽ മേഖലകളിലുടനീളമുള്ള കൃത്യമായി നിർവ്വചിക്കപ്പെട്ട വിജ്ഞാന പ്രവൃത്തികൾ ചെയ്യാനുള്ള ഏജന്റുകളുടെ കഴിവ് പരിശോധിക്കുന്നതിൽ, GPT‑5.4 പുതിയൊരു നേട്ടം കൈവരിച്ചിരിക്കുന്നു, വ്യവസായ പ്രൊഫഷണലുകളുമായി താരതമ്യം ചെയ്യുമ്പോൾ 83.0% കാര്യങ്ങളിലും അവരോടൊപ്പമെത്താനോ അതിലധികമോ ആണ്, GPT‑5.2‑‑ൽ ഇത് 71.0% മാത്രമായിരുന്നു.
GDPval-ൽ, യുഎസ് GDP-യിലേക്ക് ഏറ്റവും കൂടുതൽ സംഭാവന നൽകുന്ന മികച്ച 9 വ്യവസായ മേഖലകളിൽ നിന്നുള്ള 44 തൊഴിലുകളെ ആസ്പദമാക്കി, കൃത്യമായി നിർവചിക്കപ്പെട്ട വിജ്ഞാന പ്രവൃത്തികൾ മോഡലുകൾ ചെയ്യാൻ ശ്രമിക്കുന്ന ഒന്നാണ്. ടാസ്കുകൾ വിൽപ്പന അവതരണങ്ങൾ, അക്കൗണ്ടിംഗ് സ്പ്രെഡ്ഷീറ്റ്, അടിയന്തിര പരിചരണ ഷെഡ്യൂളുകൾ, നിർമ്മാണ ഡയഗ്രം, അല്ലെങ്കിൽ ചെറു വീഡിയോകൾ പോലുള്ള യഥാർത്ഥ പ്രവർത്തന ഉൽപ്പന്നങ്ങൾ ആവശ്യപ്പെടുന്നു. GPT‑5.4‑നായി റീസണിംഗ് ശ്രമം എക്സ്-ഹൈ ആയും GPT‑5.2‑നായി ഹെവി ആയും സജ്ജമാക്കി (ChatGPT‑ൽ അല്പം താഴ്ന്ന ലെവലിൽ).
“GPT-5.4 ഞങ്ങൾ ഇതുവരെ പരീക്ഷിച്ചിട്ടുള്ള ഏറ്റവും മികച്ച മോഡൽ ആണ്. പ്രൊഫഷണൽ സേവന ജോലികൾക്കായുള്ള മോഡൽ പ്രകടനം അളക്കുന്ന ഞങ്ങളുടെ APEX-Agents ബെഞ്ച്മാർക്കിൽ ഇത് ഇപ്പോൾ ലീഡർബോർഡിന്റെ മുകളിൽ ആണ്. സ്ലൈഡ് ഡെക്കുകൾ, സാമ്പത്തിക മോഡലുകൾ, നിയമ വിശകലനം എന്നിവ പോലുള്ള ദീർഘകാല ഡെലിവറബിളുകൾ സൃഷ്ടിക്കുന്നതിൽ ഇത് മികവ് പുലർത്തുന്നു, മത്സരാത്മക അത്യാധുനിക മോഡലുകളേക്കാൾ വേഗത്തിലും കുറഞ്ഞ ചെലവിലും പ്രവർത്തിക്കുമ്പോഴും മികച്ച പ്രകടനം നൽകുന്നു.”
GPT‑5.4‑ന്റെ മെച്ചപ്പെടുത്തലിൽ ഞങ്ങൾ പ്രത്യേക ശ്രദ്ധ നൽകി സ്പ്രെഡ്ഷീറ്റുകൾ, അവതരണങ്ങൾ, ഡോക്യുമെന്റുകൾ എന്നിവ സൃഷ്ടിക്കാനും എഡിറ്റ് ചെയ്യാനും ഉള്ള കഴിവ്. ജൂനിയർ ഇൻവെസ്റ്റ്മെന്റ് ബാങ്കിംഗ് അനലിസ്റ്റ് ചെയ്യാൻ സാധ്യതയുള്ള സ്പ്രെഡ്ഷീറ്റ് മോഡലിംഗ് ടാസ്കുകളുടെ ഒരു ആഭ്യന്തര ബെഞ്ച്മാർക്കിൽ, GPT‑5.4 87.5% എന്ന ശരാശരി സ്കോർ നേടുന്നു, 68.4% , GPT‑5.2‑നുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ. അവതരണ വിലയിരുത്തൽ പ്രോംപ്റ്റുകളുടെ ഒരു സെറ്റിൽ, ശക്തമായ സൗന്ദര്യാത്മകത, കൂടുതൽ ദൃശ്യ വൈവിധ്യം, കൂടാതെ ഇമേജ് ജനറേഷൻ കൂടുതൽ ഫലപ്രദമായി ഉപയോഗിച്ചതിനാൽ, മനുഷ്യ റേറ്റർമാർ GPT‑5.4‑യെ 68.0% സമയത്തും GPT‑5.2‑ൽ നിന്നുള്ള അവതരണങ്ങളെക്കാൾ ഇഷ്ടപ്പെട്ടു.

ഡോക്യുമെന്റുകൾ റീസണിംഗ് ശ്രമം xhigh ആയി സജ്ജമാക്കി സൃഷ്ടിച്ചു
GPT‑5.4 ഉപയോഗിച്ച് ChatGPT‑ൽ നിങ്ങൾക്ക് ഈ കഴിവുകൾ പരീക്ഷിക്കാം Thinking അല്ലെങ്കിൽ Pro. നിങ്ങൾ ഒരു എന്റർപ്രൈസ് ഉപഭോക്താവാണെങ്കിൽ, ഇന്ന് തന്നെ ലോഞ്ച് ചെയ്ത, പുതുതായി പുറത്തിറക്കിയ ഞങ്ങളുടെ Excel-നും Google Sheets-നും വേണ്ടിയുള്ള ChatGPT പ്ലഗിനുകൾ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഉപയോഗിക്കാൻ ഞങ്ങൾ ശുപാർശ ചെയ്യുന്നു. Codex-ലും API-ലും ലഭ്യമായ ഞങ്ങളുടെ സ്പ്രെഡ്ഷീറ്റ്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) യും പ്രെസന്റേഷൻ കഴിവുകളും(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഞങ്ങൾ അപ്ഡേറ്റ് ചെയ്തിട്ടുണ്ട്.
GPT‑5.4 രൂപപ്പെടുത്താൻ യഥാർത്ഥ ജോലിയിൽ കൂടുതൽ മികച്ചതാക്കാൻ, ഭ്രമാത്മകതയും പിശകുകളും കുറയ്ക്കുന്നതിൽ ഞങ്ങൾ മികവ് തുടരുകയും ചെയ്തു. GPT‑5.4 ഇതുവരെ ഞങ്ങളുടെ ഏറ്റവും വസ്തുതാപരമായ മോഡലാണ്: ഉപയോക്താക്കൾ വസ്തുതാപരമായ പിശകുകൾ ഫ്ലാഗ് ചെയ്ത തിരിച്ചറിയൽ നീക്കിയ പ്രോംപ്റ്റുകളുടെ ഒരു സെറ്റിൽ, GPT‑5.4‑ന് GPT‑5.2 നെ അപേക്ഷിച്ച്, വ്യക്തിഗത അവകാശവാദങ്ങൾ 33% കുറവ് തെറ്റായിരിക്കാനുള്ള സാധ്യതയുണ്ട്, കൂടാതെ അതിന്റെ പൂർണ്ണ പ്രതികരണങ്ങൾ 18% കുറവ് ഏതെങ്കിലും പിശകുകൾ ഉൾക്കൊള്ളാനുള്ള സാധ്യതയുണ്ട്.
“GPT-5.4 രേഖകൾ കൂടുതലുള്ള നിയമപ്രവർത്തനങ്ങൾക്ക് ഒരു പുതിയ മാനദണ്ഡം സ്ഥാപിക്കുന്നു. ഞങ്ങളുടെ ബിഗ്ലോ ബെഞ്ച് മൂല്യനിർണ്ണയത്തിൽ, ഇത് 91% സ്കോർ ചെയ്തു. മറ്റ് മോഡലുകളുമായി താരതമ്യം ചെയ്യുമ്പോൾ, GPT-5.4 നിലവിൽ സങ്കീർണ്ണമായ ഇടപാട് വിശകലനം ഘടനാപരമായി ക്രമീകരിക്കുന്നതിലും, ദീർഘമായ കരാറുകളിലുടനീളം കൃത്യത നിലനിർത്തുന്നതിലും, നിയമപ്രവർത്തകർക്ക് ആവശ്യമായ ഉയർന്ന തലത്തിലുള്ള വിശദാംശങ്ങൾ നൽകുന്നതിലും കൂടുതൽ മികച്ചതാണ്.”
GPT‑5.4 ഞങ്ങളുടെ ആദ്യത്തെ സാധാരണ ഉപയോഗത്തിനുള്ള മോഡൽ ആണ്, സ്വാഭാവിക കമ്പ്യൂട്ടർ ഉപയോഗ ശേഷികൾ ഉള്ളതും ഡെവലപ്പർമാർക്കും ഏജന്റുകൾക്കും ഒരുപോലെ ഒരു വലിയ മുന്നേറ്റം അടയാളപ്പെടുത്തുന്നതുമാണ്. വെബ്സൈറ്റുകളിലും സോഫ്റ്റ്വെയർ സിസ്റ്റങ്ങളിലുമാകെ യഥാർത്ഥ ജോലികൾ പൂർത്തിയാക്കുന്ന ഏജൻ്റുകൾ നിർമ്മിക്കുന്ന ഡെവലപ്പർമാർക്കായി നിലവിൽ ലഭ്യമായ ഏറ്റവും മികച്ച മോഡൽ ഇതാണ്.
വിപുലമായ കമ്പ്യൂട്ടർ-ഉപയോഗ വർക്ക്ലോഡുകളിലുടനീളം മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്ന തരത്തിൽ GPT‑5.4 ഞങ്ങൾ രൂപകൽപ്പന ചെയ്തിട്ടുണ്ട്. Playwright പോലുള്ള ലൈബ്രറികൾ വഴി കമ്പ്യൂട്ടറുകൾ പ്രവർത്തിപ്പിക്കാൻ കോഡ് എഴുതുന്നതിലും, സ്ക്രീൻഷോട്ടുകൾക്ക് പ്രതികരണമായി മൗസും കീബോർഡും കമാൻഡുകൾ നൽകുന്നതിലും ഇത് മികച്ചതാണ്. ഡെവലപ്പർ സന്ദേശങ്ങളിലൂടെ അതിന്റെ പെരുമാറ്റം നിയന്ത്രിക്കാനാകും, അതായത് പ്രത്യേക ഉപയോഗ സാഹചര്യങ്ങൾക്ക് അനുയോജ്യമായി ഡെവലപ്പർമാർക്ക് അത് ക്രമീകരിക്കാനാകും. ഡെവലപ്പർമാർക്ക് ഇച്ഛാനുസൃത സ്ഥിരീകരണ നയങ്ങൾ വ്യക്തമാക്കുന്നതിലൂടെ വ്യത്യസ്ത തലത്തിലുള്ള റിസ്ക് സഹിഷ്ണുതയ്ക്ക് അനുയോജ്യമായി മോഡലിന്റെ സുരക്ഷാ സ്വഭാവം ക്രമീകരിക്കാനാകും.
വ്യത്യസ്ത ക്രമീകരണങ്ങളിലുടനീളം കമ്പ്യൂട്ടർ ഉപയോഗം പരിശോധിക്കുന്ന ബെഞ്ച്മാർക്കുകളിലുടനീളം മോഡലിന്റെ പ്രകടനവും ലവചിത്വവും പ്രതിഫലിക്കുന്നു. OSWorld-Verified-ൽ, സ്ക്രീൻഷോട്ടുകളും കീബോർഡ്/മൗസ് പ്രവർത്തനങ്ങളും വഴി ഒരു മോഡൽ ഡെസ്ക്ടോപ്പ് പരിസ്ഥിതിയിൽ നാവിഗേറ്റ് ചെയ്യാനുള്ള കഴിവ് അളക്കുമ്പോൾ, GPT‑5.4 ഒരു state-of-the-art ആയ 75.0% നേടുന്നു വിജയ നിരക്ക്, GPT‑5.2 നെ വളരെ മറികടന്ന് 47.3% വരെ എത്തുന്നു, കൂടാതെ മനുഷ്യ പ്രകടനത്തെ 72.4%.1ൽ മറികടക്കുന്നു
ബ്രൗസർ ഉപയോഗം പരിശോധിക്കുന്ന WebArena-Verified ൽ, DOM- and screenshot-driven ഇടപെടലുകൾ രണ്ടും ഉപയോഗിക്കുമ്പോൾ GPT‑5.4 67.3% വിജയനിരക്ക് കൈവരിക്കുന്നു, GPT‑5.2യുടെ 65.4% നെ അപേക്ഷിച്ച്. ബ്രൗസർ ഉപയോഗം പരിശോധിക്കുന്ന ഓൺലൈൻ-മൈൻഡ്2വെബ്-ൽ, സ്ക്രീൻഷോട്ട്-അടിസ്ഥാനത്തിലുള്ള നിരീക്ഷണങ്ങൾ മാത്രം ഉപയോഗിച്ച് GPT‑5.4 92.8% വിജയനിരക്ക് കൈവരിക്കുന്നു, 70.9% വിജയനിരക്ക് കൈവരിക്കുന്ന ChatGPT Atlas-ന്റെ ഏജന്റ് മോഡിനെ അപേക്ഷിച്ച് മെച്ചപ്പെട്ടതാണ്.
ടൂൾ യീൽഡ് എന്നത് ഒരു അസിസ്റ്റന്റ്, ടൂൾ പ്രതികരണങ്ങൾക്കായി കാത്തിരിക്കാൻ യീൽഡ് ചെയ്യുന്നതാണ്. 3 ടൂളുകൾ സമാന്തരമായി വിളിക്കപ്പെടുകയും, തുടർന്ന് 3 ടൂളുകൾ കൂടി സമാന്തരമായി വിളിക്കപ്പെടുകയും ചെയ്താൽ, മൊത്തം യീൽഡ്ന്റെ എണ്ണം 2 ആയിരിക്കും. ടൂൾ യീൽഡുകള്, ടൂൾ കോളുകളേക്കാൾ ലേറ്റൻസിയുടെ മികച്ച പ്രോക്സിയാണ്, കാരണം അവ സമാന്തരവൽക്കരണത്തിന്റെ പ്രയോജനങ്ങളെ പ്രതിഫലിപ്പിക്കുന്നു.
GPT‑5.4 ഒരു ബ്രൗസർ ഇന്റർഫേസിന്റെ സ്ക്രീൻഷോട്ടുകൾ വ്യാഖ്യാനിക്കുകയും ഇമെയിലുകൾ അയയ്ക്കാനും ഒരു കലണ്ടർ ഇവന്റ് ഷെഡ്യൂൾ ചെയ്യാനും കോഓർഡിനേറ്റ്-അടിസ്ഥാനത്തിലുള്ള ക്ലിക്കിംഗ് വഴി UI ഘടകങ്ങളുമായി ഇടപഴകുകയും ചെയ്യുന്നു.
GPT‑5.4‑യുടെ മെച്ചപ്പെടുത്തിയ കമ്പ്യൂട്ടർ ഉപയോഗം മോഡലിന്റെ മെച്ചപ്പെടുത്തിയ പൊതുവായ ദൃശ്യ ഗ്രഹണ ശേഷികളിലാണ് അടിസ്ഥാനമാക്കപ്പെട്ടിരിക്കുന്നത്. MMMU-Pro ൽ, ഒരു മോഡലിന്റെ ദൃശ്യബോധവും റീസണിംഗും പരിശോധിക്കുന്ന ഒരു ടെസ്റ്റിൽ, GPT‑5.4 ടൂൾ ഉപയോഗമില്ലാതെ 81.2% വിജയനിരക്ക് നേടുന്നു, GPT‑5.2‑ന്റെ 79.5%. മെച്ചപ്പെട്ട ദൃശ്യ ഗ്രഹണശേഷിഎന്നത് മികച്ച ഡോക്യുമെന്റ് പാഴ്സിംഗ് ശേഷികളായും മാറുന്നു. ഓമ്നിഡോക് ബെഞ്ചിൽ , റീസണിംഗ് ശ്രമമില്ലാതെ GPT‑5.4 ശരാശരി പിശക് (മോഡൽ പ്രവചനവും ഗ്രൗണ്ട് ട്രൂത്തും തമ്മിലുള്ള നോർമലൈസ്ഡ് എഡിറ്റ് ഡിസ്റ്റൻസ് വഴി അളക്കുന്നത്) 0.109 നേടുന്നു, ഇത് GPT‑5.2‑ന്റെ 0.140-നേക്കാൾ മികച്ചതാണ്.
MMMUPro റീസണിംഗ് ശ്രമം xhigh ആയി സജ്ജമാക്കി പ്രവർത്തിപ്പിച്ചു. കുറഞ്ഞ ചെലവും കുറഞ്ഞ ലേറ്റൻസിയും ഉള്ള പ്രകടനം പ്രതിഫലിപ്പിക്കുന്നതിനായി, റീസണിംഗ് ശ്രമം none ആയി സജ്ജീകരിച്ച് OmniDocBench പ്രവർത്തിപ്പിച്ചു.
പൂർണ്ണ വിശ്വസ്തത ആവശ്യമായ സാഹചര്യങ്ങളില് സാന്ദ്രവും ഉയർന്ന റെസല്യൂഷനുള്ള ചിത്രങ്ങൾക്കായി ദൃശ്യങ്ങളുടെ മനസ്സിലാക്കലും ഞങ്ങൾ മെച്ചപ്പെടുത്തുന്നു. GPT‑5.4 മുതൽ, ഞങ്ങൾ ഒരു ഒറിജിനൽ ഇമേജ് ഇൻപുട്ട് ഡീറ്റെയിൽ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ലെവൽ അവതരിപ്പിക്കുന്നു; ഇത് 10.24M മൊത്തം പിക്സലുകൾ അല്ലെങ്കിൽ 6000-പിക്സൽ പരമാവധി ഡൈമെൻഷൻ (ഏത് കുറവാണോ അത്) വരെ പൂർണ്ണ വിശ്വാസ്യതയുള്ള മനസിലാക്കല് പിന്തുണയ്ക്കുന്നു; high ഇമേജ് ഇൻപുട്ട് ഡീറ്റെയിൽ ലെവൽ ഇപ്പോൾ 2.56M മൊത്തം പിക്സലുകൾ അല്ലെങ്കിൽ 2048-പിക്സൽ പരമാവധി ഡൈമെൻഷൻ (ഏത് കുറവാണോ അത്) വരെ പിന്തുണയ്ക്കുന്നു. API ഉപയോക്താക്കളുമായി നടത്തിയ ആദ്യ പരീക്ഷണത്തിൽ, ഒറിജിനൽ അല്ലെങ്കിൽ high ഡീറ്റെയിൽ ഉപയോഗിക്കുമ്പോൾ ലോക്കലൈസേഷൻ കഴിവ്, ചിത്രത്തെ മനസ്സിലാക്കൽ, ക്ലിക്ക് കൃത്യത എന്നിവയിൽ ശക്തമായ മെച്ചപ്പെടുത്തലുകൾ ഞങ്ങൾ നിരീക്ഷിച്ചു.
“~30K HOAയും പ്രോപ്പർട്ടി ടാക്സ് പോർട്ടലുകളിലുടനീളം കമ്പ്യൂട്ടർ ഉപയോഗ പ്രകടനം അളക്കുന്ന ഞങ്ങളുടെ മൂല്യനിർണ്ണയങ്ങളിൽ, മുൻ CUA മോഡലുകളിലെ ~73–79% നെ അപേക്ഷിച്ച്, GPT-5.4 ആദ്യ ശ്രമത്തിൽ 95% വിജയനിരക്കും മൂന്ന് ശ്രമങ്ങൾക്കുള്ളിൽ 100% വിജയനിരക്കും കൈവരിച്ചു. ഇത് സെഷനുകൾ ~3x വേഗത്തിൽ പൂർത്തിയാക്കുകയും ~70% കുറവ് ടോക്കൺ ഉപയോഗിക്കുകയും ചെയ്തു, ഇത് വലിയ തോതിലുള്ള ഉപയോഗത്തിൽ വിശ്വസനീയതയും ലാഭക്ഷമതയും ഗണ്യമായി മെച്ചപ്പെടുത്തുന്നു."
API-യിൽ, ഡെവലപ്പർമാർക്ക് അപ്ഡേറ്റ് ചെയ്ത കമ്പ്യൂട്ടർ ടൂൾ ഉപയോഗിച്ച് ഈ കഴിവുകൾ ആക്സസ് ചെയ്യാൻ കഴിയും. ശുപാർശ ചെയ്യുന്ന മികച്ച പ്രാക്ടീസുകൾക്കായി ദയവായി ഞങ്ങളുടെ അപ്ഡേറ്റ് ചെയ്ത ഡോക്യുമെന്റേഷൻ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കാണുക.
GPT‑5.4, GPT‑5.3‑Codex ന്റെ കോഡിംഗ് ശക്തികളെ മുൻനിര വിജ്ഞാന പ്രവർത്തനവും കമ്പ്യൂട്ടർ-ഉപയോഗ ശേഷികളും ചേർത്ത് സംയോജിപ്പിക്കുന്നു. ദീർഘകാല ടാസ്കുകളിൽ, മോഡൽ ഉപകരണങ്ങൾ ഉപയോഗിക്കാനും, ആവർത്തിച്ച് മെച്ചപ്പെടുത്താനും, കുറവ് മാനുവൽ ഇടപെടലോടെ പ്രവർത്തനം കൂടുതൽ മുന്നോട്ട് കൊണ്ടുപോകാനും കഴിയുന്ന സാഹചര്യങ്ങളിൽ ഇത് ഏറ്റവും പ്രാധാന്യമുള്ളതാണ്. റീസണിംഗ് ശ്രമങ്ങളിലുടനീളം കുറഞ്ഞ ലേറ്റൻസി നിലനിർത്തിക്കൊണ്ട്, SWE-Bench Pro-ൽ ഇത് GPT‑5.3‑Codex‑നെ തുല്യമാക്കുകയോ അതിനെ മറികടക്കുകയോ ചെയ്യുന്നു.
ഞങ്ങളുടെ മോഡലുകളുടെ പ്രൊഡക്ഷൻ പെരുമാറ്റം പരിശോധിച്ചും, ഇത് ഓഫ്ലൈനായി സിമുലേറ്റ് ചെയ്തും ഞങ്ങൾ ലേറ്റൻസി കണക്കാക്കുന്നു. ടൂൾ കോൾ ദൈർഘ്യം (കോഡ് നിർവഹണ സമയം), സാമ്പിൾ ചെയ്ത ടോക്കണുകൾ, ഇൻപുട്ട് ടോക്കണുകൾ എന്നിവ കണക്കിലെടുത്താണ് ലാറ്റൻസി കണക്കുകൂട്ടല് നടത്തുന്നത് . യഥാർത്ഥ ലോക ലേറ്റൻസി ഗണ്യമായി വ്യത്യാസപ്പെടാം, മാത്രമല്ല അത് ഞങ്ങളുടെ സിമുലേഷനിൽ ഉൾക്കൊള്ളാത്ത നിരവധി ഘടകങ്ങളെ ആശ്രയിച്ചിരിക്കുന്നു. റീസണിംഗ് ശ്രമങ്ങൾ ഒന്നുമില്ലാത്ത നിലയിൽ നിന്ന് എക്സ്-ഹൈ എന്ന തലത്തിലേക്ക് ഉയർത്തി.
ടോഗിൾ ചെയ്താൽ, Codex-ലെ /fast mode GPT‑5.4‑നൊപ്പം ടോക്കൺ വേഗത 1.5x വരെ വേഗത്തിൽ നൽകുന്നു. ഇത് അതേ മോഡലും അതേ ബുദ്ധിയും തന്നെയാണ്, പക്ഷേ കൂടുതൽ വേഗത്തിൽ. അതായത് ഉപയോക്താക്കൾക്ക് ഒഴുക്കിൽ തുടരുമ്പോൾ കോഡിംഗ് ടാസ്കുകൾ, ആവർത്തനം, ഡീബഗ്ഗിംഗ് എന്നിവയിലൂടെ മുന്നോട്ട് നീങ്ങാൻ കഴിയും. ഡെവലപ്പർമാർക്ക് മുൻഗണനാ പ്രോസസ്സിംഗ്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഉപയോഗിച്ച് API വഴി അതേ വേഗത്തിൽ GPT‑5.4 ആക്സസ് ചെയ്യാൻ കഴിയും.
വിലയിരുത്തലിലും ആന്തരിക പരിശോധനയിലും, മുമ്പ് ഞങ്ങൾ പുറത്തിറക്കിയ ഏതൊരു മോഡലുകളേക്കാളും ശ്രദ്ധേയമായി കൂടുതൽ സൗന്ദര്യപരവും കൂടുതൽ പ്രവർത്തനക്ഷമവുമായ ഫലങ്ങളോടെ, സങ്കീർണ്ണമായ ഫ്രണ്ട് എൻഡ് ടാസ്ക്-കളിൽ GPT‑5.4 മികവ് പുലർത്തുന്നുവെന്ന് ഞങ്ങൾ കണ്ടെത്തി.
മോഡലിന്റെ മെച്ചപ്പെടുത്തിയ കമ്പ്യൂട്ടർ-ഉപയോഗവും കോഡിംഗ് കഴിവുകളും ഒരുമിച്ച് പ്രവർത്തിക്കുന്നതിന്റെ ഒരു പ്രദർശനമായി, “Playwright (Interactive)(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)” എന്ന പേരിലുള്ള ഒരു പരീക്ഷണാത്മക Codex സ്കിൽ ഞങ്ങൾ കൂടി പുറത്തിറക്കുന്നു. ഇത് Codex-നെ വെബ്, Electron ആപ്പുകൾ വിഷ്വലി ഡീബഗ് ചെയ്യാൻ അനുവദിക്കുന്നു; അത് ഒരു ആപ്പ് നിർമ്മിക്കുന്നതിനിടെ തന്നെ, അത് നിർമ്മിക്കുന്ന ആപ്പിനെ ടെസ്റ്റ് ചെയ്യാനും ഉപയോഗിക്കാം.
GPT‑5.4 ഉപയോഗിച്ച്, ലഘുവായ ഒരു പ്രോംപ്റ്റിൽ നിന്ന് നിർമ്മിച്ച തീം പാർക്ക് സിമുലേഷൻ ഗെയിം; ബ്രൗസർ പ്ലേ-ടെസ്റ്റിംഗിനായി പ്ലേറൈറ്റ് ഇന്ററാക്ടീവും, ഐസോമെട്രിക് അസറ്റ് സെറ്റുകൾക്കായി ഇമേജ് ജനറേഷനും ഇതിൽ ഉപയോഗിച്ചിരിക്കുന്നു. സിമുലേഷനിൽ ടൈൽ-അടിസ്ഥാനത്തിലുള്ള പാത സ്ഥാപിക്കൽ, റൈഡും സീനറിയും നിർമ്മിക്കൽ, അതിഥികളുടെ പാത കണ്ടെത്തൽ, ക്യൂയിൽ നിൽക്കൽ, റൈഡ് ചക്രങ്ങൾ എന്നിവ ഉൾപ്പെടുന്നു; അതേസമയം പണം, അതിഥികളുടെ എണ്ണം, സന്തോഷം, ശുചിത്വം, റേറ്റിംഗ് എന്നിവ പോലുള്ള പാർക്ക് മെട്രിക്കുകൾ ലേഔട്ട് എത്രമാത്രം ഫലപ്രദമായി പ്രവർത്തിക്കുന്നു, അതിനോട് അതിഥികൾ എങ്ങനെ പ്രതികരിക്കുന്നു എന്നിവയെ ആശ്രയിച്ച് ഉയരുകയോ താഴുകയോ ചെയ്യും. പാർക്ക് നിർമ്മിക്കുകയും വികസിപ്പിക്കുകയും ചെയ്യുക, പാതകളും ആകർഷണങ്ങളും സ്ഥാപിക്കുകയും നീക്കം ചെയ്യുകയും ചെയ്യുക, ക്യാമറ നാവിഗേഷൻ പരിശോധിക്കുക, കൂടാതെ നിരവധി റൗണ്ടുകളിലായി കളിക്കുമ്പോൾ അതിഥികൾ, ക്യൂകൾ, റൈഡ് സ്റ്റേറ്റുകൾ, UI മെട്രിക്കുകൾ എന്നിവ ശരിയായി അപ്ഡേറ്റ് ആകുന്നുവെന്ന് സ്ഥിരീകരിക്കുക എന്നിവയിലൂടെ ബ്രൗസർ പ്ലേടെസ്റ്റുകൾ ഓട്ടോമേറ്റ് ചെയ്യാൻ പ്ലേറൈറ്റ് ഉപയോഗിച്ചു.
പ്രോംപ്റ്റ്: $playwright-interactive, $imagegen എന്നിവ ഉപയോഗിക്കുക. ബ്രൗസറിൽ എനിക്ക് നിർമ്മിക്കാനും നിയന്ത്രിക്കാനും കഴിയുന്ന തരത്തിൽ, സംവേദനാത്മകമായ ഒരു ഐസോമെട്രിക് തീം പാർക്ക് സിമുലേഷൻ ഗെയിം സൃഷ്ടിക്കുക. ഗെയിമിന്റെ മൊത്തത്തിലുള്ള ദൃശ്യഭംഗി നിശ്ചയിക്കാനും റൈഡുകൾ, പാതകൾ, ഭൂപ്രദേശം, മരങ്ങൾ, വെള്ളം, ഭക്ഷണശാലകൾ, അലങ്കാരങ്ങൾ, കെട്ടിടങ്ങൾ, ഐക്കണുകൾ, UI ചിത്രീകരണങ്ങൾ എന്നിവയുൾപ്പെടെയുള്ള അസറ്റുകൾ നിർമ്മിക്കാനും imagegen ഉപയോഗിക്കുക. ഈ ലോകം ഐസോമെട്രിക് കാഴ്ചപ്പാടിൽ നിന്ന് നോക്കുമ്പോൾ മികച്ച ആർട്ട് ഡയറക്ഷനോടു കൂടിയതും, മനോഹരവും, സമ്പന്നവുമായിരിക്കണം. പാതകൾ നിർമ്മിക്കാനും നീക്കം ചെയ്യാനും, പുതിയ ആകർഷണങ്ങൾ ചേർക്കാനും, കാഴ്ചകൾ ക്രമീകരിക്കാനും, പാർക്കിലെ അതിഥികളുടെ നീക്കങ്ങളും റൈഡുകളുടെ നിലയും പാർക്കിന്റെ വളർച്ചയും നിരീക്ഷിച്ചുകൊണ്ട് സുഗമമായി സഞ്ചരിക്കാനും എന്നെ അനുവദിക്കുക. അതിഥികളുടെ സ്വാഭാവികമായ ചലനങ്ങളും, പണം, ശുചിത്വം, ക്യൂ നിൽക്കൽ, സന്തോഷം എന്നിവ ഉൾപ്പെടുന്ന ലളിതമായ പാർക്ക് മാനേജ്മെന്റ് സംവിധാനങ്ങളും ഇതിൽ ഉൾപ്പെടുത്തണം. ഈ അനുഭവം ഒരു പരുക്കൻ മാതൃക പോലെയല്ലാതെ, വ്യക്തവും പൂർണ്ണവുമായ ഒരു ഗെയിം പോലെ തോന്നിപ്പിക്കണം. യാഥാർത്ഥ്യത്തേക്കാൾ ഉപരിയായി ഗെയിമിന്റെ ആകർഷണീയതയ്ക്കും, വ്യക്തതയ്ക്കും മുൻഗണന നൽകുക.
പ്ലേ ടെസ്റ്റിംഗ് നടത്തുമ്പോൾ, നിരവധി റൗണ്ടുകളിലായി ഒരു പാർക്ക് നിർമ്മിച്ച് വികസിപ്പിക്കുന്നുവെന്ന് ഉറപ്പാക്കുക, പ്ലേസ്മെന്റും നാവിഗേഷനും സുഗമമായി പ്രവർത്തിക്കുന്നുവെന്ന് പരിശോധിക്കുക, പാർക്കിന്റെ ലേഔട്ടിനോടും ആകർഷണങ്ങളോടും അതിഥികൾ പ്രതികരിക്കുന്നുവെന്ന് സ്ഥിരീകരിക്കുക, കൂടാതെ ദൃശ്യങ്ങൾ, UI, ഇടപെടലുകൾ സ്ഥിരതയുള്ളതും ഏകോപിതവുമായതായി തോന്നുന്നുവെന്ന് ഉറപ്പാക്കുക.
“ഞങ്ങളുടെ എഞ്ചിനീയർമാർ GPT-5.4 കണ്ടെത്തുന്നു മുമ്പത്തെ മോഡലുകളേക്കാൾ കൂടുതൽ സ്വാഭാവികവും ആത്മവിശ്വാസപൂർണ്ണവുമാണ് . അവ്യക്തമായ പ്രശ്നങ്ങൾ സ്വയം രണ്ടാമതായി ഊഹിക്കാതെ തന്നെ അത് കൈകാര്യം ചെയ്യുന്നു, കാര്യങ്ങൾ മുന്നോട്ട് നീങ്ങാൻ ജോലികളെ സമാന്തരമാക്കുന്നതിൽ ഇത് മുൻകൈയെടുക്കുകയും ചെയ്യുന്നു.”
GPT‑5.4‑ഉം ബാഹ്യ ഉപകരണങ്ങളുമായി മോഡലുകൾ പ്രവർത്തിക്കുന്ന രീതി ഞങ്ങൾ ഗണ്യമായി മെച്ചപ്പെടുത്തി. ഏജന്റുകൾക്ക് ഇപ്പോൾ കൂടുതൽ വലിയ ടൂൾ ഇക്കോസിസ്റ്റങ്ങളിലുടനീളം പ്രവർത്തിക്കാനും, ശരിയായ ടൂളുകൾ കൂടുതൽ വിശ്വസനീയമായി തിരഞ്ഞെടുക്കാനും, കുറഞ്ഞ ചെലവും ലേറ്റൻസിയും ഉപയോഗിച്ച് മൾട്ടി-സ്റ്റെപ്പ് വർക്ക്ഫ്ലോകൾ പൂർത്തിയാക്കാനും കഴിയും.
API-യിൽ, GPT‑5.4 ടൂൾ തിരയൽ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) അവതരിപ്പിക്കുന്നു, ഇത് നിരവധി മോഡലുകൾ നൽകിയിരിക്കുമ്പോൾ കാര്യക്ഷമമായി പ്രവർത്തിക്കാൻ അനുവദിക്കുന്നു.
മുമ്പ്, ഒരു മോഡലിന് ടൂളുകൾ നൽകിയിരുന്നപ്പോൾ, എല്ലാ ടൂൾ നിർവചനങ്ങളും പ്രോംപ്റ്റിൽ മുൻകൂട്ടി ഉൾപ്പെടുത്തിയിരുന്നു. വളരെ അധികം ഉപകരണങ്ങളുള്ള സിസ്റ്റങ്ങളിലേക്കായി, ഇത് ഓരോ അഭ്യർത്ഥനയിലും ആയിരക്കണക്കിന്—അല്ലെങ്കിൽ പതിനായിരക്കണക്കിന് വരെ—ടോക്കൺ-കൾ ചേർക്കാൻ ഇടയാക്കാം; ഇതിലൂടെ ചെലവ് വർധിക്കുകയും, പ്രതികരണങ്ങൾ മന്ദഗതിയിലാകുകയും, മോഡൽ ഒരിക്കലും ഉപയോഗിക്കാതിരിക്കാവുന്ന വിവരങ്ങളാൽ കോൺടെക്സ്റ്റ് നിറയുകയും ചെയ്യും.
ടൂൾ സെർച്ച് ഉപയോഗിച്ച്, GPT‑5.4 ന് ലഭ്യമായ ടൂളുകളുടെ ലഘുവായ പട്ടികയും ടൂൾ സെർച്ച് കഴിവും ലഭിക്കുന്നു. മോഡലിന് ഒരു ടൂൾ ഉപയോഗിക്കേണ്ടിവരുമ്പോൾ, ആ ടൂളിന്റെ നിർവചനം പരിശോധിച്ച് ആ സമയത്ത് സംഭാഷണത്തിൽ ചേർക്കാം.
ഈ സമീപനം ടൂൾ-ഹെവി വർക്ക്ഫ്ലോകൾക്കായി ആവശ്യമായ ടോക്കൺ-കളുടെ എണ്ണം ഗണ്യമായി കുറയ്ക്കുകയും കാഷെ നിലനിർത്തുകയും ചെയ്യുന്നു, അതിലൂടെ അഭ്യർത്ഥനകൾ കൂടുതൽ വേഗത്തിലും കുറഞ്ഞ ചെലവിലും നടത്താം. ഇത് ഏജൻ്റുകൾക്ക് വളരെ വലുതായ ഉപകരണ ഇക്കോസിസ്റ്റങ്ങളുമായി വിശ്വസനീയമായി പ്രവർത്തിക്കാനും സാധ്യമാക്കുന്നു. ടൂൾ നിർവചനങ്ങളുടെ പതിനായിരക്കണക്കിന് ടോക്കൺ-കൾ ഉൾക്കൊള്ളാൻ സാധ്യതയുള്ള MCP സെർവറുകൾക്കായി, കാര്യക്ഷമതയിലെ നേട്ടങ്ങൾ ഗണ്യമായിരിക്കാം.
കാര്യക്ഷമതയിലെ നേട്ടങ്ങൾ കാണിക്കാൻ, രണ്ട് മോഡുകളിൽ എല്ലാ 36 MCP സെർവറുകളും സജ്ജീകരിച്ച നിലയിൽ സ്കെയിലിന്റെ MCP അറ്റ്ലസ്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ബെഞ്ച്മാർക്കിൽ നിന്നുള്ള 250 ടാസ്കുകൾ ഞങ്ങൾ വിലയിരുത്തി: (1) ഓരോ MCP ഫംഗ്ഷനും നേരിട്ട് മോഡൽ കോൺടെക്സ്റ്റിൽ എക്സ്പോസ് ചെയ്യുക, (2) എല്ലാ MCP സെർവറുകളെയും ടൂൾ സെർച്ചിന് പിന്നിൽ സ്ഥാപിക്കുക. ടൂൾ-തിരയൽ കോൺഫിഗറേഷൻ അതേ കൃത്യത കൈവരിക്കുമ്പോൾ മൊത്തം ടോക്കൺ ഉപയോഗം 47% കുറച്ചു.
ഉദാഹരണ ടോക്കൺ എണ്ണങ്ങൾ MCP-Atlas പബ്ലിക് ഡാറ്റാസെറ്റിലെ 250 ടാസ്കുകളുടെ ശരാശരി എടുത്തതാണ്.
GPT‑5.4 ടൂൾ കോളിംഗ് കൂടി മെച്ചപ്പെടുത്തുന്നു, പ്രത്യേകിച്ച് API-യിൽ, റീസണിംഗ് സമയത്ത് ടൂളുകൾ എപ്പോൾ എങ്ങനെ ഉപയോഗിക്കണമെന്ന് തീരുമാനിക്കുമ്പോൾ അത് കൂടുതൽ കൃത്യവും കാര്യക്ഷമവുമാക്കുന്നു. GPT‑5.2 നെ അപേക്ഷിച്ച്, യഥാർത്ഥ ലോക ഉപകരണങ്ങളും APIകളും ഉപയോഗിച്ച് മൾട്ടി-സ്റ്റെപ്പ് ടാസ്കുകൾ പൂർത്തിയാക്കുന്നതിൽ AI ഏജൻ്റുകൾ എത്രത്തോളം കഴിവുള്ളവരാണെന്ന് പരിശോധിക്കുന്ന ഒരു ബെഞ്ച്മാർക്കായ Toolathlon-ൽ, കുറച്ച് ടേൺസിൽ തന്നെ ഇത് കൂടുതൽ ഉയർന്ന കൃത്യത കൈവരിക്കുന്നു. ഉദാഹരണത്തിന്, ഒരു ഏജന്റിന് ഇമെയിലുകൾ വായിക്കണം, അസൈൻമെന്റ് അറ്റാച്ച്മെന്റുകൾ എക്സ്ട്രാക്റ്റ് ചെയ്യണം, അവ അപ്ലോഡ് ചെയ്യണം, അവ ഗ്രേഡ് ചെയ്യണം, കൂടാതെ ഒരു സ്പ്രെഡ്ഷീറ്റിൽ ഫലങ്ങൾ രേഖപ്പെടുത്തണം.
ടൂൾ യീൽഡ് എന്നത് ഒരു അസിസ്റ്റന്റ്, ടൂൾ പ്രതികരണങ്ങൾക്കായി കാത്തിരിക്കാൻ യീൽഡ് ചെയ്യുന്നതാണ്. 3 ടൂളുകൾ സമാന്തരമായി വിളിക്കപ്പെടുകയും, തുടർന്ന് 3 ടൂളുകൾ കൂടി സമാന്തരമായി വിളിക്കപ്പെടുകയും ചെയ്താൽ, മൊത്തം യീൽഡ്ന്റെ എണ്ണം 2 ആയിരിക്കും. ടൂൾ യീൽഡുകള്, ടൂൾ കോളുകളേക്കാൾ ലേറ്റൻസിയുടെ മികച്ച പ്രോക്സിയാണ്, കാരണം അവ സമാന്തരവൽക്കരണത്തിന്റെ പ്രയോജനങ്ങളെ പ്രതിഫലിപ്പിക്കുന്നു.
ലേറ്റൻസി-സെൻസിറ്റീവ് ഉപയോഗ കേസുകൾക്കായി റീസണിംഗ് ശ്രമം 'ഒന്നുമില്ല' എന്ന് ആക്കുന്നത് മുൻഗണനയായിരിക്കുന്ന സാഹചര്യങ്ങളിൽ, GPT‑5.4 അതിന്റെ മുൻഗാമികളേക്കാൾ കൂടുതൽ മെച്ചപ്പെടുത്തുന്നു.
In τ2-ബെഞ്ച്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ൽ, ഒരു മോഡൽ ഉപഭോക്തൃ സേവന ടാസ്ക് പൂർത്തിയാക്കുന്നതിനായി ഉപകരണങ്ങൾ ഉപയോഗിക്കണം, അവിടെ ലോകത്തിന്റെ അവസ്ഥയിൽ ആശയവിനിമയം നടത്താനും നടപടികൾ സ്വീകരിക്കാനും കഴിയുന്ന ഒരു സിമുലേറ്റഡ് ഉപയോക്താവ് ഉണ്ടായിരിക്കാം. റീസണിംഗ് ശ്രമം 'ഒന്നുമില്ല' ആയി ക്രമീകരിച്ചിരുന്നു.
GPT‑5.4 ഏജന്റിക് വെബ് തിരയലിൽ കൂടുതൽ മികച്ചതാണ്. BrowseComp-ൽ, കണ്ടെത്താൻ ബുദ്ധിമുട്ടുള്ള വിവരങ്ങൾ കണ്ടെത്താൻ AI ഏജന്റുകൾക്ക് വെബ് സ്ഥിരമായി ബ്രൗസ് ചെയ്യാൻ എത്രത്തോളം കഴിയുന്നുവെന്ന അളവിൽ, GPT‑5.4, GPT‑5.2‑നെക്കാൾ 17%abs മുന്നേറുന്നു, കൂടാതെ GPT‑5.4 Pro, 89.3% എന്ന പുതിയ സ്റ്റേറ്റ് ഓഫ് ദി ആർട്ട് നിലവാരം സ്ഥാപിക്കുന്നു.
പ്രായോഗികമായി പറഞ്ഞാൽ, ഇതിന്റെ അർത്ഥം GPT‑5.4 വെബിലെ നിരവധി ഉറവിടങ്ങളിൽ നിന്നുള്ള വിവരങ്ങൾ ഒരുമിച്ച് പുറത്തെടുക്കൽ ആവശ്യമായ ചോദ്യങ്ങൾക്ക് ഉത്തരങ്ങൾ നൽകുന്നതിൽ Thinking കൂടുതൽ ശക്തമാണ്. “വൈക്കോല് കൂനയില് സൂചി തിരയുന്ന” തരത്തിലുള്ള ചോദ്യങ്ങൾക്കായി പ്രത്യേകിച്ച്, ഏറ്റവും പ്രസക്തമായ ഉറവിടങ്ങളെ തിരിച്ചറിയുന്നതിനായി ഇത് പല റൗണ്ടുകളിലായി കൂടുതൽ സ്ഥിരതയോടെ തിരയുകയും, അവയെ വ്യക്തവും നന്നായി ആലോചിച്ച മറുപടിയായി സംയോജിപ്പിക്കുകയും ചെയ്യാം.
BrowseComp-ൽ, മലിനീകരണം തടയാനും പ്രകടനത്തിന്റെ ന്യായമായ അളവ് ഉറപ്പാക്കാനും, വിലയിരുത്തലിൽ നിന്ന് ബെഞ്ച്മാർക്ക് ഉത്തരങ്ങൾ ഉൾക്കൊള്ളുന്ന വെബ്സൈറ്റുകൾ ഒഴിവാക്കുന്ന ഒരു തിരയൽ ബ്ലോക്ക് ലിസ്റ്റ് ഞങ്ങൾ ഉപയോഗിച്ചു. GPT‑5.4‑നെ GPT‑5.2‑യ്ക്ക് ശേഷമുള്ള ഒരു തീയതിയിൽ അളന്നു, അതിനാൽ മോഡലിലെ മാറ്റങ്ങൾ, ഞങ്ങളുടെ തിരയൽ സിസ്റ്റം, ഇന്റർനെറ്റിന്റെ നില എന്നിവയിലെ മാറ്റങ്ങളെ സ്കോറുകൾ പ്രതിഫലിപ്പിക്കുന്നു. GPT‑5.4 നെ കൂടുതൽ ദൈർഘ്യമുള്ള, അപ്ഡേറ്റ് ചെയ്ത ബ്ലോക്ക് ലിസ്റ്റ് ഉപയോഗിച്ച് പരീക്ഷിച്ചു. മോഡലുകൾ ChatGPT സേര്ച്ച് ടൂള് ഉപയോഗിക്കുന്നു, ഇതിന് API തിരയലിൽ നിന്ന് ചെറിയ വ്യത്യാസങ്ങൾ ഉണ്ടായേക്കാം.
“GPT-5.4 xhigh മൾട്ടി-സ്റ്റെപ്പ് ടൂൾ ഉപയോഗത്തിനുള്ള ഏറ്റവും അത്യാധുനികമായ സാങ്കേതികവിദ്യയാണ്. വ്യവസായത്തിലെ ഏറ്റവും കർശനമായ ടൂൾ ഉപയോഗ ബെഞ്ച്മാർക്കുകൾ നടത്തുന്നവരിൽ ഒന്നാണ് സാപ്പിയർ, നൂറുകണക്കിന് പുരോഗതിയുള്ള യഥാർത്ഥ ലോക വർക്ക്ഫ്ലോകളിലുടനീളം മോഡലുകളെ പരിശോധിക്കുന്നത്. മുമ്പത്തെ മോഡലുകൾക്ക് പൂർത്തിയാക്കാൻ കഴിയാതെ പോയ ജോലികൾ GPT-5.4 പൂർത്തിയാക്കി - ഇതുവരെ ഏറ്റവും സ്ഥിരതയുള്ള മോഡൽ.”
Codex പ്രവർത്തനം ആരംഭിക്കുമ്പോൾ അതിന്റെ സമീപനം എങ്ങനെ രേഖപ്പെടുത്തുന്നുവോ അതുപോലെ, GPT‑5.4 ChatGPT‑യിൽ ചിന്തിക്കുന്നത് ഇനി ദൈർഘ്യമേറിയതും കൂടുതൽ സങ്കീർണ്ണവുമായ ചോദ്യങ്ങൾക്ക് ഒരു പ്രാരംഭ കുറിപ്പോടെ അതിന്റെ പ്രവർത്തനം രൂപരേഖപ്പെടുത്തും. നിങ്ങൾക്ക് നിർദ്ദേശങ്ങൾ ചേർക്കാനോ പ്രതികരണത്തിനിടയിൽ അതിന്റെ ദിശ ക്രമീകരിക്കാനോ കഴിയും. ഇത് വീണ്ടും തുടക്കം മുതൽ ആരംഭിക്കാതെയും അല്ലെങ്കിൽ ഒന്നിലധികം അധിക ടേൺകൾ ആവശ്യപ്പെടാതെയും, നിങ്ങൾ ആഗ്രഹിക്കുന്ന കൃത്യമായ ഫലത്തിലേക്ക് മോഡലിനെ നയിക്കുന്നത് എളുപ്പമാക്കുന്നു. ഈ ഫീച്ചർ ഇപ്പോൾ chatgpt.com(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ലും Android ആപ്പിലും ലഭ്യമാണ്, iOS ആപ്പിലേക്ക് ഉടൻ വരുന്നു.
മോഡലിന് ബുദ്ധിമുട്ടുള്ള ടാസ്കുകളിൽ കൂടുതൽ സമയം ആലോചിക്കാനും, സംഭാഷണത്തിലെ മുൻകാല ഘട്ടങ്ങളെക്കുറിച്ചുള്ള ശക്തമായ ബോധം നിലനിർത്തിക്കൊണ്ടിരിക്കാനും കഴിയും. ഇത് ദൈർഘ്യമേറിയ പ്രവൃത്തി പ്രവാഹങ്ങളും കൂടുതൽ സങ്കീർണ്ണമായ പ്രോംപ്റ്റുകളും കൈകാര്യം ചെയ്യാൻ അനുവദിക്കുന്നു, അതേസമയം മുഴുവൻ സമയവും ഉത്തരങ്ങൾ ഏകോപിതവും പ്രസക്തവുമായിരിക്കാൻ സഹായിക്കുന്നു.
ചിത്രീകരണത്തിനായി ഈ വീഡിയോ വേഗത്തിലാക്കിയിരിക്കുന്നു.
കഴിഞ്ഞ ഏതാനും മാസങ്ങളായി, GPT‑5.4‑നെ വിന്യാസത്തിനായി തയ്യാറാക്കുന്നതിനിടെ, ഞങ്ങൾ GPT‑5.3‑Codex‑നൊപ്പം അവതരിപ്പിച്ച സുരക്ഷാ സംരക്ഷണങ്ങൾ തുടർച്ചയായി മെച്ചപ്പെടുത്തിക്കൊണ്ടിരിക്കുന്നു. GPT‑5.3‑Codex പോലെ, ഞങ്ങളുടെ പ്രിപെയർഡ്നസ് ഫ്രെയിംവർക്ക് പ്രകാരം GPT‑5.4‑നെ ഉയർന്ന സൈബർ ശേഷിയായി പരിഗണിക്കുന്നു, കൂടാതെ സിസ്റ്റം കാർഡ്-ൽ രേഖപ്പെടുത്തിയിരിക്കുന്നതുപോലെ അനുബന്ധ സംരക്ഷണങ്ങളോടെ അത് വിന്യസിക്കുന്നു. ഇവയിൽ വിപുലീകരിച്ച സൈബർ സുരക്ഷാ സ്റ്റാക്ക് ഉൾപ്പെടുന്നു. അതിൽ നിരീക്ഷണ സംവിധാനങ്ങൾ, വിശ്വസനീയമായ ആക്സസ് നിയന്ത്രണങ്ങൾ, കൂടാതെ സീറോ ഡാറ്റ റിട്ടെൻഷൻ (ZDR) സർഫേസുകളിലുള്ള ഉപഭോക്താക്കൾക്കായി ഉയർന്ന അപകടസാധ്യതയുള്ള അഭ്യർത്ഥനകൾക്ക് അസിങ്ക്രോണസ് ബ്ലോക്കിംഗ് എന്നിവയും ഉൾപ്പെടുന്നു. കൂടാതെ വിപുലമായ സുരക്ഷാ ഇക്കോസിസ്റ്റത്തിലേക്കുള്ള തുടർച്ചയായ നിക്ഷേപവും.
സൈബർസുരക്ഷാ കഴിവുകൾ സ്വാഭാവികമായിത്തന്നെ ഇരട്ട-ഉപയോഗമായതിനാൽ, ഞങ്ങൾ ഞങ്ങളുടെ നയങ്ങളും ക്ലാസിഫയറുകളും തുടർച്ചയായി ക്രമീകരിച്ചുകൊണ്ടിരിക്കുമ്പോൾ വിന്യാസത്തിന് മുൻകരുതൽ സമീപനം നിലനിർത്തുന്നു. ZDR സർഫേസുകളിലെ ചില ഉപഭോക്താക്കൾക്കായി, അഭ്യർത്ഥന-തല തടയൽ ഞങ്ങളുടെ സൈബർ അപകടസാധ്യത ലഘൂകരണ സ്റ്റാക്കിന്റെ ഭാഗമായിത്തന്നെ തുടരുന്നു; ക്ലാസിഫയറുകൾ ഇപ്പോഴും മെച്ചപ്പെടുന്നതിനാൽ, ഈ സുരക്ഷാ സംവിധാനങ്ങൾ ഞങ്ങൾ തുടർന്നും പരിഷ്കരിക്കുന്നതിനിടെ ചില തെറ്റായ പോസിറ്റീവുകൾ സംഭവിക്കാം. ഈ അപ്ഡേറ്റുകൾ പ്രായോഗികമായി സുരക്ഷാ മുൻകരുതലുകൾ പ്രവർത്തിക്കുന്ന രീതി മെച്ചപ്പെടുത്തുകയാണ് ലക്ഷ്യമിടുന്നത്; അതിൽ അനാവശ്യമായ നിരസിക്കലുകളും അമിതമായ മുന്നറിയിപ്പുകളോടുകൂടിയ മറുപടികളും കുറയ്ക്കുന്നതും ഉൾപ്പെടുന്നു, അതേസമയം ദുരുപയോഗത്തിനെതിരായ ശക്തമായ സംരക്ഷണങ്ങൾ നിലനിർത്തുകയും ചെയ്യുന്നു.
മോഡലുകൾ എങ്ങനെ യുക്തിചിന്ത നടത്തുന്നു എന്ന് കൂടുതൽ മനസ്സിലാക്കാനും സാധ്യതയുള്ള തെറ്റായ പെരുമാറ്റം കണ്ടെത്താൻ സഹായിക്കാനും, ചെയ്ൻ-ഓഫ്-തോട്ട് (CoT) നിരീക്ഷണക്ഷമതയെക്കുറിച്ചുള്ള ഞങ്ങളുടെ സുരക്ഷാ ഗവേഷണം ഞങ്ങൾ തുടർന്നു. ഈ പ്രവർത്തനത്തിന്റെ ഭാഗമായി, നിരീക്ഷണം ഒഴിവാക്കാൻ മോഡലുകൾക്ക് അവരുടെ റീസണിംഗ് ഉദ്ദേശപൂർവ്വം മറച്ചുവെക്കാനാകുമോ എന്ന് അളക്കുന്ന ഒരു പുതിയ ഓപ്പൺ-സോഴ്സ് മൂല്യനിർണ്ണയം, CoT controllability, ഞങ്ങൾ അവതരിപ്പിക്കുന്നു. ഞങ്ങൾ കണ്ടെത്തുന്നത് GPT‑5.4 Thinking-ന്റെ CoT നിയന്ത്രിക്കാനുള്ള കഴിവ് കുറവാണ്; ഇത് സുരക്ഷയ്ക്കായി ഒരു അനുകൂല ഗുണമാണ്, മോഡലിന് തന്റെ റീസണിംഗ് മറയ്ക്കാനുള്ള കഴിവ് ഇല്ലെന്ന് സൂചിപ്പിക്കുകയും CoT നിരീക്ഷണം ഫലപ്രദമായ ഒരു സുരക്ഷാ ഉപകരണമായി തുടരുന്നു എന്നും നിർദ്ദേശിക്കുന്നു.
GPT‑5.4 ഇന്ന് ChatGPT‑ലും Codex-ലും ക്രമേണ പുറത്തിറങ്ങുന്നു. API-യിൽ, GPT‑5.4 ഇപ്പോൾ gpt-5.4 ആയി ലഭ്യമാണ്. GPT‑5.4 Pro API-യിൽ gpt-5.4-pro എന്ന പേരിൽ ലഭ്യമാണ് ഏറ്റവും സങ്കീർണ്ണമായ ടാസ്കുകളിൽ പരമാവധി പ്രകടനം ആവശ്യമായ ഡെവലപ്പർമാർക്കായി.
ChatGPT‑ൽ, GPT‑5.4 Thinking ഇന്ന് മുതൽ ChatGPT Plus, Team, Pro ഉപയോക്താക്കൾക്ക് ലഭ്യമാണ്, GPT‑5.2‑നെ പകരം വച്ച് Thinking. GPT‑5.2 Thinking പണമടച്ച ഉപയോക്താക്കൾക്ക് മോഡൽ പിക്കറിൽ Legacy Models വിഭാഗത്തിന് കീഴിൽ മൂന്ന് മാസത്തേക്ക് കൂടി ലഭ്യമായിരിക്കും, അതിനുശേഷം 2026, ജൂൺ 5-ന് ഇത് നിർത്തലാക്കുന്നതാണ്. Enterprise, Edu പ്ലാനുകളിലുള്ളവർക്ക് അഡ്മിൻ സെറ്റിംഗ്സ് വഴി പ്രാരംഭ ആക്സസ് പ്രവർത്തന സജ്ജമാക്കാം. GPT‑5.4 Pro, Pro, Enterprise പദ്ധതികളിൽ ലഭ്യമാണ്. സന്ദർഭ വിൻഡോകൾ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ChatGPT‑ൽ GPT‑5.4‑നായി GPT‑5.2 Thinking ൽ നിന്ന് Thinking മാറ്റമില്ലാതെ തുടരുന്നു.
GPT‑5.4 GPT‑5.3‑codex ന്റെ അത്യാധുനിക കോഡിംഗ് കഴിവുകൾ ഉൾക്കൊള്ളുന്നതും ChatGPT, API, Codex എന്നിവയിലുടനീളം പുറത്തിറങ്ങുന്നതുമായ ഞങ്ങളുടെ ആദ്യ പ്രധാന റീസണിംഗ് മോഡൽ ആണ്. ആ കുതിച്ചാുചട്ടം പ്രതിഫലിപ്പിക്കാനും, Codex ഉപയോഗിക്കുമ്പോൾ മോഡലുകൾ തമ്മിലുള്ള തിരഞ്ഞെടുപ്പ് ലളിതമാക്കാനും, ഞങ്ങൾ അതിനെ GPT‑5.4 എന്ന് വിളിക്കുന്നു. കാലക്രമേണ, ഞങ്ങളുടെ Instant മോഡലുകളും Thinking മോഡലുകളും വ്യത്യസ്ത വേഗതകളിൽ വികസിക്കുമെന്ന് നിങ്ങൾക്ക് പ്രതീക്ഷിക്കാം.
Codex-ലെ GPT‑5.4‑ൽ 1M context window-ന് പരീക്ഷണാത്മക പിന്തുണ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. ഡെവലപ്പർമാർക്ക് model_context_window യും model_auto_compact_token_limitയും ക്രമീകരിച്ച് ഇത് പരീക്ഷിക്കാം. സ്റ്റാൻഡേർഡ് 272K കോൺടെക്സ്റ്റ് വിൻഡോയെ കവിയുന്ന അഭ്യർത്ഥനകൾ സാധാരണ നിരക്കിന്റെ 2x നിരക്കിൽ ഉപയോഗ പരിധികളിൽ എണ്ണപ്പെടും.
APIയിൽ, GPT‑5.4‑ന് ഓരോ ടോക്കൺ-നും വില GPT‑5.2‑നെക്കാൾ കൂടുതലാണ്, അതിന്റെ മെച്ചപ്പെട്ട കഴിവുകൾ പ്രതിഫലിപ്പിക്കുന്നതിനായി; അതേസമയം, അതിന്റെ കൂടുതൽ ടോക്കൺ കാര്യക്ഷമത പല ജോലികൾക്കും ആവശ്യമായ മൊത്തം ടോക്കൺ-കളുടെ എണ്ണം കുറയ്ക്കാൻ സഹായിക്കുന്നു. Batch, Flex വിലനിർണ്ണയം സ്റ്റാൻഡേർഡ് API നിരക്കിന്റെ പകുതിയിൽ ലഭ്യമാണ്, അതേസമയം Priority പ്രോസസ്സിംഗ് സ്റ്റാൻഡേർഡ് API നിരക്കിന്റെ ഇരട്ടിയിൽ ലഭ്യമാണ്.
API മോഡൽ | ഇൻപുട്ട് വില | കാഷെയിലുള്ള ഇൻപുട്ട് വില | ഔട്ട്പുട്ട് വില |
gpt-5.2 | $1.75 / M ടോക്കൺകൾ | $0.175 / M ടോക്കണുകൾ | $14 / M ടോക്കണുകൾ |
gpt-5.4 | $2.50 / M ടോക്കൺ | $0.25 / M ടോക്കണുകൾ | $15 / M ടോക്കണുകൾ |
gpt-5.2-pro | $21 / M ടോക്കണുകൾ | - | $168 / M ടോക്കണുകൾ |
gpt-5.4-pro | $30 / M ടോക്കൺ | - | $180 / M ടോക്കണുകൾ |
പ്രൊഫഷണൽ
എവാല്യൂവേഷൻ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83.0% | 82.0% | 70.9% | 70.9% | 74.1% |
FinanceAgent v1.1 | 56.0% | 61.5% | 54.0% | 59.5% | — |
നിക്ഷേപ ബാങ്കിംഗ് മോഡലിംഗ് ടാസ്കുകൾ (ആന്തരികം) | 87.3% | 83.6% | 79.3% | 68.4% | 71.7% |
OfficeQA | 68.1% | — | 65.1% | 63.1% | — |
കോഡിംഗ്
എവാല്യൂവേഷൻ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (പൊതുവായി) | 57.7% | — | 56.8% | 55.6% | — |
Terminal-Bench 2.0 | 75.1% | — | 77.3% | 62.2% | — |
കമ്പ്യൂട്ടർ ഉപയോഗവും വിഷനും
എവാല്യൂവേഷൻ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-സ്ഥിരീകരിച്ചത് | 75.0% | — | 74.0% | 47.3% | — |
MMMU Pro (ഉപകരണങ്ങളില്ല) | 81.2% | — | — | 79.5% | — |
MMMU Pro (ടൂളുകൾ ഉൾപ്പെടെ) | 82.1% | — | — | 80.4% | — |
ഉപകരണങ്ങളുടെ ഉപയോഗം
എവാല്യൂവേഷൻ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82.7% | 89.3% | 77.3% | 65.8% | 77.9% |
MCP അറ്റ്ലസ് | 67.2% | — | — | 60.6% | — |
Toolathlon | 54.6% | — | 51.9% | 45.7% | — |
Tau2-bench Telecom | 98.9% | — | — | 98.7% | — |
അക്കാദമിക്
എവാല്യൂവേഷൻ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ഫ്രോണ്ടിയർ സയൻസ് റിസർച്ച് | 33.0% | 36.7% | — | 25.2% | — |
ഫ്രോണ്ടിയർമാത്ത് ടയർ 1–3 | 47.6% | — | — | 40.7% | — |
ഫ്രോണ്ടിയർമാത്ത് ടയർ 4 | 27.1% | 38.0% | — | 18.8% | 31.3% |
GPQA Diamond | 92.8% | 94.4% | 92.6% | 92.4% | 93.2% |
ഹ്യുമാനിറ്റീസ് അവസാന പരീക്ഷ (ടൂളുകളില്ല) | 39.8% | 42.7% | — | 34.5% | 36.6% |
ഹ്യുമാനിറ്റീസ് അവസാന പരീക്ഷ (ടൂളുകളോടെ) | 52.1% | 58.7% | — | 45.5% | 50.0% |
ലോംഗ് കോൺടെക്സ്റ്റ്
എവാല്യൂവേഷൻ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93.0% | — | — | 94.0% | — |
ഗ്രാഫ്വാക്കുകൾ BFS 256K–1M | 21.4% | — | — | — | — |
Graphwalks പാരന്റുകൾ 0–128K (കൃത്യത) | 89.8% | — | — | 89.0% | — |
Graphwalks പാരന്റുകൾ 256K–1M (കൃത്യത) | 32.4% | — | — | — | — |
OpenAI MRCR v2 8-നീഡിൽ 4K–8K | 97.3% | — | — | 98.2% | — |
OpenAI MRCR v2 8-നീഡിൽ 8K–16K | 91.4% | — | — | 89.3% | — |
OpenAI MRCR v2 8-സൂചി 16K–32K | 97.2% | — | — | 95.3% | — |
OpenAI MRCR v2 8-നീഡിൽ 32K–64K | 90.5% | — | — | 92.0% | — |
OpenAI MRCR v2 8-സൂചി 64K–128K | 86.0% | — | — | 85.6% | — |
OpenAI MRCR v2 8-നീഡിൽ 128K–256K | 79.3% | — | — | 77.0% | — |
OpenAI MRCR v2 8-നീഡിൽ 256K–512K | 57.5% | — | — | — | — |
OpenAI MRCR v2 8-സൂചികൾ 512K–1M | 36.6% | — | — | — | — |
അബ്സ്ട്രാക്റ്റ് റീസണിംഗ്
എവാല്യൂവേഷൻ | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (സ്ഥിരീകരിച്ചത്) | 93.7% | 94.5% | — | 86.2% | 90.5% |
ARC-AGI-2 (സ്ഥിരീകരിച്ചത്) | 73.3% | 83.3% | — | 52.9% | 54.2% (ഉയർന്ന) |
റീസണിംഗ് ഇല്ലാത്ത മൂല്യനിർണ്ണയങ്ങൾ
എവാല്യൂവേഷൻ | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (നോർമലൈസ്ഡ് എഡിറ്റ് ഡിസ്റ്റൻസ്) | 0.109 | 0.140 | — |
Tau2-bench Telecom | 64.3% | 57.2% | 43.6% |
മറ്റെവിടെയെങ്കിലും പ്രത്യേകം സൂചിപ്പിച്ചിട്ടില്ലാത്ത പക്ഷം, റീസണിംഗ് ശ്രമം xhigh' എന്ന് സെറ്റ് ചെയ്താണ് ഈ വിലയിരുത്തലുകൾ നടത്തിയത് ബെഞ്ച്മാർക്കുകൾ ഒരു ഗവേഷണ പരിസ്ഥിതിയിൽ നടത്തപ്പെട്ടവയാണ്, ചില സാഹചര്യങ്ങളിൽ ഇത് പ്രൊഡക്ഷൻ ChatGPT‑ൽ നിന്ന് അല്പം വ്യത്യസ്തമായ ഔട്ട്പുട്ട് നൽകാൻ സാധ്യതയുണ്ട്.


