2025 ഡിസംബർ 11

GPT‑5.2 അവതരിപ്പിക്കുന്നു

പ്രൊഫഷണൽ ജോലികൾക്കും ദീർഘകാലം പ്രവർത്തിക്കുന്ന ഏജൻ്റുകൾക്കുമായി ഏറ്റവും പുതിയതായി മുന്നോട്ട് വെയ്ക്കപെട്ട മോഡൽ.

ലോഡിംഗ്…

ഞങ്ങൾ GPT‑5.2 അവതരിപ്പിക്കുന്നു, ഇതുവരെ ഉള്ളതിൽ ഏറ്റവും കഴിവുള്ള പ്രൊഫഷണൽ വിജ്ഞാന പ്രവർത്തനത്തിനായുള്ള ഏറ്റവും മികച്ച മോഡൽ സീരീസ്.

ഇതിനകം തന്നെ, ശരാശരി ChatGPT Enterprise ഉപയോക്താവ് AI അവർക്കു ദിവസവും 40-60 മിനിറ്റ് ലാഭിക്കുന്നതായി പറയുന്നു⁠, കൂടാതെ കൂടുതൽ ഉപയോഗിക്കുന്നവർ ആഴ്ചയിൽ 10 മണിക്കൂറിൽ കൂടുതൽ ലാഭിക്കുന്നതായിപറയുന്നു. ഞങ്ങൾ GPT‑5.2 രൂപകൽപ്പന ചെയ്തത് ആളുകൾക്ക് കൂടുതൽ സാമ്പത്തിക മൂല്യം ലഭ്യമാക്കുന്നതിനാണ്; ഇത് സ്പ്രെഡ്ഷീറ്റുകൾ സൃഷ്ടിക്കുന്നതിലും, അവതരണങ്ങൾ നിർമ്മിക്കുന്നതിലും, കോഡ് എഴുതുന്നതിലും, ചിത്രങ്ങൾ തിരിച്ചറിയുന്നതിലും, ദീർഘമായ സന്ദർഭങ്ങൾ മനസ്സിലാക്കുന്നതിലും, ഉപകരണങ്ങൾ ഉപയോഗിക്കുന്നതിലും, സങ്കീർണ്ണവും മൾട്ടി-സ്റ്റെപ്പ് പദ്ധതികളെയും കൈകാര്യം ചെയ്യുന്നതിലും മികച്ചതാണ്.

GPT‑5.2 പല ബഞ്ച്മാർക്കുകളിലും, പ്രത്യേകിച്ച് GDPval-ൽ, പുതിയ state of the art ബഞ്ച് മാര്‍ക്ക് സൃഷ്ടിക്കുന്നു, 44 തൊഴിൽ മേഖലകളിലായി വ്യാപിക്കുന്ന നന്നായി നിർവചിച്ച വിജ്ഞാന ജോലികളുടെ ടാസ്കുകളിൽ ഉള്ള വ്യവസായ പ്രൊഫഷണലുകളെ മികവുറ്റവരാക്കുന്നു.

	GPT‑5.2 Thinking	GPT‑5.1 Thinking
GDPval (വിജയങ്ങൾ അല്ലെങ്കിൽ സമനില) ^{അറിവ് പ്രവർത്തന ടാസ്കുകൾ}	70.9%	38.8% (GPT‑5)
SWE-Bench Pro (public) ^{സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗ്}	55.6%	50.8%
SWE-ബെഞ്ച് സ്ഥിരീകരിച്ചത് ^{സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗ്}	80.0%	76.3%
GPQA Diamond (ഉപകരണങ്ങൾ ഇല്ല) ^{ശാസ്ത്ര ചോദ്യങ്ങൾ}	92.4%	88.1%
CharXiv റീസണിംഗ് (Python ഉപയോഗിച്ച്) ^{ശാസ്ത്രീയ ചിത്ര ചോദ്യങ്ങൾ}	88.7%	80.3%
HMMT (Feb 2025) ^{ഗണിതശാസ്ത്ര മത്സരം}	99.4%	96.3%
ഫ്രോണ്ടിയർമാത്ത് (ടയർ 1–3) ^{ഉന്നത ഗണിതശാസ്ത്രം}	40.3%	31.0%
ARC-AGI-1 (സ്ഥിരീകരിച്ചത്) ^{അബ്സ്ട്രാക്റ്റ് റീസണിംഗ്}	86.2%	72.8%
ARC-AGI-2 (സ്ഥിരീകരിച്ചത്) ^{അഭിപ്രായാത്മക ചിന്ത}	52.9%	17.6%

ChatGPT‑ൽ, GPT‑5.2 Instant, Thinking, Pro എന്നിവ ആദ്യം പണമടച്ച പദ്ധതികളിൽ ഇന്ന് മുതൽ വിതരണം ആരംഭിക്കുന്നു. അവ ഇപ്പോൾ എല്ലാ ഡെവലപ്പർമാർക്കും API-യിൽ ലഭ്യമാണ്.

മൊത്തത്തിൽ, GPT‑5.2 പൊതുവായ ബുദ്ധി, ദീർഘ-സന്ദർഭ ധാരണ, ഏജന്റ് ടൂൾ-കോളിംഗ്, ദർശനം എന്നിവയിൽ ഗണ്യമായ പുരോഗതി കൊണ്ടുവരുന്നു - സങ്കീർണ്ണമായ, യഥാർത്ഥ ലോകത്തിലെ ജോലികൾ ആദ്യം മുതൽ അവസാനം വരെ നിർവ്വഹിക്കുന്നതിൽ മുൻ മോഡലുകളെക്കാൾ മികച്ചതാണ്.

മോഡൽ പ്രകടനം

സാമ്പത്തികമായി മൂല്യവത്തായ പ്രവർത്തനങ്ങൾ

GPT‑5.2 Thinking യഥാർത്ഥ ലോകത്തും പ്രൊഫഷണൽ ഉപയോഗത്തിനും ഇതുവരെ ലഭ്യമായതില്‍ ഏറ്റവും മികച്ച മോഡലാണ്. GDPval⁠ എന്നത് 44 തൊഴിൽ മേഖലകളിലുടനീളം നന്നായി നിർവചിച്ച വിജ്ഞാനപ്രവർത്തന ടാസ്കുകൾ അളക്കുന്ന ഒരു മൂല്യനിർണ്ണയമാണ്, GPT‑5.2 Thinking ഒരു പുതിയ സ്റ്റേറ്റ് ഓഫ് ദി ആർട്ട് സ്കോർ സൃഷ്ടിക്കുന്നു, വിദഗ്ധരുടെ തലത്തിൽ അല്ലെങ്കിൽ അതിനുമുകളിൽ പ്രവർത്തിക്കുന്ന ഞങ്ങളുടെ ആദ്യ മോഡൽ ആണ് ഇത്. പ്രത്യേകിച്ച്, GPT‑5.2 വിദഗ്ദ്ധരായ മനുഷ്യ വിധികർത്താക്കളുടെ അഭിപ്രായത്തിൽ, "തിങ്കിംഗ്" GDPval വിജ്ഞാന ടാസ്കുകളുടെ 70.9% താരതമ്യങ്ങളിൽ മുൻനിര വ്യവസായ പ്രൊഫഷണലുകളെ തോൽപ്പിക്കുകയോ അല്ലെങ്കിൽ അവര്‍ക്ക് തുല്യമോ ആണ്. ഈ ടാസ്കുകളിൽ അവതരണങ്ങൾ, സ്പ്രെഡ്ഷീറ്റുകൾ, മറ്റ് കലാവസ്തുക്കൾ ഉണ്ടാക്കൽ എന്നിവ ഉൾപ്പെടുന്നു. GPT‑5.2 തിങ്കിംഗ് GDPval ടാസ്കുകൾ 11 മടങ്ങ് വേഗത്തിലും വിദഗ്ധ പ്രൊഫഷണലുകളുടെ ചെലവിന്റെ 1% ൽ താഴെ ചെലവിലും ഔട്ട്പുട്ടുകൾ ഉത്പാദിപ്പിച്ചു, ഇത് മനുഷ്യ മേൽനോട്ടത്തോടൊപ്പം ചേർത്താൽ, GPT‑5.2 പ്രൊഫഷണൽ ജോലിയിൽ സഹായകരമാകുമെന്നാണ് സൂചിപ്പിക്കുന്നത്. വേഗതയും ചെലവും സംബന്ധിച്ച കണക്കുകളും അതിന്റെ ചരിത്രപരമായ മെട്രിക്സുകളെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്; ChatGPT‑യിലെ വേഗത വ്യത്യാസപ്പെടാം.

GDPval-ൽ, മോഡലുകൾ യുഎസ് GDP-യിലേക്ക് സംഭാവന ചെയ്യുന്ന മുൻനിര 9 വ്യവസായങ്ങളിൽ നിന്നുള്ള 44 തൊഴിൽ മേഖലകളിലായി വ്യാപിക്കുന്ന, നന്നായി നിർവചിച്ച വിജ്ഞാന പ്രവർത്തനങ്ങൾ നടത്താൻ ശ്രമിക്കുന്നു. ടാസ്കുകൾ വിൽപ്പന അവതരണങ്ങൾ, അക്കൗണ്ടിംഗ് സ്പ്രെഡ്ഷീറ്റ്, അടിയന്തിര പരിചരണ ഷെഡ്യൂളുകൾ, നിർമ്മാണ ഡയഗ്രം, അല്ലെങ്കിൽ ചെറു വീഡിയോകൾ പോലുള്ള യഥാർത്ഥ പ്രവർത്തന ഉൽപ്പന്നങ്ങൾ ആവശ്യപ്പെടുന്നു. ChatGPT‑ൽ, GPT‑5.2 Thinking-ന് GPT‑5 Thinking-ല്‍ ഇല്ലാത്ത പുതിയ ടൂളുകള്‍ ഉണ്ട്.

ഒരു മികച്ച ഔട്ട്പുട്ട് പ്രത്യേകമായി അവലോകനം ചെയ്യുമ്പോൾ, ഒരു GDPval ജഡ്ജ് അഭിപ്രായപ്പെട്ടത്, "ഇത് ഔട്ട്പുട്ട് ഗുണനിലവാരത്തിൽ ഒരു ആവേശകരവും ശ്രദ്ധേയവുമായ ചുവടുവയ്പാണ്... [ഇത്] ജീവനക്കാരുള്ള ഒരു പ്രൊഫഷണൽ കമ്പനി ചെയ്തതുപോലെ തോന്നുന്നു, കൂടാതെ രണ്ട് ഡെലിവറിബിളുകൾക്കും അത്ഭുതകരമായി രൂപകൽപ്പന ചെയ്ത ലേഔട്ട്, ഉപദേശങ്ങൾ എന്നിവ ഉണ്ട്, എങ്കിലും ഇതിൽ ചില ചെറിയ പിശകുകൾ ഇനിയും ശരിയാക്കേണ്ടതുണ്ട്." എന്നാണ്

കൂടാതെ, ഫോർച്യൂൺ 500 കമ്പനിക്ക് ശരിയായ ഫോർമാറ്റിംഗും ഉദ്ധരണികളും ഉപയോഗിച്ച് മൂന്ന് സ്റ്റേറ്റ്മെന്റ് മോഡൽ ഒരുമിപ്പിക്കൽ, അല്ലെങ്കിൽ ടേക്ക്-പ്രൈവറ്റിനായി ഒരു ലിവറേജ് വാങ്ങൽ മോഡൽ നിർമ്മിക്കൽ പോലുള്ള ജൂനിയർ നിക്ഷേപ ബാങ്കിംഗ് അനലിസ്റ്റ് സ്പ്രെഡ്ഷീറ്റ് മോഡലിംഗ് ടാസ്കുകളുടെ ആന്തരിക ബെഞ്ച്മാർക്കിൽ, GPT‑5.2 Thinking-ന്റെ ശരാശരി സ്കോർ ഓരോ ടാസ്കിലും GPT‑5.1‑നേക്കാൾ 9.3% ഉയർന്നതുമാണ് 59.1% മുതൽ 68.4% വരെ ഉയര്‍ച്ച കാണുന്നുണ്ട്.

സൈഡ്-ബൈ-സൈഡ് താരതമ്യങ്ങൾ GPT‑5.2 സൃഷ്ടിച്ച സ്പ്രെഡ്ഷീറ്റുകളും സ്ലൈഡുകളും മെച്ചപ്പെട്ട സങ്കീർണ്ണതയും ഫോർമാറ്റിംഗും കാണിക്കുന്നു Thinking

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

പ്രോംപ്റ്റ്: തലവരി, നിയമന പദ്ധതി, ഒഴിവാക്കൽ, ബജറ്റ് സ്വാധീനം എന്നിവ ഉൾക്കൊള്ളുന്ന ഒരു തൊഴിലാളി പദ്ധതിയുടെ മോഡൽ സൃഷ്ടിക്കുക. എഞ്ചിനീയറിംഗ്, മാർക്കറ്റിംഗ്, നിയമ, വിൽപ്പന വകുപ്പുകൾ ഉൾപ്പെടെ.

ChatGPT‑യിലുള്ള പുതിയ സ്പ്രെഡ്ഷീറ്റും അവതരണ ശേഷികളും ഉപയോഗിക്കാൻ നിങ്ങൾ ഒരു പണമടച്ച പദ്ധതി യിൽ ചേര്‍ന്നിരിക്കണം, GPT‑5.2 Thinking അല്ലെങ്കിൽ Pro തിരഞ്ഞെടുത്തിരിക്കുകയും വേണം. സങ്കീർണ്ണമായ തലമുറകൾ ഉത്പാദിപ്പിക്കാൻ നിരവധി മിനിറ്റുകൾ എടുത്തേക്കാം.

കോഡിംഗ്

GPT‑5.2 Thinking SWE-ബെഞ്ച് Pro-ൽ 55.6% എന്ന പുതിയ അത്യാധുനിക നിലവാരം സ്ഥാപിക്കുന്നു, യഥാർത്ഥ ലോകത്തിലെ സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗിന്റെ കർശനമായ ഒരു മൂല്യനിർണ്ണയമാണ് ഇത്. SWE-ബെഞ്ച് സ്ഥിരീകരിച്ചതിനെ അപേക്ഷിച്ച്, Python മാത്രം പരീക്ഷിക്കുന്ന SWE-bench Pro നാല് ഭാഷകളെ പരീക്ഷിക്കുകയും കൂടുതൽ മലിനീകരണ പ്രതിരോധം, കൂടുതൽ വെല്ലുവിളികളും വൈവിധ്യവും വ്യവസായപരമായ പ്രാധാന്യവും ലക്ഷ്യമിടുകയും ചെയ്യുന്നു.

In SWE-ബെഞ്ച് Pro⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു)⁠⁠⁠, ഒരു മോഡലിന് ഒരു കോഡ് റിപോസിറ്ററി നല്‍കുമ്പോള്‍ യഥാർത്ഥ സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗ് ടാസ്ക് പരിഹരിക്കുന്നതിന് ഒരു പാച്ച് സൃഷ്ടിക്കേണ്ടതുണ്ട്.

SWE-ബെഞ്ചിൽ സ്ഥിരീകരിച്ച (ചിത്രീകരിച്ചിട്ടില്ല), GPT‑5.2 Thinking 80% എന്ന പുതിയ ഉയർന്ന സ്കോർ നേടുന്നു.

ദൈനംദിന പ്രൊഫഷണൽ ഉപയോഗത്തിനായുള്ള ഒരു മോഡലില്‍ പരിഗണിക്കുമ്പോള്‍ , ഇതിന് ഉൽപ്പാദന കോഡ് കൂടുതൽ വിശ്വസനീയമായി ഡീബഗ് ചെയ്യാനും, ഫീച്ചർ അഭ്യർത്ഥനകൾ നടപ്പിലാക്കാനും, വലിയ കോഡ്ബേസുകൾ റീഫാക്ടർ ചെയ്യാനും, കുറവ് മാനുവൽ ഇടപെടലോടെ എന്റു-ടു-എൻഡ് പരിഹാരങ്ങൾ അയയ്ക്കാനും കഴിയുന്നു.

GPT‑5.2 Thinking , GPT‑5.1 Thinking -നെ അപേക്ഷിച്ച് ഫ്രണ്ട്-എൻഡ് സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗിൽ മെച്ചമാണ്. ആദ്യകാല പരീക്ഷകർ ഇത് ഫ്രണ്ട്-എൻഡ് വികസനത്തിലും സങ്കീർണ്ണമായ അല്ലെങ്കിൽ അസാധാരണമായ UI ജോലികളിലും, പ്രത്യേകിച്ച് 3D ഘടകങ്ങൾ ഉൾപ്പെടുന്നവയിൽ, വളരെ ശക്തമാണെന്ന് കണ്ടെത്തി - ഇത് സ്റ്റാക്കിലെ എഞ്ചിനീയർമാർക്ക് ഒരു ശക്തമായ ദൈനംദിന പങ്കാളിയാണെന്ന് സാരം. ഒരു പ്രോംപ്റ്റിൽ നിന്ന് എന്തെല്ലാം സൃഷ്ടിക്കാനാകുമെന്ന് കാണിക്കുന്ന ചില ഉദാഹരണങ്ങൾ കാണുക:

പ്രോംപ്റ്റ്:താഴെ പറയുന്ന ആവശ്യകതകളോടെ ഒരു HTML ഫയലിൽ ഒരു സിംഗിൾ പേജ് ആപ്പ് സൃഷ്ടിക്കുക: - പേര്: Ocean Wave Simulation - ലക്ഷ്യം: യാഥാർത്ഥ്യപരമായ ആനിമേറ്റഡ് തിരമാലകൾ പ്രദർശിപ്പിക്കുക. - സവിശേഷതകൾ: കാറ്റിന്റെ വേഗത, തിരമാലയുടെ ഉയരം, ലൈറ്റിംഗ് മാറ്റുക. - UI ശാന്തവും യാഥാർത്ഥ്യപരവുമായിരിക്കണം.

GPT‑5.2‑നെക്കുറിച്ചുള്ള ആദ്യകാല പരീക്ഷകർ അവരുടെ ഫീഡ്‌ബാക്ക് പങ്കിട്ടു കോഡിംഗ് ശേഷികൾ:

GPT-5.2 GPT മോഡലുകൾ ഏജന്റിക് കോഡിംഗിൽ GPT-5 മുതൽ ഏറ്റവും വലിയ മുന്നേറ്റം പ്രതിനിധീകരിക്കുന്നു, കൂടാതെ അതിന്റെ വില പരിധിയിൽ ഒരു SOTA കോഡിംഗ് മോഡലാണ്. പതിപ്പിന്റെ വർദ്ധന ബുദ്ധിയുടെ വളർച്ചയെ കുറച്ച് മാത്രം പ്രതിഫലിപ്പിക്കുന്നു. Windsurf-ലും നിരവധി പ്രധാന Devin വർക്ക്ലോഡുകളിലും ഇത് ഡിഫോൾട്ട് ആക്കുന്നതിൽ ഞങ്ങൾ ആവേശഭരിതരാണ്.

Jeff Wang, Windsurfയുടെ CEO

വസ്തുത

GPT‑5.2 Thinking GPT‑5.1 Thinking അപേക്ഷിച്ച് കുറച്ചു മാത്രം ഹലൂസിനെറ്റ് ചെയ്യുന്നുള്ളൂ. ChatGPT‑ന്റെ തിരിച്ചറിയാതാക്കിയ ചോദ്യങ്ങളിൽ നിന്നുള്ള മറുപടികളിൽ പിശകുകൾ 38%_rel കുറവായിരുന്നു. പ്രൊഫഷണലുകൾക്ക്, ഗവേഷണം, എഴുത്ത്, വിശകലനം, തീരുമാന പിന്തുണ എന്നിവയ്ക്കായി മോഡൽ ഉപയോഗിക്കുമ്പോൾ കുറവ് പിഴവുകൾ മാത്രമേ ഉണ്ടാകു എന്നാണ് ഇതിന്റെ അർത്ഥം—ദൈനംദിന വിജ്ഞാന ജോലികൾക്കായി മോഡൽ കൂടുതൽ വിശ്വസനീയമാണ്.

റീസണിംഗ് ശ്രമം ലഭ്യമായ പരമാവധി ആയി ക്രമീകരിച്ച ശേഷം, ഒരു തിരയൽ ഉപകരണം പ്രവർത്തന സജ്ജമാക്കി. മറ്റു മോഡലുകൾ കണ്ടെത്തിയ പിശകുകൾ, അവ സ്വയം തന്നെ വരുത്താൻ സാധ്യതയുള്ള പിശകുകളാണ്. ക്ലെയിം-തലത്തിലുള്ള പിശക് നിരക്കുകൾ മറുപടി-തലത്തിലുള്ള പിശക് നിരക്കുകളേക്കാൾ വളരെ കുറവാണ്, കാരണം മിക്ക മറുപടികളിലും നിരവധി ക്ലെയിമുകൾ അടങ്ങിയിരിക്കുന്നു.

എല്ലാ മോഡലുകളെയും പോലെ, GPT‑5.2 Thinking അപൂർണ്ണമാണ്. പ്രധാനമായ എന്ത് കാര്യത്തിലും, അതിന്റെ ഉത്തരങ്ങൾ രണ്ടുതവണ പരിശോധിക്കുക.

ലോംഗ് കോൺടെക്സ്റ്റ്

GPT‑5.2 Thinking ദീർഘമായ സന്ദർഭ ചിന്തയിൽ ഒരു പുതിയ നിലവാരം സൃഷ്ടിക്കുന്നു, OpenAI MRCRv2-ൽ മുൻനിര പ്രകടനം കൈവരിക്കുന്നു—ദീർഘമായ ഡോക്യുമെൻ്റുകളിൽ വ്യാപിച്ചിരിക്കുന്ന വിവരങ്ങൾ സംയോജിപ്പിക്കുന്നതിനുള്ള മോഡലിന്റെ കഴിവിനെ പരീക്ഷിക്കുന്ന ഒരു വിലയിരുത്തൽ ആണിത്. നൂറുകണക്കിന് ആയിരക്കണക്കിന് token-കളിലുടനീളം ബന്ധപ്പെട്ട വിവരങ്ങൾ ആവശ്യമായ ഡീപ്പ് ഡോക്യുമെൻ്റ് വിശകലനം പോലുള്ള യഥാർത്ഥ ലോക ടാസ്കുകളിൽ, GPT‑5.2 Thinking GPT‑5.1 Thinking- നെ അപേക്ഷിച്ച് വളരെ കൃത്യമാണ്. പ്രത്യേകിച്ച് നാം കണ്ടിട്ടുള്ളതില്‍ വെച്ച് , 4-needle MRCR വകഭേദത്തിൽ (256k token വരെ) ഏകദേശം 100% കൃത്യത നേടുന്ന ആദ്യ മോഡൽ ആണിത്.

പ്രായോഗികമായി, ഇത് പ്രൊഫഷണലുകൾക്ക് GPT‑5.2 ഉപയോഗിച്ച് റിപ്പോർട്ടുകൾ, കരാറുകൾ, ഗവേഷണ പ്രബന്ധങ്ങൾ, ട്രാൻസ്ക്രിപ്റ്റുകൾ, മൾട്ടി-ഫയൽ പദ്ധതികൾ പോലുള്ള ദീർഘമായ ഡോക്യുമെൻ്റുകളുമായി പ്രവർത്തന സജ്ജമാക്കാൻ, നൂറുകണക്കിന് token-കളിൽ സമഗ്രതയും കൃത്യതയും നിലനിർത്താൻ സഹായിക്കുന്നു. ഇത് GPT‑5.2 നെ ആഴത്തിലുള്ള വിശകലനം, സംശ്ലേഷണം, സങ്കീർണ്ണമായ മൾട്ടി-സോഴ്സ് പ്രവാഹങ്ങൾ എന്നിവയ്ക്ക് പ്രത്യേകിച്ചും അനുയോജ്യമാക്കുന്നു.

In OpenAI-MRCR⁠⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) v2 (മൾട്ടി-റൗണ്ട് കോ-റഫറൻസ് പരിഹാരത്തിൽ), ഒരേപോലുള്ള നിരവധി “സൂചി” ഉപയോക്തൃ അഭ്യർത്ഥനകൾ സമാനമായ അഭ്യർത്ഥനകളുടെയും മറുപടികളുടെയും നീണ്ട “ഹേസ്റ്റാക്കുകളിൽ” ചേർക്കുന്നു, കൂടാതെ മോഡലിനോട് n-ആമത് സൂചിയിലേക്കുള്ള മറുപടി പുനരാവിഷ്കരിക്കാൻ ആവശ്യപ്പെടുന്നു. മൂല്യനിർണ്ണയത്തിന്റെ രണ്ടാം പതിപ്പ് തെറ്റായ ഗ്രൗണ്ട് ട്രൂത്ത് മൂല്യങ്ങളുള്ള ~5% ടാസ്കുകൾ പരിഹരിക്കുന്നു. ശരാശരി പൊരുത്ത അനുപാതം എന്നത് മോഡലിന്റെ മറുപടിയും ശരിയായ ഉത്തരത്തിനും ഇടയിലുള്ള ശരാശരി സ്ട്രിംഗ് പൊരുത്ത അനുപാതം അളക്കുന്നു. 256k പരമാവധി ഇൻപുട്ട് ടോക്കൺ-കളിൽ പോയിന്റുകൾ 128k–256k ഇൻപുട്ട് ടോക്കൺ-കളുടെ ശരാശരികളെ പ്രതിനിധീകരിക്കുന്നു, തുടങ്ങിയവ. ഇവിടെ, 256k 256 * 1,024 = 262,114 ടോക്കൺസ് പ്രതിനിധീകരിക്കുന്നു. റീസണിംഗ് ശ്രമം പരമാവധി ലഭ്യമായ രീതിയിലായിരുന്നു.

പരമാവധി കൊണ്ടെക്സ് വിൻഡോയ്ക്ക് അപ്പുറം ചിന്തിക്കുന്നതിൽ നിന്ന് പ്രയോജനം ലഭിക്കുന്ന ജോലികൾക്ക്, GPT‑5.2 Thinking മോഡലിന്റെ ഫലപ്രദമായ കൊണ്ടെക്സ് വിൻഡോ വിപുലീകരിക്കുന്നതില്‍, നമ്മുടെ പുതിയ Responses /compact എൻഡ്പോയിന്റ്‌മായി പൊരുത്തപ്പെടുന്നു. ഇത് GPT‑5.2‑നെ കൊണ്ടെക്സ് ദൈർഘ്യം കാരണം പരിമിതമായ, ഉപകരണങ്ങൾ കൂടുതലുള്ള, ദീർഘകാലം പ്രവർത്തിക്കുന്ന വർക്ക്‌ഫ്ലോകൾ കൈകാര്യം ചെയ്യുന്നതിന് അനുവദിക്കുന്നു. ഞങ്ങളുടെ API ഡോക്യുമെന്റേഷനിൽ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കൂടുതൽ വായിക്കുക.

ദർശനം

GPT‑5.2 Thinking ഞങ്ങളുടെ ഇതുവരെ ഏറ്റവും ശക്തമായ വിഷന്‍ മോഡൽ ആണ്, ചാർട്ട് വിശകലനത്തിലും സോഫ്റ്റ്വെയർ ഇന്റർഫേസ് മനസ്സിലാക്കലിലും പിശകിന്റെ നിരക്ക് ഏകദേശം പകുതിയായി കുറയ്ക്കുന്നു.

ദിനംപ്രതിയുള്ള പ്രൊഫഷണൽ ഉപയോഗത്തിനായി, മോഡൽ ഡാഷ്‌ബോർഡുകൾ, ഉൽപ്പന്ന സ്ക്രീൻഷോട്ടുകൾ, സാങ്കേതിക ഡയഗ്രാമുകൾ, ദൃശ്യ റിപ്പോർട്ടുകൾ എന്നിവ കൂടുതൽ കൃത്യമായി വ്യാഖ്യാനിക്കാൻ കഴിയും—ദൃശ്യ വിവരങ്ങൾ പ്രധാനമായ ഫിനാൻസ്, ഓപ്പറേഷൻസ്, എഞ്ചിനീയറിംഗ്, ഡിസൈൻ, കസ്റ്റമർ പിന്തുണ എന്നിവയിലുള്ള പ്രവൃത്തി പ്രവാഹങ്ങൾക്ക് പിന്തുണ നൽകുകയും ചെയ്യുന്നു.

ഇൻ CharXiv Reasoning⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), മോഡലുകൾ ശാസ്ത്രീയ പ്രബന്ധങ്ങളിൽ നിന്നുള്ള ദൃശ്യ ചാർട്ടുകളെക്കുറിച്ചുള്ള ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകുന്നു. ഒരു പൈത്തൺ ഉപകരണം പ്രവർത്തന സജ്ജമാക്കുകയും റീസണിംഗ് ശ്രമം പരമാവധി ക്രമീകരിക്കുകയും ചെയ്തു.

In ScreenSpot-Pro⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ൽ, മോഡലുകൾ വിവിധ പ്രൊഫഷണൽ ക്രമീകരണങ്ങളിൽ നിന്നുള്ള ഗ്രാഫിക്കൽ ഉപയോക്തൃ ഇന്റർഫേസുകളുടെ ഉയർന്ന റെസല്യൂഷൻ സ്ക്രീൻഷോട്ടുകൾക്കുറിച്ച് ചിന്തിക്കൂ. ഒരു പൈത്തൺ ഉപകരണം പ്രവർത്തന സജ്ജമാക്കി, ചിന്തിക്കുന്ന ശ്രമം പരമാവധി ആയി പ്രവർത്തന സജ്ജമാക്കി. പൈത്തൺ ഉപകരണം ഇല്ലാതെ, സ്കോറുകൾ വളരെ താഴ്ന്നതാണ്. ഇത്തരത്തിലുള്ള വിഷന്ടാ‍സ്കുകളിൽ പൈത്തൺ ഉപകരണം പ്രവർത്തന സജ്ജമാക്കാൻ ഞങ്ങൾ ശുപാർശ ചെയ്യുന്നു.

മുൻ മോഡലുകളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ, GPT‑5.2 Thinking -ന് ഒരു ചിത്രത്തിൽ ഘടകങ്ങൾ എങ്ങനെ സ്ഥിതിചെയ്യുന്നുവെന്ന് കൂടുതൽ ശക്തമായ ഗ്രാഹ്യമുണ്ട്, ഇത് പ്രശ്നപരിഹാരത്തിൽ ആപേക്ഷിക ലേഔട്ട് നിർണായകമായ പങ്ക് വഹിക്കുന്ന ടാസ്കുകളിൽ സഹായിക്കുന്നു. താഴെ കാണുന്ന ഉദാഹരണത്തിൽ, മോഡലിനോട് ഒരു ഇൻപുട്ട് ചെയ്ത ചിത്രത്തിലെ (ഈ സാഹചര്യത്തിൽ, ഒരു മദർബോർഡ്) ഘടകങ്ങളെ തിരിച്ചറിയാനും ഏകദേശ ബൗണ്ടിംഗ് ബോക്സുകള്‍ ഉള്‍പ്പെടുത്തിയ ലേബലുകൾ മടക്കിനൽകാനും ആവശ്യപ്പെടുന്നു. താഴ്ന്ന നിലവാരത്തിലുള്ള ചിത്രത്തിലും, GPT‑5.2 പ്രധാന പ്രദേശങ്ങളെ തിരിച്ചറിയുകയും ഓരോ ഘടകത്തിന്റെ യഥാർത്ഥ സ്ഥാനങ്ങളുമായി ഏകദേശം പൊരുത്തപ്പെടുന്ന ബോക്സുകൾ സ്ഥാപിക്കുകയും ചെയ്യുന്നു, അതേസമയം GPT‑5.1 കുറച്ച് ഭാഗങ്ങൾ മാത്രമേ ലേബൽ ചെയ്യാന്‍ കഴിഞ്ഞുള്ളൂ, അവയ്ക്ക് സ്ഥലത്തിന്റെ ക്രമീകരണത്തെ കുറിച്ച് വളരെ കുറച്ച് ഗ്രാഹ്യമേ ഉള്ളു എന്ന് ഇത് കാണിക്കുന്നു.

GPT‑5.1

GPT‑5.2

ടൂൾ കോളിംഗ്

GPT‑5.2 Thinking τ2-ബെഞ്ച് ടെലികോമിൽ 98.7% എന്ന പുതിയ SOTA നില കൈവരിക്കുന്നു, ദീർഘകാല, മൾട്ടി-ടേൺ ടാസ്കുകളിൽ ഉപകരണങ്ങൾ വിശ്വസനീയമായി ഉപയോഗിക്കുന്നതിലെ അതിന്റെ കഴിവ് തെളിയിക്കുന്നു.

ലേറ്റൻസി സെൻസിറ്റീവ് ഉപയോഗ കേസുകൾക്ക്, GPT‑5.2 യുക്തിസഹമായി ചിന്തിക്കുന്നതിലും Thinking വളരെ മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു. ശ്രമം='ഒട്ടുമില്ല', GPT‑5.1 നെയും GPT‑4.1 നെയും ഇത് ഗണ്യമായി മറികടക്കുന്നു.

In τ2-ബെഞ്ച്⁠⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ൽ, മോഡലുകൾ ഉപകരണങ്ങൾ ഉപയോഗിച്ച് ഒരു സിമുലേറ്റഡ് ഉപയോക്താവിനൊപ്പം മൾട്ടി-ടേൺ ഇടപെടലിൽ ഉപഭോക്തൃ പിന്തുണ ടാസ്കുകൾ പൂർത്തിയാക്കുന്നു. ടെലികോം ഡൊമെയ്‌നിനായി, പ്രകടനം മെച്ചപ്പെടുത്തുന്നതിനായി സിസ്റ്റം പ്രോംപ്റ്റിൽ ഒരു പൊതുവായും ചുരുക്കത്തില്‍ ഉള്ളതുമായ സഹായകരമായ നിർദ്ദേശം ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. കുറഞ്ഞ നിലവാരത്തിലുള്ള ഗ്രൗണ്ട് ട്രൂത്ത് ഗ്രേഡിംഗ് കാരണം എയർലൈൻ ഉപവിഭാഗം ഒഴിവാക്കിയിട്ടുണ്ട്.

പ്രൊഫഷണലുകൾക്കായി, ഇത് ശക്തമായ എൻഡ്-ടു-എൻഡ് പ്രവാഹങ്ങളിലേക്ക് വിവർത്തനം ചെയ്യുന്നു—ഉപഭോക്തൃ പിന്തുണ കേസുകൾ പരിഹരിക്കൽ, നിരവധി സിസ്റ്റങ്ങളിൽ നിന്ന് ഡാറ്റ എടുക്കൽ, വിശകലനങ്ങൾ നടത്തൽ, ഘട്ടങ്ങൾക്കിടയിലെ തകരാറുകൾ കുറച്ച് അന്തിമ ഫലങ്ങൾ സൃഷ്ടിക്കൽ പോലുള്ളവയില്‍.

ഉദാഹരണത്തിന്, മൾട്ടി-സ്റ്റെപ്പ് പരിഹാരം ആവശ്യമായ ഒരു സങ്കീർണ്ണമായ കസ്റ്റമർ സർവീസ് ചോദ്യത്തിന് ഉത്തരം നൽകുമ്പോൾ, മോഡൽ വഴി പല ഏജൻ്റുകളിലൂടെയും ഒരു പൂർണ്ണ പ്രവാഹം കൂടുതൽ ഫലപ്രദമായി ഏകോപിപ്പിക്കാൻ കഴിയും. താഴെ കാണുന്ന കേസിൽ, ഒരു യാത്രക്കാരൻ ഒരു വിമാനം വൈകിയതായി, ഒരു കണക്ഷൻ നഷ്ടപ്പെട്ടതായി, ന്യൂയോർക്കിൽ ഒരു രാത്രി താമസമുണ്ടായതായി, ഒരു മെഡിക്കൽ സീറ്റിംഗ് ആവശ്യകതയുണ്ടായതായി റിപ്പോർട്ട് ചെയ്യുന്നു. GPT‑5.2 ടാസ്കുകളുടെ മുഴുവൻ ശൃംഖല കൈകാര്യം ചെയ്യുന്നു—പുനഃബുക്കിംഗ്, പ്രത്യേക സഹായത്തിനുള്ള സീറ്റിംഗ്, നഷ്ടപരിഹാരം—GPT‑5.1‑നെക്കാൾ കൂടുതൽ സമ്പൂർണ്ണമായ ഫലം നൽകുന്നു.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1

GPT‑5.2

സയൻസ് & ഗണിതം

AI ശാസ്ത്രീയ ഗവേഷണത്തെ എല്ലാവർക്കും പ്രയോജനപ്പെടുന്ന രീതിയിൽ വേഗത്തിലാക്കും എന്നത് ഞങ്ങളുടെ പ്രതീക്ഷകളിൽ ഒന്നാണ്. ഇതിനായി, AI അവരുടെ പ്രവർത്തനം വേഗത്തിലാക്കാൻ എങ്ങനെ സഹായിക്കാമെന്ന് കാണാൻ ശാസ്ത്രജ്ഞരുമായി പ്രവർത്തിക്കുകയും അവരെ കേൾക്കുകയും ചെയ്തുവരികയാണ്, കഴിഞ്ഞ മാസം ഞങ്ങൾ ചില പ്രാരംഭ സഹകരണ പരീക്ഷണങ്ങൾ ഇവിടെ⁠ പങ്കുവെച്ചു.

ഞങ്ങൾ GPT‑5.2‑വില്‍ വിശ്വസിക്കുന്നു. Pro and GPT‑5.2 Thinking ശാസ്ത്രജ്ഞരെ സഹായിക്കുകയും വേഗത്തിലാക്കുകയും ചെയ്യുന്നതിനുള്ള ലോകത്തിലെ മികച്ച മോഡലുകളാണ്. GPQA ഡയമണ്ടിൽ, ഗ്രാജുവേറ്റ്-തല Google-പ്രൂഫ് Q&A ബെഞ്ച്മാർക്കിൽ, GPT‑5.2 Pro 93.2% നേട്ടം കൈവരിച്ചു, അതിനടുത്ത് GPT‑5.2 പിന്തുടരുന്നു 92.4% Thinking .

GPQA ഡയമണ്ടിൽ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), മോഡലുകൾ ഭൗതികശാസ്ത്രം, രസതന്ത്രം, ജീവശാസ്ത്രം എന്നിവയുമായി ബന്ധപ്പെട്ട മൾട്ടിപ്പിൾ ചോയ്സ് ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകുന്നു. യാതൊരു ഉപകരണങ്ങളും പ്രവർത്തന സജ്ജമാക്കപ്പെട്ടിരുന്നില്ല, ചിന്തശേഷി പരമാവധി ആയിരുന്നു.

FrontierMath (ടയർ 1–3) ൽ, വിദഗ്ധ-തല ഗണിതത്തിന്റെ ഒരു മൂല്യനിർണ്ണയം, GPT‑5.2 Thinking 40.3% പ്രശ്നങ്ങൾ പരിഹരിച്ച് അതിനെ ഒരു പുതിയ state of the art നിലവാരത്തിലേക്ക് എത്തിച്ചു.

ഫ്രോണ്ടിയർമാത്തിൽ ഫ്രോണ്ടിയർമാത്ത്⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), മോഡലുകൾ വിദഗ്ദ്ധ-നിലവാരത്തിലുള്ള ഗണിത പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നു. ഒരു Python ഉപകരണം പ്രവർത്തന സജ്ജമാക്കുകയും, റീസണിംഗ് ശ്രമം പരമാവധി ക്രമീകരിക്കുകയും ചെയ്തു.

ഗണിതശാസ്ത്രത്തിലും ശാസ്ത്രത്തിലും AI മോഡലുകൾ അർത്ഥവത്തായ രീതിയിൽ പുരോഗതിയെ ത്വരിതപ്പെടുത്തുന്നത് നാം വ്യക്തമായി കാണാൻ തുടങ്ങുന്നു. ഉദാഹരണത്തിന്, സമീപകാല പ്രവർത്തനത്തിൽ⁠ GPT‑5.2 ഉപയോഗിച്ച് പ്രോ, ഗവേഷകർ സ്റ്റാറ്റിസ്റ്റിക്കൽ ലേണിംഗ് സിദ്ധാന്തത്തിലെ ഒരു തുറന്ന ചോദ്യം പര്യവേക്ഷണം ചെയ്തു. ഇടുങ്ങിയതും വ്യക്തമായി നിർവചിക്കപ്പെട്ടതുമായ ഒരു സാഹചര്യത്തിൽ, മോഡല്‍ ഒരു തെളിവ് നിർദ്ദേശിച്ചു, അത് പിന്നീട് authors പരിശോധിക്കുകയും പുറത്തുനിന്നുള്ള വിദഗ്ധരുമായി അവലോകനം ചെയ്യുകയും ചെയ്തു, സൂക്ഷ്മാമായ മനുഷ്യ മേൽനോട്ടത്തിൽ മുന്‍നിര മോഡലുകൾക്ക് ഗണിതശാസ്ത്ര ഗവേഷണത്തെ എങ്ങനെ സഹായിക്കാനാകുമെന്ന് ഇത് വ്യക്തമാക്കുന്നു.

ARC-AGI 2

പൊതുവായ യുക്തിപരമായ കഴിവ് അളക്കുന്നതിനായി രൂപകൽപ്പന ചെയ്‌തിരിക്കുന്ന ഒരു മാനദണ്ഡമായ ARC-AGI-1 (പരിശോധിച്ചുറപ്പിച്ചത്) ൽ, 90% പരിധി മറികടക്കുന്ന ആദ്യ മോഡലാണ് GPT‑5.2, കഴിഞ്ഞ വർഷം o3‑പ്രിവ്യൂ പ്രകാരം 87% ൽ നിന്ന് മെച്ചപ്പെട്ടു, അതേസമയം ആ പ്രകടനം നേടുന്നതിനുള്ള ചെലവ് ഏകദേശം 390× കുറച്ചു.

ബുദ്ധിമുട്ട് വർദ്ധിപ്പിക്കുകയും ഫ്ലൂയിഡ് റീസണിംഗിനെ മികച്ച രീതിയിൽ വേർതിരിക്കുകയും ചെയ്യുന്ന ARC-AGI-2 (പരിശോധിച്ചുറപ്പിച്ചത്)-ൽ, GPT‑5.2 ചിന്താശൃംഖല മോഡലുകളില്‍ 'Thinking' 52.9% സ്കോർ നേടി ഒരു പുതിയ നിലവാരം കൈവരിച്ചു. GPT‑5.2 Pro 54.2% വരെ ഉയർന്ന പ്രകടനം കാഴ്ചവെക്കുന്നു, മോഡലിന്റെ പുതിയ, അബ്സ്ട്രാക്റ്റ് പ്രശ്നങ്ങൾ ചിന്തിക്കാനുള്ള മോഡലിന്റെ കഴിവ് കൂടുതൽ വിപുലീകരിക്കുന്നു.

ഈ വിലയിരുത്തലുകളിലുടനീളം ഉള്ള മെച്ചപ്പെടുത്തലുകൾ GPT‑5.2യുടെ പ്രകടനത്തെ പ്രതിഫലിപ്പിക്കുന്നു ശക്തമായ മൾട്ടി-സ്റ്റെപ്പ് ചിന്താശേഷി, കൂടുതൽ കൃത്യമായ ക്വാണ്ടിറ്റേറ്റീവ് കൃത്യത, സങ്കീർണ്ണ സാങ്കേതിക ടാസ്കുകളിൽ കൂടുതൽ വിശ്വസനീയമായ പ്രശ്ന പരിഹാരം.

GPT‑5.2 നെക്കുറിച്ച് ഞങ്ങളുടെ ആദ്യകാല പരീക്ഷകർ പറയുന്നത് ഇതാ:

GPT-5.2 ഞങ്ങൾക്ക് പൂർണ്ണമായ ഒരു ആർക്കിടെക്ചർ മാറ്റം തുറന്നു തന്നു. ദുർബലമായ, മൾട്ടി-ഏജന്റ് സിസ്റ്റത്തെ ഞങ്ങൾ 20+ ഉപകരണങ്ങളുള്ള ഒരൊറ്റ മെഗാ-ഏജന്റായി ചുരുക്കി. മികച്ച കാര്യം, അത് എളുപ്പത്തിൽ പ്രവർത്തിക്കുന്നു. മെഗാ-ഏജന്റിനെ വേഗത്തിലും, കൂടുതൽ ബുദ്ധിപരമായും, 100 മടങ്ങ് എളുപ്പത്തിലും പരിപാലിക്കാൻ കഴിയും. ഞങ്ങൾ വളരെ കുറവായ ലേറ്റൻസി, വളരെ ശക്തമായ ടൂൾ കോളിംഗ് എന്നിവ കാണുന്നു, കൂടാതെ 5.2 ഒരു ലളിതമായ, ഒരു വരി പ്രോംപ്റ്റ് ഉപയോഗിച്ച് നന്നായി പ്രവർത്തിക്കുന്നതിനാൽ വ്യാപകമായ സിസ്റ്റം പ്രോംപ്റ്റുകൾ ഇനി ആവശ്യമില്ല. ഇത് തികച്ചും മാജിക് ആണെന്ന് തോന്നുന്നു.

AJ Orbach, Triple Whaleയുടെ CEO

ChatGPT‑ൽ GPT‑5.2

ChatGPT‑ൽ, ഉപയോക്താക്കൾക്ക് GPT‑5.2 ദിവസേന ഉപയോഗിക്കാൻ കൂടുതൽ മെച്ചപ്പെട്ടതായി തോന്നണം—കൂടുതൽ ഘടനാപരവും, കൂടുതൽ വിശ്വസനീയവും, ആയിരിക്കുമ്പോള്‍ തന്നെ ആശയവിനിമയം ആസ്വാദ്യകരവുമാണ്.

GPT‑5.2 ഇൻസ്റ്റന്റ് മോഡല്‍ ദൈനംദിന പ്രവർത്തനങ്ങൾക്കും പഠനത്തിനും ഉള്ള വേഗതയേറിയതും കഴിവുള്ളതുമായ ഒരു ഉപകരണമാണ്, GPT‑5.1 ഇൻസ്റ്റന്റിൽ പരിചയപ്പെടുത്തിയ ഊഷ്മളമായ സംഭാഷണ ശൈലിയിൽ, വിവരാന്വേഷണ ചോദ്യങ്ങൾ, എങ്ങനെ ചെയ്യാം എന്നതിന്റെ മാർഗ്ഗനിർദ്ദേശങ്ങൾ, സാങ്കേതിക എഴുത്ത്, വിവർത്തനം എന്നിവയിൽ വ്യക്തമായ മെച്ചപ്പെടുത്തലുകൾ ഇത് കാണിക്കുന്നു. മുൻകാല പരീക്ഷകർക്ക്, പ്രധാന വിവരങ്ങൾ മുൻകൂട്ടി വെളിപ്പെടുത്തുന്ന കൂടുതൽ വ്യക്തമായ വിശദീകരണങ്ങൾ പ്രത്യേകിച്ചും ശ്രദ്ധിക്കാൻ കഴിഞ്ഞു.

GPT‑5.2 Thinkingആഴത്തിലുള്ള പ്രവർത്തനങ്ങൾക്കായി രൂപകൽപ്പന ചെയ്തിരിക്കുന്നു, ഉപയോക്താക്കളെ കൂടുതൽ സങ്കീർണ്ണമായ ടാസ്കുകൾ കൂടുതൽ മികവോടെ കൈകാര്യം ചെയ്യാൻ സഹായിക്കുന്നു—പ്രത്യേകിച്ച് കോഡിംഗ്, ദീർഘമായ ഡോക്യുമെൻ്റുകൾ സംഗ്രഹിക്കൽ, അപ്‌ലോഡ് ചെയ്ത ഫയലുകളെക്കുറിച്ചുള്ള ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകൽ, ഗണിതവും ലോജിക്കും ഘട്ടം ഘട്ടമായി നടത്തൽ, വ്യക്തമായ ഘടനയും കൂടുതൽ ഉപകാരപ്രദമായ വിശദാംശങ്ങളുമുള്ള പദ്ധതികൾ രൂപീകരിക്കുകയും തീരുമാനങ്ങൾ എടുക്കുകയും ചെയ്യുന്നതിൽ.

GPT‑5.2 Pro എന്നത് ഞങ്ങളുടെ ഏറ്റവും മിടുക്കുള്ളതും വിശ്വസനീയവുമായ ഓപ്ഷൻ ആണ്, ബുദ്ധിമുട്ടുള്ള ചോദ്യങ്ങൾക്ക് ഉയർന്ന നിലവാരമുള്ള ഉത്തരം ലഭിക്കാൻ കാത്തിരിക്കേണ്ടത്, ആദ്യകാല പരിശോധനയിൽ പ്രധാന പിശകുകൾ കുറവായും പ്രോഗ്രാമിംഗ് പോലുള്ള സങ്കീർണ്ണ ഡൊമെയ്‌നുകളിൽ ശക്തമായ പ്രകടനവും കാണിക്കുന്നു.

സുരക്ഷാ

GPT‑5.2, ഞങ്ങൾ GPT‑5‑നൊപ്പം അവതരിപ്പിച്ച സുരക്ഷിത പൂർത്തീകരണം⁠ എന്ന ഗവേഷണത്തെ അടിസ്ഥാനമാക്കി നിർമ്മിച്ചിരിക്കുന്നു, ഇത് മോഡലിനെ ഏറ്റവും സഹായകരമായ ഉത്തരം നൽകാൻ പഠിപ്പിക്കുന്നു, അതേസമയം സുരക്ഷാ പരിധികൾക്കുള്ളിൽ തന്നെ മോഡല്‍ തുടരുന്നു.

ഈ റിലീസിനൊപ്പം, ആത്മഹത്യ അല്ലെങ്കിൽ സ്വയംഹാനിയുടെ അടയാളങ്ങൾ, മാനസികാരോഗ്യ വിഷമത, അല്ലെങ്കിൽ മോഡലിനോടുള്ള മാനസിക ആശ്രയത്വം സൂചിപ്പിക്കുന്ന പ്രോംപ്റ്റുകൾക്ക് പ്രതികരിക്കുന്നതിൽ അർത്ഥവത്തായ മികവ് ഉൾപ്പെടുത്തുന്നതിലൂടെ, സംവേദനശീലമായ സംഭാഷണങ്ങളിൽ ഞങ്ങളുടെ മോഡലുകളുടെ പ്രതികരണങ്ങൾ ശക്തിപ്പെടുത്താൻ⁠ ഞങ്ങൾ ശ്രമം തുടർന്നു. ഈ ലക്ഷ്യം വച്ചുള്ള ഇടപെടലുകൾ GPT‑5.2 രണ്ടിലും അഭികാമ്യമല്ലാത്ത പ്രതികരണങ്ങൾ കുറച്ചു ഇൻസ്റ്റന്റ് GPT‑5.2 GPT‑5.1, GPT‑5 ഇൻസ്റ്റന്റ്, Thinking മോഡലുകളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ Thinking ആണിത്. കൂടുതൽ വിശദാംശങ്ങൾ സിസ്റ്റം കാർഡ്⁠-ൽ കണ്ടെത്താം.

18 വയസ്സിന് താഴെയുള്ള ഉപയോക്താക്കൾക്ക് സെൻസിറ്റീവ് ഉള്ളടക്കത്തിലേക്കുള്ള പ്രവേശനം പരിമിതപ്പെടുത്തുന്നതിനായി ഉള്ളടക്ക സംരക്ഷണങ്ങൾ സ്വയമേവ പ്രയോഗിക്കാനുള്ള ഞങ്ങളുടെ പ്രായ പ്രവചന മോഡൽ⁠ പ്രാരംഭ ഘട്ടത്തിലാണ്. ഇത് 18 വയസ്സിന് താഴെയുള്ള ഉപയോക്താക്കളോടുള്ള നമ്മുടെ നിലവിലുള്ള സമീപനത്തെയും രക്ഷിതാക്കളുടെ നിയന്ത്രണത്തെയും അടിസ്ഥാനമാക്കിയുള്ളതാണ്.

GPT‑5.2 തുടർച്ചയായ മെച്ചപ്പെടുത്തലുകളിലെ ഒരു ഘട്ടമാണ്, ഞങ്ങൾ ഇതുവരെ പൂര്‍ണതയില്‍ എത്തിയിട്ടില്ല. ഈ റിലീസ് ബുദ്ധിയിലും ഉൽപ്പാദനക്ഷമതയിലും അർത്ഥവത്തായ നേട്ടങ്ങൾ കൈവരിക്കുന്നുവെങ്കിലും, ആളുകൾക്ക് കൂടുതൽ ആഗ്രഹിക്കുന്ന മേഖലകൾ ഉണ്ടെന്ന് ഞങ്ങൾക്കറിയാം. ChatGPT‑ൽ, ഞങ്ങൾ അധിക നിരസനങ്ങൾ പോലുള്ള അറിയപ്പെടുന്ന പ്രശ്നങ്ങളിൽ പ്രവർത്തിക്കുകയാണ്, അതേസമയം മൊത്തത്തിൽ സുരക്ഷയും വിശ്വസനീയതയും ഉയരുന്നത് കൂടുന്നു. ഈ മാറ്റങ്ങൾ സങ്കീർണ്ണമാണ്, അവ ശരിയായി നടപ്പാക്കുന്നതിൽ ഞങ്ങൾ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു.

മാനസികാരോഗ്യ വിലയിരുത്തലുകൾ

	GPT‑5.2 ഇൻസ്റ്റന്റ്	GPT‑5.1 ഇൻസ്റ്റന്റ്	GPT‑5.2 Thinking	GPT‑5.1 Thinking
മാനസികാരോഗ്യം	0.995	0.883	0.915	0.684
വികാരപരമായ ആശ്രിതത്വം	0.938	0.945	0.955	0.785
സ്വയംപീഡനം	0.938	0.925	0.963	0.937

ലഭ്യതയും വിലനിർണ്ണയം

ChatGPT‑യിൽ, ഞങ്ങൾ ഇന്ന് മുതൽ GPT‑5.2 (Instant, Thinking, Pro) പുറത്തിറക്കാൻ തുടങ്ങും, ആദ്യം പണമടച്ച പദ്ധതികളില്‍ (Plus, Pro, Go, Business, Enterprise എന്നിവയിൽ) ഇത് ആരംഭിക്കും. ഞങ്ങൾ ChatGPT‑നെ എത്രയും സുഗമവും വിശ്വാസ്യതയുള്ളതുമായി നിലനിർത്താൻ GPT‑5.2 ക്രമേണയാണ് വിന്യസിക്കുന്നത്; ആദ്യം അത് കാണുന്നില്ലെങ്കിൽ, ദയവായി പിന്നീട് വീണ്ടും ശ്രമിക്കുക. ChatGPT‑ൽ, പണമടച്ച ഉപയോക്താക്കൾക്ക് മൂന്നു മാസത്തേക്ക് പൈതൃക മോഡലുകള്‍ക്ക് കീഴിൽ GPT‑5.1 ലഭ്യമായിരിക്കും, അതിനുശേഷം ഞങ്ങൾ GPT‑5.1 ന്റെ സേവനം അവസാനിപ്പിക്കും.

ChatGPT & API എന്നിവയിലുടനീളം മോഡലുകളുടെ നാമകരണം

ChatGPT	API
ChatGPT‑5.2 തൽക്ഷണ	GPT‑5.2‑ചാറ്റ്‑latest
ChatGPT‑5.2 Thinking	GPT‑5.2
ChatGPT‑5.2 Pro	GPT‑5.2 Pro

ഞങ്ങളുടെ API പ്ലാറ്റ്ഫോമിൽ, GPT‑5.2 Thinking ഇന്ന് മുതൽ റെസ്പോൺസസ് API-യിലും ചാറ്റ് കംപ്ലീഷൻസ് API-യിലും gpt-5.2 എന്ന പേരിൽ ലഭ്യമാണ്, കൂടാതെ GPT‑5.2 ഇൻസ്റ്റന്റ് gpt-5.2-chat-latest എന്ന നിലയിൽ. GPT‑5.2 Pro മറുപടി API-യിൽ gpt-5.2-pro എന്ന പേരിൽ ലഭ്യമാണ്. ഡെവലപ്പർമാർക്ക് ഇപ്പോൾ GPT‑5.2 ൽ റീസണിംഗ് പാരാമീറ്റർ സജ്ജീകരിക്കാം Pro, കൂടാതെ GPT‑5.2 Pro and GPT‑5.2 Thinking ഇപ്പോൾ , ഗുണനിലവാരം ഏറ്റവും പ്രധാനപ്പെട്ട ടാസ്കുകൾക്കായി, xhigh യുടെപുതിയ അഞ്ചാമത്തെ റീസണിംഗ് ശ്രമത്തെ പിന്തുണയ്ക്കുന്നു.

GPT‑5.2 ന് $1.75/1M ഇൻപുട്ട് ടോക്കൺ-കൾക്കും $14/1M ഔട്ട്പുട്ട് ടോക്കൺ-കൾക്കും സമാനമായ വിലയുണ്ട്, കാഷെയിലുള്ള ഇൻപുട്ടുകൾക്ക് 90% കിഴിവ് ലഭ്യമാണ്. പല ഏജന്റിക് മൂല്യനിർണയങ്ങളിൽ, GPT‑5.2‑ന്റെ ഓരോ token-നും കൂടുതൽ ചെലവ് ഉണ്ടായിരുന്നെങ്കിലും, GPT‑5.2‑ന്റെ മികച്ച token കാര്യക്ഷമത കാരണം ഒരു നിശ്ചിത നിലവാരത്തിലുള്ള ഗുണനിലവാരം നേടാനുള്ള ചെലവ് കുറവായിരുന്നു.

ChatGPT സബ്സ്ക്രിപ്ഷൻ വില മാറ്റമില്ലാതെ തുടരുമ്പോഴും, APIയിൽ GPT‑5.2‑ന് ഓരോ token-നും വില GPT‑5.1‑നെക്കാൾ കൂടുതലാണ്, കാരണം ഇത് കൂടുതൽ കഴിവുള്ള മോഡലാണ്. മറ്റ് മുൻനിര മോഡലുകളേക്കാൾ വില ഇപ്പോഴും കുറവായതിനാൽ, ആളുകൾക്ക് അവരുടെ ദൈനംദിന ജോലികളിലും പ്രധാന ആപ്ലിക്കേഷനുകളിലും ഇത് അധികമായി ഉപയോഗിക്കുന്നത് തുടരാം.

ഓരോ മില്ല്യൺ ടോക്കണുകൾക്കും വില

മോഡൽ	ഇൻപുട്ട്	കാഷെ ചെയ്ത ഇൻപുട്ട്	ഔട്ട്പുട്ട്
GPT‑5.2 / GPT‑5.2‑ചാറ്റ്‑latest	$1.75	$0.175	$14
gpt-5.2-pro	$21	-	$168
GPT‑5.1 / GPT‑5.1‑ചാറ്റ്‑latest	$1.25	$0.125	$10
gpt-5-pro	$15	-	$120

GPT‑5.1 നിർത്തലാക്കാന്‍ നിലവില്‍ ഞങ്ങൾക്ക് പദ്ധതികൾ ഇല്ല, GPT‑5, അല്ലെങ്കിൽ API-യിൽ GPT‑4.1, ഡെവലപ്പർമാർക്ക് മുൻകൂട്ടി അറിയിപ്പ് നൽകിക്കൊണ്ട് നിർത്തലാക്കൽ പദ്ധതികൾ ഏതെങ്കിലും ഉണ്ടെങ്കിൽ അറിയിക്കും. GPT‑5.2 Codex-ൽ നന്നായി പ്രവർത്തിക്കുമെങ്കിലും, Codex-നായി മെച്ചപ്പെടുത്തിയ GPT‑5.2 ന്റെ ഒരു പതിപ്പ് അടുത്ത ആഴ്ചകളിൽ പുറത്തിറക്കാമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു.

ഞങ്ങളുടെ പങ്കാളികൾ

GPT‑5.2 ഞങ്ങളുടെ ദീർഘകാല പങ്കാളികളായ NVIDIA, Microsoft എന്നിവരുമായി സഹകരിച്ച് നിർമ്മിച്ചിരിക്കുന്നു. Azure ഡാറ്റാ സെന്ററുകളും NVIDIA GPUകളും, H100, H200, GB200-NVL72 എന്നിവ ഉൾപ്പെടെ, OpenAI-യുടെ വിപുലമായ പരിശീലന അടിസ്ഥാന സൗകര്യത്തിന് പിന്തുണ നൽകുന്നു, മോഡൽ ഇന്റലിജൻസിൽ വലിയ നേട്ടങ്ങൾ കൈവരിക്കുന്നു. ഈ സഹകരണം ഞങ്ങളെ ആത്മവിശ്വാസത്തോടെ കമ്പ്യൂട്ടിംഗ് സ്കെയിലിംഗും പുതിയ മോഡലുകൾ വിപണിയിൽ വേഗത്തിൽ കൊണ്ടുവരാനും അനുവദിക്കുന്നു.

അനുബന്ധം

വിശദമായ ബെഞ്ച്മാർക്കുകൾ

താഴെ, ഞങ്ങൾ GPT‑5.2‑ന്റെ സമഗ്രമായ ബെഞ്ച്മാർക്ക് സ്കോറുകൾ റിപ്പോർട്ട് ചെയ്യുന്നു ജിപിടി-5.2 നുള്ള ഒരു ഉപസെറ്റിനൊപ്പം Thinking പ്രോ.

പ്രൊഫഷണൽ

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
GDPval (ties allowed, wins or ties)	70.9%	74.1%	38.8% (GPT-5)
GDPval (ties allowed, clear wins)	49.8%	60.0%	35.5% (GPT-5)
GDPval (no ties)	61.0%	67.6%	37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)	68.4%	71.7%	59.1%

കോഡിംഗ്

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
SWE-Bench Pro, Public	55.6%	-	50.8%
SWE-bench Verified	80.0%	-	76.3%
SWE-Lancer, IC Diamond*	74.6%	-	69.7%

വസ്തുത

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
ChatGPT answers without errors (w/ search)	93.9%	-	91.2%
ChatGPT answers without errors (no search)	88.0%	-	87.3%

ലോംഗ് കോൺടെക്സ്റ്റ്

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k	98.2%	-	65.3%
OpenAI MRCRv2, 8 needles, 8k–16k	89.3%	-	47.8%
OpenAI MRCRv2, 8 needles, 16k–32k	95.3%	-	44.0%
OpenAI MRCRv2, 8 needles, 32k–64k	92.0%	-	37.8%
OpenAI MRCRv2, 8 needles, 64k–128k	85.6%	-	36.0%
OpenAI MRCRv2, 8 needles, 128k–256k	77.0%	-	29.6%
BrowseComp Long Context 128k	92.0%	-	90.0%
BrowseComp Long Context 256k	89.8%	-	89.5%
GraphWalks bfs <128k	94.0%	-	76.8%
Graphwalks parents <128k	89.0%	-	71.5%

ദർശനം

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
CharXiv reasoning (no tools)	82.1%	-	67.0%
CharXiv reasoning (w/ Python)	88.7%	-	80.3%
MMMU Pro (no tools)	79.5%	-	-
MMMU Pro (w/ Python)	80.4%	-	79.0%
Video MMMU (no tools)	85.9%	-	82.9%
Screenspot Pro (w/ Python)	86.3%	-	64.2%

ഉപകരണ ഉപയോഗം

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
Tau2-bench Telecom	98.7%	-	95.6%
Tau2-bench Retail	82.0%	-	77.9%
BrowseComp	65.8%	77.9%	50.8%
Scale MCP-Atlas	60.6%	-	44.5%
Toolathlon	46.3%	-	36.1%

അക്കാദമിക്

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
GPQA Diamond (no tools)	92.4%	93.2%	88.1%
HLE (no tools)	34.5%	36.6%	25.7%
HLE (w/ search, Python)	45.5%	50.0%	42.7%
MMMLU	89.6%	-	89.5%
HMMT, Feb 2025 (no tools)	99.4%	100.0%	96.3%
AIME 2025 (no tools)	100.0%	100.0%	94.0%
FrontierMath Tier 1–3 (w/ Python)	40.3%	-	31.0%
FrontierMath Tier 4 (w/ Python)	14.6%	-	12.5%

അബ്സ്ട്രാക്റ്റ് റീസണിംഗ്

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
ARC-AGI-1 (Verified)	86.2%	90.5%	72.8%
ARC-AGI-2 (Verified)	52.9%	54.2% (high)	17.6%

^{ഞങ്ങളുടെ API-യിൽ ലഭ്യമായ പരമാവധി യുക്തിസഹമായ ശ്രമത്തോടെയാണ് മോഡലുകൾ പ്രവർത്തിപ്പിച്ചത് (GPT‑5.2‑നുള്ള xhigh) Thinking & Pro, GPT‑5.1 Thinking)-നു ഉയർന്നതും, പ്രൊഫഷണൽ മൂല്യനിർണയങ്ങൾ ഒഴികെ, GPT‑5.2 റീസണിംഗ് ശ്രമം ലഭ്യമായ പരമാവധി ആയി ChatGPT Pro-ൽ പ്രവർത്തിപ്പിച്ചു. ബെഞ്ച്മാർക്കുകൾ ഒരു ഗവേഷണ പരിസ്ഥിതിയിൽ നടത്തപ്പെട്ടവയാണ്, ചില സാഹചര്യങ്ങളിൽ ഇത് പ്രൊഡക്ഷൻ ChatGPT‑ൽ നിന്ന് അല്പം വ്യത്യസ്തമായ ഔട്ട്പുട്ട് നൽകാൻ സാധ്യതയുണ്ട്.}

^{* SWE-ലാൻസറിനായി, ഞങ്ങളുടെ അടിസ്ഥാന സൗകര്യത്തിൽ പ്രവർത്തിക്കാത്ത 40/237 പ്രശ്നങ്ങൾ ഞങ്ങൾ ഒഴിവാക്കുന്നു.}

2025

രചയിതാവ്

OpenAI

വായന തുടരുക

എല്ലാം കാണുക

GPT-5.6 ഉപയോഗിച്ച് വില-പ്രകടന പരിധി കൂടുതൽ മുന്നേറുന്നു

Product2026 ജൂലൈ 30

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

കമ്പനി2026 ജൂലൈ 29

ChatGPT-ൽ ഹെൽത്ത് അവതരിപ്പിക്കുന്നു

Product2026 ജൂലൈ 23