പ്രധാന ഉള്ളടക്കത്തിലേക്ക് നീങ്ങുക
OpenAI

2025 ഡിസംബർ 11

Productവിടുതൽ

GPT‑5.2 അവതരിപ്പിക്കുന്നു

പ്രൊഫഷണൽ ജോലികൾക്കും ദീർഘകാലം പ്രവർത്തിക്കുന്ന ഏജൻ്റുകൾക്കുമായി ഏറ്റവും പുതിയതായി മുന്നോട്ട് വെയ്ക്കപെട്ട മോഡൽ.

ലോഡിംഗ്…

ഞങ്ങൾ GPT‑5.2 അവതരിപ്പിക്കുന്നു, ഇതുവരെ ഉള്ളതിൽ ഏറ്റവും കഴിവുള്ള പ്രൊഫഷണൽ വിജ്ഞാന പ്രവർത്തനത്തിനായുള്ള ഏറ്റവും മികച്ച മോഡൽ സീരീസ്.

ഇതിനകം തന്നെ, ശരാശരി ChatGPT Enterprise ഉപയോക്താവ് AI അവർക്കു ദിവസവും 40-60 മിനിറ്റ് ലാഭിക്കുന്നതായി പറയുന്നു, കൂടാതെ കൂടുതൽ ഉപയോഗിക്കുന്നവർ ആഴ്ചയിൽ 10 മണിക്കൂറിൽ കൂടുതൽ ലാഭിക്കുന്നതായിപറയുന്നു. ഞങ്ങൾ GPT‑5.2 രൂപകൽപ്പന ചെയ്തത് ആളുകൾക്ക് കൂടുതൽ സാമ്പത്തിക മൂല്യം ലഭ്യമാക്കുന്നതിനാണ്; ഇത് സ്പ്രെഡ്ഷീറ്റുകൾ സൃഷ്ടിക്കുന്നതിലും, അവതരണങ്ങൾ നിർമ്മിക്കുന്നതിലും, കോഡ് എഴുതുന്നതിലും, ചിത്രങ്ങൾ തിരിച്ചറിയുന്നതിലും, ദീർഘമായ സന്ദർഭങ്ങൾ മനസ്സിലാക്കുന്നതിലും, ഉപകരണങ്ങൾ ഉപയോഗിക്കുന്നതിലും, സങ്കീർണ്ണവും മൾട്ടി-സ്റ്റെപ്പ് പദ്ധതികളെയും കൈകാര്യം ചെയ്യുന്നതിലും മികച്ചതാണ്.

GPT‑5.2 പല ബഞ്ച്മാർക്കുകളിലും, പ്രത്യേകിച്ച് GDPval-ൽ, പുതിയ state of the art ബഞ്ച് മാര്‍ക്ക് സൃഷ്ടിക്കുന്നു, 44 തൊഴിൽ മേഖലകളിലായി വ്യാപിക്കുന്ന നന്നായി നിർവചിച്ച വിജ്ഞാന ജോലികളുടെ ടാസ്കുകളിൽ ഉള്ള വ്യവസായ പ്രൊഫഷണലുകളെ മികവുറ്റവരാക്കുന്നു.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (വിജയങ്ങൾ അല്ലെങ്കിൽ സമനില)
അറിവ് പ്രവർത്തന ടാസ്കുകൾ

70.9%

38.8% (GPT‑5)

SWE-Bench Pro (public)
സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗ്

55.6%

50.8%

SWE-ബെഞ്ച് സ്ഥിരീകരിച്ചത്
സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗ്

80.0%

76.3%

GPQA Diamond (ഉപകരണങ്ങൾ ഇല്ല)
ശാസ്ത്ര ചോദ്യങ്ങൾ

92.4%

88.1%

CharXiv റീസണിംഗ് (Python ഉപയോഗിച്ച്)
ശാസ്ത്രീയ ചിത്ര ചോദ്യങ്ങൾ

88.7%

80.3%

HMMT (Feb 2025)
ഗണിതശാസ്ത്ര മത്സരം

99.4%

96.3%

ഫ്രോണ്ടിയർമാത്ത് (ടയർ 1–3)
ഉന്നത ഗണിതശാസ്ത്രം

40.3%

31.0%

ARC-AGI-1 (സ്ഥിരീകരിച്ചത്)
അബ്സ്ട്രാക്റ്റ് റീസണിംഗ്

86.2%

72.8%

ARC-AGI-2 (സ്ഥിരീകരിച്ചത്)
അഭിപ്രായാത്മക ചിന്ത

52.9%

17.6%

Notion(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), Box(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), Shopify(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), Harvey(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കൂടാതെ Zoom(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) എന്നിവ ശ്രദ്ധിച്ചാല്‍, GPT‑5.2 അത്യാധുനിക ദീർഘകാല റീസണിംഗും ടൂള്‍-കാളിംഗ് പ്രകടനവും കാഴ്ചവയ്ക്കുന്നു. Databricks(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), Hex(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കൂടാതെ Triple Whale(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) എന്നിവര്‍ GPT‑5.2‑നെ ഏജൻ്റിക് ഡാറ്റ സയൻസിലും, ഡോക്യുമെൻ്റ് വിശകലന ടാസ്കുകളിലും അതുല്യമാണെന്ന് കണ്ടെത്തി. Cognition(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), Warp(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), Charlie Labs(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), JetBrains(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കൂടാതെ Augment Code(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) എന്നിവ പറയുന്നത് GPT‑5.2 അത്യാധുനിക ഏജന്റിക് കോഡിംഗ് പ്രകടനം നൽകുന്നു എന്ന് മാത്രമല്ല , ഇന്ററാക്ടീവ് കോഡിംഗ്, കോഡ് റിവ്യൂസ്, ബഗ് കണ്ടെത്തൽ തുടങ്ങിയ മേഖലകളിൽ അളക്കാവുന്ന മെച്ചപ്പെടുത്തലുകൾ സഹിതം ആണ് ഇത്.

ChatGPT‑ൽ, GPT‑5.2 Instant, Thinking, Pro എന്നിവ ആദ്യം പണമടച്ച പദ്ധതികളിൽ ഇന്ന് മുതൽ വിതരണം ആരംഭിക്കുന്നു. അവ ഇപ്പോൾ എല്ലാ ഡെവലപ്പർമാർക്കും API-യിൽ ലഭ്യമാണ്.

മൊത്തത്തിൽ, GPT‑5.2 പൊതുവായ ബുദ്ധി, ദീർഘ-സന്ദർഭ ധാരണ, ഏജന്റ് ടൂൾ-കോളിംഗ്, ദർശനം എന്നിവയിൽ ഗണ്യമായ പുരോഗതി കൊണ്ടുവരുന്നു - സങ്കീർണ്ണമായ, യഥാർത്ഥ ലോകത്തിലെ ജോലികൾ ആദ്യം മുതൽ അവസാനം വരെ നിർവ്വഹിക്കുന്നതിൽ മുൻ മോഡലുകളെക്കാൾ മികച്ചതാണ്.

മോഡൽ പ്രകടനം

സാമ്പത്തികമായി മൂല്യവത്തായ പ്രവർത്തനങ്ങൾ

GPT‑5.2 Thinking യഥാർത്ഥ ലോകത്തും പ്രൊഫഷണൽ ഉപയോഗത്തിനും ഇതുവരെ ലഭ്യമായതില്‍ ഏറ്റവും മികച്ച മോഡലാണ്. GDPval എന്നത് 44 തൊഴിൽ മേഖലകളിലുടനീളം നന്നായി നിർവചിച്ച വിജ്ഞാനപ്രവർത്തന ടാസ്കുകൾ അളക്കുന്ന ഒരു മൂല്യനിർണ്ണയമാണ്, GPT‑5.2 Thinking ഒരു പുതിയ സ്റ്റേറ്റ് ഓഫ് ദി ആർട്ട് സ്കോർ സൃഷ്ടിക്കുന്നു, വിദഗ്ധരുടെ തലത്തിൽ അല്ലെങ്കിൽ അതിനുമുകളിൽ പ്രവർത്തിക്കുന്ന ഞങ്ങളുടെ ആദ്യ മോഡൽ ആണ് ഇത്. പ്രത്യേകിച്ച്, GPT‑5.2 വിദഗ്ദ്ധരായ മനുഷ്യ വിധികർത്താക്കളുടെ അഭിപ്രായത്തിൽ, "തിങ്കിംഗ്" GDPval വിജ്ഞാന ടാസ്കുകളുടെ 70.9% താരതമ്യങ്ങളിൽ മുൻനിര വ്യവസായ പ്രൊഫഷണലുകളെ തോൽപ്പിക്കുകയോ അല്ലെങ്കിൽ അവര്‍ക്ക് തുല്യമോ ആണ്. ഈ ടാസ്കുകളിൽ അവതരണങ്ങൾ, സ്പ്രെഡ്ഷീറ്റുകൾ, മറ്റ് കലാവസ്തുക്കൾ ഉണ്ടാക്കൽ എന്നിവ ഉൾപ്പെടുന്നു. GPT‑5.2 തിങ്കിംഗ് GDPval ടാസ്കുകൾ 11 മടങ്ങ് വേഗത്തിലും വിദഗ്ധ പ്രൊഫഷണലുകളുടെ ചെലവിന്റെ 1% ൽ താഴെ ചെലവിലും ഔട്ട്പുട്ടുകൾ ഉത്പാദിപ്പിച്ചു, ഇത് മനുഷ്യ മേൽനോട്ടത്തോടൊപ്പം ചേർത്താൽ, GPT‑5.2 പ്രൊഫഷണൽ ജോലിയിൽ സഹായകരമാകുമെന്നാണ് സൂചിപ്പിക്കുന്നത്. വേഗതയും ചെലവും സംബന്ധിച്ച കണക്കുകളും അതിന്റെ ചരിത്രപരമായ മെട്രിക്സുകളെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്; ChatGPT‑യിലെ വേഗത വ്യത്യാസപ്പെടാം.

GDPval-ൽ, മോഡലുകൾ യുഎസ് GDP-യിലേക്ക് സംഭാവന ചെയ്യുന്ന മുൻനിര 9 വ്യവസായങ്ങളിൽ നിന്നുള്ള 44 തൊഴിൽ മേഖലകളിലായി വ്യാപിക്കുന്ന, നന്നായി നിർവചിച്ച വിജ്ഞാന പ്രവർത്തനങ്ങൾ നടത്താൻ ശ്രമിക്കുന്നു. ടാസ്കുകൾ വിൽപ്പന അവതരണങ്ങൾ, അക്കൗണ്ടിംഗ് സ്പ്രെഡ്ഷീറ്റ്, അടിയന്തിര പരിചരണ ഷെഡ്യൂളുകൾ, നിർമ്മാണ ഡയഗ്രം, അല്ലെങ്കിൽ ചെറു വീഡിയോകൾ പോലുള്ള യഥാർത്ഥ പ്രവർത്തന ഉൽപ്പന്നങ്ങൾ ആവശ്യപ്പെടുന്നു. ChatGPT‑ൽ, GPT‑5.2 Thinking-ന് GPT‑5 Thinking-ല്‍ ഇല്ലാത്ത പുതിയ ടൂളുകള്‍ ഉണ്ട്.

ഒരു മികച്ച ഔട്ട്പുട്ട് പ്രത്യേകമായി അവലോകനം ചെയ്യുമ്പോൾ, ഒരു GDPval ജഡ്ജ് അഭിപ്രായപ്പെട്ടത്, "ഇത് ഔട്ട്പുട്ട് ഗുണനിലവാരത്തിൽ ഒരു ആവേശകരവും ശ്രദ്ധേയവുമായ ചുവടുവയ്പാണ്... [ഇത്] ജീവനക്കാരുള്ള ഒരു പ്രൊഫഷണൽ കമ്പനി ചെയ്തതുപോലെ തോന്നുന്നു, കൂടാതെ രണ്ട് ഡെലിവറിബിളുകൾക്കും അത്ഭുതകരമായി രൂപകൽപ്പന ചെയ്ത ലേഔട്ട്, ഉപദേശങ്ങൾ എന്നിവ ഉണ്ട്, എങ്കിലും ഇതിൽ ചില ചെറിയ പിശകുകൾ ഇനിയും ശരിയാക്കേണ്ടതുണ്ട്." എന്നാണ്

കൂടാതെ, ഫോർച്യൂൺ 500 കമ്പനിക്ക് ശരിയായ ഫോർമാറ്റിംഗും ഉദ്ധരണികളും ഉപയോഗിച്ച് മൂന്ന് സ്റ്റേറ്റ്മെന്റ് മോഡൽ ഒരുമിപ്പിക്കൽ, അല്ലെങ്കിൽ ടേക്ക്-പ്രൈവറ്റിനായി ഒരു ലിവറേജ് വാങ്ങൽ മോഡൽ നിർമ്മിക്കൽ പോലുള്ള ജൂനിയർ നിക്ഷേപ ബാങ്കിംഗ് അനലിസ്റ്റ് സ്പ്രെഡ്ഷീറ്റ് മോഡലിംഗ് ടാസ്കുകളുടെ ആന്തരിക ബെഞ്ച്മാർക്കിൽ, GPT‑5.2 Thinking-ന്റെ ശരാശരി സ്കോർ ഓരോ ടാസ്കിലും GPT‑5.1‑നേക്കാൾ 9.3% ഉയർന്നതുമാണ് 59.1% മുതൽ 68.4% വരെ ഉയര്‍ച്ച കാണുന്നുണ്ട്.

സൈഡ്-ബൈ-സൈഡ് താരതമ്യങ്ങൾ GPT‑5.2 സൃഷ്ടിച്ച സ്പ്രെഡ്ഷീറ്റുകളും സ്ലൈഡുകളും മെച്ചപ്പെട്ട സങ്കീർണ്ണതയും ഫോർമാറ്റിംഗും കാണിക്കുന്നു Thinking

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

പ്രോംപ്റ്റ്: തലവരി, നിയമന പദ്ധതി, ഒഴിവാക്കൽ, ബജറ്റ് സ്വാധീനം എന്നിവ ഉൾക്കൊള്ളുന്ന ഒരു തൊഴിലാളി പദ്ധതിയുടെ മോഡൽ സൃഷ്ടിക്കുക. എഞ്ചിനീയറിംഗ്, മാർക്കറ്റിംഗ്, നിയമ, വിൽപ്പന വകുപ്പുകൾ ഉൾപ്പെടെ.

ChatGPT‑യിലുള്ള പുതിയ സ്പ്രെഡ്ഷീറ്റും അവതരണ ശേഷികളും ഉപയോഗിക്കാൻ നിങ്ങൾ ഒരു പണമടച്ച പദ്ധതി യിൽ ചേര്‍ന്നിരിക്കണം, GPT‑5.2 Thinking അല്ലെങ്കിൽ Pro തിരഞ്ഞെടുത്തിരിക്കുകയും വേണം. സങ്കീർണ്ണമായ തലമുറകൾ ഉത്പാദിപ്പിക്കാൻ നിരവധി മിനിറ്റുകൾ എടുത്തേക്കാം.

കോഡിംഗ്

GPT‑5.2 Thinking SWE-ബെഞ്ച് Pro-ൽ 55.6% എന്ന പുതിയ അത്യാധുനിക നിലവാരം സ്ഥാപിക്കുന്നു, യഥാർത്ഥ ലോകത്തിലെ സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗിന്റെ കർശനമായ ഒരു മൂല്യനിർണ്ണയമാണ് ഇത്. SWE-ബെഞ്ച് സ്ഥിരീകരിച്ചതിനെ അപേക്ഷിച്ച്, Python മാത്രം പരീക്ഷിക്കുന്ന SWE-bench Pro നാല് ഭാഷകളെ പരീക്ഷിക്കുകയും കൂടുതൽ മലിനീകരണ പ്രതിരോധം, കൂടുതൽ വെല്ലുവിളികളും വൈവിധ്യവും വ്യവസായപരമായ പ്രാധാന്യവും ലക്ഷ്യമിടുകയും ചെയ്യുന്നു.

In SWE-ബെഞ്ച് Pro(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), ഒരു മോഡലിന് ഒരു കോഡ് റിപോസിറ്ററി നല്‍കുമ്പോള്‍ യഥാർത്ഥ സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗ് ടാസ്ക് പരിഹരിക്കുന്നതിന് ഒരു പാച്ച് സൃഷ്ടിക്കേണ്ടതുണ്ട്.

SWE-ബെഞ്ചിൽ സ്ഥിരീകരിച്ച (ചിത്രീകരിച്ചിട്ടില്ല), GPT‑5.2 Thinking 80% എന്ന പുതിയ ഉയർന്ന സ്കോർ നേടുന്നു.

ദൈനംദിന പ്രൊഫഷണൽ ഉപയോഗത്തിനായുള്ള ഒരു മോഡലില്‍ പരിഗണിക്കുമ്പോള്‍ , ഇതിന് ഉൽപ്പാദന കോഡ് കൂടുതൽ വിശ്വസനീയമായി ഡീബഗ് ചെയ്യാനും, ഫീച്ചർ അഭ്യർത്ഥനകൾ നടപ്പിലാക്കാനും, വലിയ കോഡ്ബേസുകൾ റീഫാക്ടർ ചെയ്യാനും, കുറവ് മാനുവൽ ഇടപെടലോടെ എന്റു-ടു-എൻഡ് പരിഹാരങ്ങൾ അയയ്ക്കാനും കഴിയുന്നു.

GPT‑5.2 Thinking , GPT‑5.1 Thinking -നെ അപേക്ഷിച്ച് ഫ്രണ്ട്-എൻഡ് സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗിൽ മെച്ചമാണ്. ആദ്യകാല പരീക്ഷകർ ഇത് ഫ്രണ്ട്-എൻഡ് വികസനത്തിലും സങ്കീർണ്ണമായ അല്ലെങ്കിൽ അസാധാരണമായ UI ജോലികളിലും, പ്രത്യേകിച്ച് 3D ഘടകങ്ങൾ ഉൾപ്പെടുന്നവയിൽ, വളരെ ശക്തമാണെന്ന് കണ്ടെത്തി - ഇത് സ്റ്റാക്കിലെ എഞ്ചിനീയർമാർക്ക് ഒരു ശക്തമായ ദൈനംദിന പങ്കാളിയാണെന്ന് സാരം. ഒരു പ്രോംപ്റ്റിൽ നിന്ന് എന്തെല്ലാം സൃഷ്ടിക്കാനാകുമെന്ന് കാണിക്കുന്ന ചില ഉദാഹരണങ്ങൾ കാണുക:

പ്രോംപ്റ്റ്: താഴെ പറയുന്ന ആവശ്യകതകളോടെ ഒരു HTML ഫയലിൽ ഒരു സിംഗിൾ പേജ് ആപ്പ് സൃഷ്ടിക്കുക:
- പേര്: Ocean Wave Simulation
- ലക്ഷ്യം: യാഥാർത്ഥ്യപരമായ ആനിമേറ്റഡ് തിരമാലകൾ പ്രദർശിപ്പിക്കുക.
- സവിശേഷതകൾ: കാറ്റിന്റെ വേഗത, തിരമാലയുടെ ഉയരം, ലൈറ്റിംഗ് മാറ്റുക.
- UI ശാന്തവും യാഥാർത്ഥ്യപരവുമായിരിക്കണം.

GPT‑5.2‑നെക്കുറിച്ചുള്ള ആദ്യകാല പരീക്ഷകർ അവരുടെ ഫീഡ്‌ബാക്ക് പങ്കിട്ടു കോഡിംഗ് ശേഷികൾ:

GPT-5.2 GPT മോഡലുകൾ ഏജന്റിക് കോഡിംഗിൽ GPT-5 മുതൽ ഏറ്റവും വലിയ മുന്നേറ്റം പ്രതിനിധീകരിക്കുന്നു, കൂടാതെ അതിന്റെ വില പരിധിയിൽ ഒരു SOTA കോഡിംഗ് മോഡലാണ്. പതിപ്പിന്റെ വർദ്ധന ബുദ്ധിയുടെ വളർച്ചയെ കുറച്ച് മാത്രം പ്രതിഫലിപ്പിക്കുന്നു. Windsurf-ലും നിരവധി പ്രധാന Devin വർക്ക്ലോഡുകളിലും ഇത് ഡിഫോൾട്ട് ആക്കുന്നതിൽ ഞങ്ങൾ ആവേശഭരിതരാണ്.
Jeff Wang, Windsurfയുടെ CEO

വസ്തുത

GPT‑5.2 Thinking GPT‑5.1 Thinking അപേക്ഷിച്ച് കുറച്ചു മാത്രം ഹലൂസിനെറ്റ് ചെയ്യുന്നുള്ളൂ. ChatGPT‑ന്റെ തിരിച്ചറിയാതാക്കിയ ചോദ്യങ്ങളിൽ നിന്നുള്ള മറുപടികളിൽ പിശകുകൾ 38%rel കുറവായിരുന്നു. പ്രൊഫഷണലുകൾക്ക്, ഗവേഷണം, എഴുത്ത്, വിശകലനം, തീരുമാന പിന്തുണ എന്നിവയ്ക്കായി മോഡൽ ഉപയോഗിക്കുമ്പോൾ കുറവ് പിഴവുകൾ മാത്രമേ ഉണ്ടാകു എന്നാണ് ഇതിന്റെ അർത്ഥം—ദൈനംദിന വിജ്ഞാന ജോലികൾക്കായി മോഡൽ കൂടുതൽ വിശ്വസനീയമാണ്.

റീസണിംഗ് ശ്രമം ലഭ്യമായ പരമാവധി ആയി ക്രമീകരിച്ച ശേഷം, ഒരു തിരയൽ ഉപകരണം പ്രവർത്തന സജ്ജമാക്കി. മറ്റു മോഡലുകൾ കണ്ടെത്തിയ പിശകുകൾ, അവ സ്വയം തന്നെ വരുത്താൻ സാധ്യതയുള്ള പിശകുകളാണ്. ക്ലെയിം-തലത്തിലുള്ള പിശക് നിരക്കുകൾ മറുപടി-തലത്തിലുള്ള പിശക് നിരക്കുകളേക്കാൾ വളരെ കുറവാണ്, കാരണം മിക്ക മറുപടികളിലും നിരവധി ക്ലെയിമുകൾ അടങ്ങിയിരിക്കുന്നു.

എല്ലാ മോഡലുകളെയും പോലെ, GPT‑5.2 Thinking അപൂർണ്ണമാണ്. പ്രധാനമായ എന്ത് കാര്യത്തിലും, അതിന്റെ ഉത്തരങ്ങൾ രണ്ടുതവണ പരിശോധിക്കുക.

ലോംഗ് കോൺടെക്സ്റ്റ്

GPT‑5.2 Thinking ദീർഘമായ സന്ദർഭ ചിന്തയിൽ ഒരു പുതിയ നിലവാരം സൃഷ്ടിക്കുന്നു, OpenAI MRCRv2-ൽ മുൻനിര പ്രകടനം കൈവരിക്കുന്നു—ദീർഘമായ ഡോക്യുമെൻ്റുകളിൽ വ്യാപിച്ചിരിക്കുന്ന വിവരങ്ങൾ സംയോജിപ്പിക്കുന്നതിനുള്ള മോഡലിന്റെ കഴിവിനെ പരീക്ഷിക്കുന്ന ഒരു വിലയിരുത്തൽ ആണിത്. നൂറുകണക്കിന് ആയിരക്കണക്കിന് token-കളിലുടനീളം ബന്ധപ്പെട്ട വിവരങ്ങൾ ആവശ്യമായ ഡീപ്പ് ഡോക്യുമെൻ്റ് വിശകലനം പോലുള്ള യഥാർത്ഥ ലോക ടാസ്കുകളിൽ, GPT‑5.2 Thinking GPT‑5.1 Thinking- നെ അപേക്ഷിച്ച് വളരെ കൃത്യമാണ്. പ്രത്യേകിച്ച് നാം കണ്ടിട്ടുള്ളതില്‍ വെച്ച് , 4-needle MRCR വകഭേദത്തിൽ (256k token വരെ) ഏകദേശം 100% കൃത്യത നേടുന്ന ആദ്യ മോഡൽ ആണിത്.

പ്രായോഗികമായി, ഇത് പ്രൊഫഷണലുകൾക്ക് GPT‑5.2 ഉപയോഗിച്ച് റിപ്പോർട്ടുകൾ, കരാറുകൾ, ഗവേഷണ പ്രബന്ധങ്ങൾ, ട്രാൻസ്ക്രിപ്റ്റുകൾ, മൾട്ടി-ഫയൽ പദ്ധതികൾ പോലുള്ള ദീർഘമായ ഡോക്യുമെൻ്റുകളുമായി പ്രവർത്തന സജ്ജമാക്കാൻ, നൂറുകണക്കിന് token-കളിൽ സമഗ്രതയും കൃത്യതയും നിലനിർത്താൻ സഹായിക്കുന്നു. ഇത് GPT‑5.2 നെ ആഴത്തിലുള്ള വിശകലനം, സംശ്ലേഷണം, സങ്കീർണ്ണമായ മൾട്ടി-സോഴ്സ് പ്രവാഹങ്ങൾ എന്നിവയ്ക്ക് പ്രത്യേകിച്ചും അനുയോജ്യമാക്കുന്നു.

In OpenAI-MRCR⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) v2 (മൾട്ടി-റൗണ്ട് കോ-റഫറൻസ് പരിഹാരത്തിൽ), ഒരേപോലുള്ള നിരവധി “സൂചി” ഉപയോക്തൃ അഭ്യർത്ഥനകൾ സമാനമായ അഭ്യർത്ഥനകളുടെയും മറുപടികളുടെയും നീണ്ട “ഹേസ്റ്റാക്കുകളിൽ” ചേർക്കുന്നു, കൂടാതെ മോഡലിനോട് n-ആമത് സൂചിയിലേക്കുള്ള മറുപടി പുനരാവിഷ്കരിക്കാൻ ആവശ്യപ്പെടുന്നു. മൂല്യനിർണ്ണയത്തിന്റെ രണ്ടാം പതിപ്പ് തെറ്റായ ഗ്രൗണ്ട് ട്രൂത്ത് മൂല്യങ്ങളുള്ള ~5% ടാസ്കുകൾ പരിഹരിക്കുന്നു. ശരാശരി പൊരുത്ത അനുപാതം എന്നത് മോഡലിന്റെ മറുപടിയും ശരിയായ ഉത്തരത്തിനും ഇടയിലുള്ള ശരാശരി സ്ട്രിംഗ് പൊരുത്ത അനുപാതം അളക്കുന്നു. 256k പരമാവധി ഇൻപുട്ട് ടോക്കൺ-കളിൽ പോയിന്റുകൾ 128k–256k ഇൻപുട്ട് ടോക്കൺ-കളുടെ ശരാശരികളെ പ്രതിനിധീകരിക്കുന്നു, തുടങ്ങിയവ. ഇവിടെ, 256k 256 * 1,024 = 262,114 ടോക്കൺസ് പ്രതിനിധീകരിക്കുന്നു. റീസണിംഗ് ശ്രമം പരമാവധി ലഭ്യമായ രീതിയിലായിരുന്നു.

പരമാവധി കൊണ്ടെക്സ് വിൻഡോയ്ക്ക് അപ്പുറം ചിന്തിക്കുന്നതിൽ നിന്ന് പ്രയോജനം ലഭിക്കുന്ന ജോലികൾക്ക്, GPT‑5.2 Thinking മോഡലിന്റെ ഫലപ്രദമായ കൊണ്ടെക്സ് വിൻഡോ വിപുലീകരിക്കുന്നതില്‍, നമ്മുടെ പുതിയ Responses /compact എൻഡ്പോയിന്റ്‌മായി പൊരുത്തപ്പെടുന്നു. ഇത് GPT‑5.2‑നെ കൊണ്ടെക്സ് ദൈർഘ്യം കാരണം പരിമിതമായ, ഉപകരണങ്ങൾ കൂടുതലുള്ള, ദീർഘകാലം പ്രവർത്തിക്കുന്ന വർക്ക്‌ഫ്ലോകൾ കൈകാര്യം ചെയ്യുന്നതിന് അനുവദിക്കുന്നു. ഞങ്ങളുടെ API ഡോക്യുമെന്റേഷനിൽ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കൂടുതൽ വായിക്കുക.

ദർശനം

GPT‑5.2 Thinking ഞങ്ങളുടെ ഇതുവരെ ഏറ്റവും ശക്തമായ വിഷന്‍ മോഡൽ ആണ്, ചാർട്ട് വിശകലനത്തിലും സോഫ്റ്റ്വെയർ ഇന്റർഫേസ് മനസ്സിലാക്കലിലും പിശകിന്റെ നിരക്ക് ഏകദേശം പകുതിയായി കുറയ്ക്കുന്നു.

ദിനംപ്രതിയുള്ള പ്രൊഫഷണൽ ഉപയോഗത്തിനായി, മോഡൽ ഡാഷ്‌ബോർഡുകൾ, ഉൽപ്പന്ന സ്ക്രീൻഷോട്ടുകൾ, സാങ്കേതിക ഡയഗ്രാമുകൾ, ദൃശ്യ റിപ്പോർട്ടുകൾ എന്നിവ കൂടുതൽ കൃത്യമായി വ്യാഖ്യാനിക്കാൻ കഴിയും—ദൃശ്യ വിവരങ്ങൾ പ്രധാനമായ ഫിനാൻസ്, ഓപ്പറേഷൻസ്, എഞ്ചിനീയറിംഗ്, ഡിസൈൻ, കസ്റ്റമർ പിന്തുണ എന്നിവയിലുള്ള പ്രവൃത്തി പ്രവാഹങ്ങൾക്ക് പിന്തുണ നൽകുകയും ചെയ്യുന്നു.

ഇൻ CharXiv Reasoning(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), മോഡലുകൾ ശാസ്ത്രീയ പ്രബന്ധങ്ങളിൽ നിന്നുള്ള ദൃശ്യ ചാർട്ടുകളെക്കുറിച്ചുള്ള ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകുന്നു. ഒരു പൈത്തൺ ഉപകരണം പ്രവർത്തന സജ്ജമാക്കുകയും റീസണിംഗ് ശ്രമം പരമാവധി ക്രമീകരിക്കുകയും ചെയ്തു.

In ScreenSpot-Pro(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ൽ, മോഡലുകൾ വിവിധ പ്രൊഫഷണൽ ക്രമീകരണങ്ങളിൽ നിന്നുള്ള ഗ്രാഫിക്കൽ ഉപയോക്തൃ ഇന്റർഫേസുകളുടെ ഉയർന്ന റെസല്യൂഷൻ സ്ക്രീൻഷോട്ടുകൾക്കുറിച്ച് ചിന്തിക്കൂ. ഒരു പൈത്തൺ ഉപകരണം പ്രവർത്തന സജ്ജമാക്കി, ചിന്തിക്കുന്ന ശ്രമം പരമാവധി ആയി പ്രവർത്തന സജ്ജമാക്കി. പൈത്തൺ ഉപകരണം ഇല്ലാതെ, സ്കോറുകൾ വളരെ താഴ്ന്നതാണ്. ഇത്തരത്തിലുള്ള വിഷന്ടാ‍സ്കുകളിൽ പൈത്തൺ ഉപകരണം പ്രവർത്തന സജ്ജമാക്കാൻ ഞങ്ങൾ ശുപാർശ ചെയ്യുന്നു.

മുൻ മോഡലുകളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ, GPT‑5.2 Thinking -ന് ഒരു ചിത്രത്തിൽ ഘടകങ്ങൾ എങ്ങനെ സ്ഥിതിചെയ്യുന്നുവെന്ന് കൂടുതൽ ശക്തമായ ഗ്രാഹ്യമുണ്ട്, ഇത് പ്രശ്നപരിഹാരത്തിൽ ആപേക്ഷിക ലേഔട്ട് നിർണായകമായ പങ്ക് വഹിക്കുന്ന ടാസ്കുകളിൽ സഹായിക്കുന്നു. താഴെ കാണുന്ന ഉദാഹരണത്തിൽ, മോഡലിനോട് ഒരു ഇൻപുട്ട് ചെയ്ത ചിത്രത്തിലെ (ഈ സാഹചര്യത്തിൽ, ഒരു മദർബോർഡ്) ഘടകങ്ങളെ തിരിച്ചറിയാനും ഏകദേശ ബൗണ്ടിംഗ് ബോക്സുകള്‍ ഉള്‍പ്പെടുത്തിയ ലേബലുകൾ മടക്കിനൽകാനും ആവശ്യപ്പെടുന്നു. താഴ്ന്ന നിലവാരത്തിലുള്ള ചിത്രത്തിലും, GPT‑5.2 പ്രധാന പ്രദേശങ്ങളെ തിരിച്ചറിയുകയും ഓരോ ഘടകത്തിന്റെ യഥാർത്ഥ സ്ഥാനങ്ങളുമായി ഏകദേശം പൊരുത്തപ്പെടുന്ന ബോക്സുകൾ സ്ഥാപിക്കുകയും ചെയ്യുന്നു, അതേസമയം GPT‑5.1 കുറച്ച് ഭാഗങ്ങൾ മാത്രമേ ലേബൽ ചെയ്യാന്‍ കഴിഞ്ഞുള്ളൂ, അവയ്ക്ക് സ്ഥലത്തിന്റെ ക്രമീകരണത്തെ കുറിച്ച് വളരെ കുറച്ച് ഗ്രാഹ്യമേ ഉള്ളു എന്ന് ഇത് കാണിക്കുന്നു.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

ടൂൾ കോളിംഗ്

GPT‑5.2 Thinking τ2-ബെഞ്ച് ടെലികോമിൽ 98.7% എന്ന പുതിയ SOTA നില കൈവരിക്കുന്നു, ദീർഘകാല, മൾട്ടി-ടേൺ ടാസ്കുകളിൽ ഉപകരണങ്ങൾ വിശ്വസനീയമായി ഉപയോഗിക്കുന്നതിലെ അതിന്റെ കഴിവ് തെളിയിക്കുന്നു.

ലേറ്റൻസി സെൻസിറ്റീവ് ഉപയോഗ കേസുകൾക്ക്, GPT‑5.2 യുക്തിസഹമായി ചിന്തിക്കുന്നതിലും Thinking വളരെ മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു. ശ്രമം='ഒട്ടുമില്ല', GPT‑5.1 നെയും GPT‑4.1 നെയും ഇത് ഗണ്യമായി മറികടക്കുന്നു.

In τ2-ബെഞ്ച്⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ൽ, മോഡലുകൾ ഉപകരണങ്ങൾ ഉപയോഗിച്ച് ഒരു സിമുലേറ്റഡ് ഉപയോക്താവിനൊപ്പം മൾട്ടി-ടേൺ ഇടപെടലിൽ ഉപഭോക്തൃ പിന്തുണ ടാസ്കുകൾ പൂർത്തിയാക്കുന്നു. ടെലികോം ഡൊമെയ്‌നിനായി, പ്രകടനം മെച്ചപ്പെടുത്തുന്നതിനായി സിസ്റ്റം പ്രോംപ്റ്റിൽ ഒരു പൊതുവായും ചുരുക്കത്തില്‍ ഉള്ളതുമായ സഹായകരമായ നിർദ്ദേശം ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. കുറഞ്ഞ നിലവാരത്തിലുള്ള ഗ്രൗണ്ട് ട്രൂത്ത് ഗ്രേഡിംഗ് കാരണം എയർലൈൻ ഉപവിഭാഗം ഒഴിവാക്കിയിട്ടുണ്ട്.

പ്രൊഫഷണലുകൾക്കായി, ഇത് ശക്തമായ എൻഡ്-ടു-എൻഡ് പ്രവാഹങ്ങളിലേക്ക് വിവർത്തനം ചെയ്യുന്നു—ഉപഭോക്തൃ പിന്തുണ കേസുകൾ പരിഹരിക്കൽ, നിരവധി സിസ്റ്റങ്ങളിൽ നിന്ന് ഡാറ്റ എടുക്കൽ, വിശകലനങ്ങൾ നടത്തൽ, ഘട്ടങ്ങൾക്കിടയിലെ തകരാറുകൾ കുറച്ച് അന്തിമ ഫലങ്ങൾ സൃഷ്ടിക്കൽ പോലുള്ളവയില്‍.

ഉദാഹരണത്തിന്, മൾട്ടി-സ്റ്റെപ്പ് പരിഹാരം ആവശ്യമായ ഒരു സങ്കീർണ്ണമായ കസ്റ്റമർ സർവീസ് ചോദ്യത്തിന് ഉത്തരം നൽകുമ്പോൾ, മോഡൽ വഴി പല ഏജൻ്റുകളിലൂടെയും ഒരു പൂർണ്ണ പ്രവാഹം കൂടുതൽ ഫലപ്രദമായി ഏകോപിപ്പിക്കാൻ കഴിയും. താഴെ കാണുന്ന കേസിൽ, ഒരു യാത്രക്കാരൻ ഒരു വിമാനം വൈകിയതായി, ഒരു കണക്ഷൻ നഷ്ടപ്പെട്ടതായി, ന്യൂയോർക്കിൽ ഒരു രാത്രി താമസമുണ്ടായതായി, ഒരു മെഡിക്കൽ സീറ്റിംഗ് ആവശ്യകതയുണ്ടായതായി റിപ്പോർട്ട് ചെയ്യുന്നു. GPT‑5.2 ടാസ്കുകളുടെ മുഴുവൻ ശൃംഖല കൈകാര്യം ചെയ്യുന്നു—പുനഃബുക്കിംഗ്, പ്രത്യേക സഹായത്തിനുള്ള സീറ്റിംഗ്, നഷ്ടപരിഹാരം—GPT‑5.1‑നെക്കാൾ കൂടുതൽ സമ്പൂർണ്ണമായ ഫലം നൽകുന്നു.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

സയൻസ് & ഗണിതം

AI ശാസ്ത്രീയ ഗവേഷണത്തെ എല്ലാവർക്കും പ്രയോജനപ്പെടുന്ന രീതിയിൽ വേഗത്തിലാക്കും എന്നത് ഞങ്ങളുടെ പ്രതീക്ഷകളിൽ ഒന്നാണ്. ഇതിനായി, AI അവരുടെ പ്രവർത്തനം വേഗത്തിലാക്കാൻ എങ്ങനെ സഹായിക്കാമെന്ന് കാണാൻ ശാസ്ത്രജ്ഞരുമായി പ്രവർത്തിക്കുകയും അവരെ കേൾക്കുകയും ചെയ്തുവരികയാണ്, കഴിഞ്ഞ മാസം ഞങ്ങൾ ചില പ്രാരംഭ സഹകരണ പരീക്ഷണങ്ങൾ ഇവിടെ പങ്കുവെച്ചു.

ഞങ്ങൾ GPT‑5.2‑വില്‍ വിശ്വസിക്കുന്നു. Pro and GPT‑5.2 Thinking ശാസ്ത്രജ്ഞരെ സഹായിക്കുകയും വേഗത്തിലാക്കുകയും ചെയ്യുന്നതിനുള്ള ലോകത്തിലെ മികച്ച മോഡലുകളാണ്. GPQA ഡയമണ്ടിൽ, ഗ്രാജുവേറ്റ്-തല Google-പ്രൂഫ് Q&A ബെഞ്ച്മാർക്കിൽ, GPT‑5.2 Pro 93.2% നേട്ടം കൈവരിച്ചു, അതിനടുത്ത് GPT‑5.2 പിന്തുടരുന്നു 92.4% Thinking .

GPQA ഡയമണ്ടിൽ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), മോഡലുകൾ ഭൗതികശാസ്ത്രം, രസതന്ത്രം, ജീവശാസ്ത്രം എന്നിവയുമായി ബന്ധപ്പെട്ട മൾട്ടിപ്പിൾ ചോയ്സ് ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകുന്നു. യാതൊരു ഉപകരണങ്ങളും പ്രവർത്തന സജ്ജമാക്കപ്പെട്ടിരുന്നില്ല, ചിന്തശേഷി പരമാവധി ആയിരുന്നു.

FrontierMath (ടയർ 1–3) ൽ, വിദഗ്ധ-തല ഗണിതത്തിന്റെ ഒരു മൂല്യനിർണ്ണയം, GPT‑5.2 Thinking 40.3% പ്രശ്നങ്ങൾ പരിഹരിച്ച് അതിനെ ഒരു പുതിയ state of the art നിലവാരത്തിലേക്ക് എത്തിച്ചു.

ഫ്രോണ്ടിയർമാത്തിൽ ഫ്രോണ്ടിയർമാത്ത്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), മോഡലുകൾ വിദഗ്ദ്ധ-നിലവാരത്തിലുള്ള ഗണിത പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നു. ഒരു Python ഉപകരണം പ്രവർത്തന സജ്ജമാക്കുകയും, റീസണിംഗ് ശ്രമം പരമാവധി ക്രമീകരിക്കുകയും ചെയ്തു.

ഗണിതശാസ്ത്രത്തിലും ശാസ്ത്രത്തിലും AI മോഡലുകൾ അർത്ഥവത്തായ രീതിയിൽ പുരോഗതിയെ ത്വരിതപ്പെടുത്തുന്നത് നാം വ്യക്തമായി കാണാൻ തുടങ്ങുന്നു. ഉദാഹരണത്തിന്, സമീപകാല പ്രവർത്തനത്തിൽ GPT‑5.2 ഉപയോഗിച്ച് പ്രോ, ഗവേഷകർ സ്റ്റാറ്റിസ്റ്റിക്കൽ ലേണിംഗ് സിദ്ധാന്തത്തിലെ ഒരു തുറന്ന ചോദ്യം പര്യവേക്ഷണം ചെയ്തു. ഇടുങ്ങിയതും വ്യക്തമായി നിർവചിക്കപ്പെട്ടതുമായ ഒരു സാഹചര്യത്തിൽ, മോഡല്‍ ഒരു തെളിവ് നിർദ്ദേശിച്ചു, അത് പിന്നീട് authors പരിശോധിക്കുകയും പുറത്തുനിന്നുള്ള വിദഗ്ധരുമായി അവലോകനം ചെയ്യുകയും ചെയ്തു, സൂക്ഷ്മാമായ മനുഷ്യ മേൽനോട്ടത്തിൽ മുന്‍നിര മോഡലുകൾക്ക് ഗണിതശാസ്ത്ര ഗവേഷണത്തെ എങ്ങനെ സഹായിക്കാനാകുമെന്ന് ഇത് വ്യക്തമാക്കുന്നു.

ARC-AGI 2

പൊതുവായ യുക്തിപരമായ കഴിവ് അളക്കുന്നതിനായി രൂപകൽപ്പന ചെയ്‌തിരിക്കുന്ന ഒരു മാനദണ്ഡമായ ARC-AGI-1 (പരിശോധിച്ചുറപ്പിച്ചത്) ൽ, 90% പരിധി മറികടക്കുന്ന ആദ്യ മോഡലാണ് GPT‑5.2, കഴിഞ്ഞ വർഷം o3‑പ്രിവ്യൂ പ്രകാരം 87% ൽ നിന്ന് മെച്ചപ്പെട്ടു, അതേസമയം ആ പ്രകടനം നേടുന്നതിനുള്ള ചെലവ് ഏകദേശം 390× കുറച്ചു.

ബുദ്ധിമുട്ട് വർദ്ധിപ്പിക്കുകയും ഫ്ലൂയിഡ് റീസണിംഗിനെ മികച്ച രീതിയിൽ വേർതിരിക്കുകയും ചെയ്യുന്ന ARC-AGI-2 (പരിശോധിച്ചുറപ്പിച്ചത്)-ൽ, GPT‑5.2 ചിന്താശൃംഖല മോഡലുകളില്‍ 'Thinking' 52.9% സ്കോർ നേടി ഒരു പുതിയ നിലവാരം കൈവരിച്ചു. GPT‑5.2 Pro 54.2% വരെ ഉയർന്ന പ്രകടനം കാഴ്ചവെക്കുന്നു, മോഡലിന്റെ പുതിയ, അബ്സ്ട്രാക്റ്റ് പ്രശ്നങ്ങൾ ചിന്തിക്കാനുള്ള മോഡലിന്റെ കഴിവ് കൂടുതൽ വിപുലീകരിക്കുന്നു.

ഈ വിലയിരുത്തലുകളിലുടനീളം ഉള്ള മെച്ചപ്പെടുത്തലുകൾ GPT‑5.2യുടെ പ്രകടനത്തെ പ്രതിഫലിപ്പിക്കുന്നു ശക്തമായ മൾട്ടി-സ്റ്റെപ്പ് ചിന്താശേഷി, കൂടുതൽ കൃത്യമായ ക്വാണ്ടിറ്റേറ്റീവ് കൃത്യത, സങ്കീർണ്ണ സാങ്കേതിക ടാസ്കുകളിൽ കൂടുതൽ വിശ്വസനീയമായ പ്രശ്ന പരിഹാരം.

GPT‑5.2 നെക്കുറിച്ച് ഞങ്ങളുടെ ആദ്യകാല പരീക്ഷകർ പറയുന്നത് ഇതാ:

GPT-5.2 ഞങ്ങൾക്ക് പൂർണ്ണമായ ഒരു ആർക്കിടെക്ചർ മാറ്റം തുറന്നു തന്നു. ദുർബലമായ, മൾട്ടി-ഏജന്റ് സിസ്റ്റത്തെ ഞങ്ങൾ 20+ ഉപകരണങ്ങളുള്ള ഒരൊറ്റ മെഗാ-ഏജന്റായി ചുരുക്കി. മികച്ച കാര്യം, അത് എളുപ്പത്തിൽ പ്രവർത്തിക്കുന്നു. മെഗാ-ഏജന്റിനെ വേഗത്തിലും, കൂടുതൽ ബുദ്ധിപരമായും, 100 മടങ്ങ് എളുപ്പത്തിലും പരിപാലിക്കാൻ കഴിയും. ഞങ്ങൾ വളരെ കുറവായ ലേറ്റൻസി, വളരെ ശക്തമായ ടൂൾ കോളിംഗ് എന്നിവ കാണുന്നു, കൂടാതെ 5.2 ഒരു ലളിതമായ, ഒരു വരി പ്രോംപ്റ്റ് ഉപയോഗിച്ച് നന്നായി പ്രവർത്തിക്കുന്നതിനാൽ വ്യാപകമായ സിസ്റ്റം പ്രോംപ്റ്റുകൾ ഇനി ആവശ്യമില്ല. ഇത് തികച്ചും മാജിക് ആണെന്ന് തോന്നുന്നു.
AJ Orbach, Triple Whaleയുടെ CEO

ChatGPT‑ൽ GPT‑5.2

ChatGPT‑ൽ, ഉപയോക്താക്കൾക്ക് GPT‑5.2 ദിവസേന ഉപയോഗിക്കാൻ കൂടുതൽ മെച്ചപ്പെട്ടതായി തോന്നണം—കൂടുതൽ ഘടനാപരവും, കൂടുതൽ വിശ്വസനീയവും, ആയിരിക്കുമ്പോള്‍ തന്നെ ആശയവിനിമയം ആസ്വാദ്യകരവുമാണ്.

GPT‑5.2 ഇൻസ്റ്റന്റ് മോഡല്‍ ദൈനംദിന പ്രവർത്തനങ്ങൾക്കും പഠനത്തിനും ഉള്ള വേഗതയേറിയതും കഴിവുള്ളതുമായ ഒരു ഉപകരണമാണ്, GPT‑5.1 ഇൻസ്റ്റന്റിൽ പരിചയപ്പെടുത്തിയ ഊഷ്മളമായ സംഭാഷണ ശൈലിയിൽ, വിവരാന്വേഷണ ചോദ്യങ്ങൾ, എങ്ങനെ ചെയ്യാം എന്നതിന്റെ മാർഗ്ഗനിർദ്ദേശങ്ങൾ, സാങ്കേതിക എഴുത്ത്, വിവർത്തനം എന്നിവയിൽ വ്യക്തമായ മെച്ചപ്പെടുത്തലുകൾ ഇത് കാണിക്കുന്നു. മുൻകാല പരീക്ഷകർക്ക്, പ്രധാന വിവരങ്ങൾ മുൻകൂട്ടി വെളിപ്പെടുത്തുന്ന കൂടുതൽ വ്യക്തമായ വിശദീകരണങ്ങൾ പ്രത്യേകിച്ചും ശ്രദ്ധിക്കാൻ കഴിഞ്ഞു.

GPT‑5.2 Thinkingആഴത്തിലുള്ള പ്രവർത്തനങ്ങൾക്കായി രൂപകൽപ്പന ചെയ്തിരിക്കുന്നു, ഉപയോക്താക്കളെ കൂടുതൽ സങ്കീർണ്ണമായ ടാസ്കുകൾ കൂടുതൽ മികവോടെ കൈകാര്യം ചെയ്യാൻ സഹായിക്കുന്നു—പ്രത്യേകിച്ച് കോഡിംഗ്, ദീർഘമായ ഡോക്യുമെൻ്റുകൾ സംഗ്രഹിക്കൽ, അപ്‌ലോഡ് ചെയ്ത ഫയലുകളെക്കുറിച്ചുള്ള ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകൽ, ഗണിതവും ലോജിക്കും ഘട്ടം ഘട്ടമായി നടത്തൽ, വ്യക്തമായ ഘടനയും കൂടുതൽ ഉപകാരപ്രദമായ വിശദാംശങ്ങളുമുള്ള പദ്ധതികൾ രൂപീകരിക്കുകയും തീരുമാനങ്ങൾ എടുക്കുകയും ചെയ്യുന്നതിൽ.

GPT‑5.2 Pro എന്നത് ഞങ്ങളുടെ ഏറ്റവും മിടുക്കുള്ളതും വിശ്വസനീയവുമായ ഓപ്ഷൻ ആണ്, ബുദ്ധിമുട്ടുള്ള ചോദ്യങ്ങൾക്ക് ഉയർന്ന നിലവാരമുള്ള ഉത്തരം ലഭിക്കാൻ കാത്തിരിക്കേണ്ടത്, ആദ്യകാല പരിശോധനയിൽ പ്രധാന പിശകുകൾ കുറവായും പ്രോഗ്രാമിംഗ് പോലുള്ള സങ്കീർണ്ണ ഡൊമെയ്‌നുകളിൽ ശക്തമായ പ്രകടനവും കാണിക്കുന്നു.

സുരക്ഷാ

GPT‑5.2, ഞങ്ങൾ GPT‑5‑നൊപ്പം അവതരിപ്പിച്ച സുരക്ഷിത പൂർത്തീകരണം എന്ന ഗവേഷണത്തെ അടിസ്ഥാനമാക്കി നിർമ്മിച്ചിരിക്കുന്നു, ഇത് മോഡലിനെ ഏറ്റവും സഹായകരമായ ഉത്തരം നൽകാൻ പഠിപ്പിക്കുന്നു, അതേസമയം സുരക്ഷാ പരിധികൾക്കുള്ളിൽ തന്നെ മോഡല്‍ തുടരുന്നു.

ഈ റിലീസിനൊപ്പം, ആത്മഹത്യ അല്ലെങ്കിൽ സ്വയംഹാനിയുടെ അടയാളങ്ങൾ, മാനസികാരോഗ്യ വിഷമത, അല്ലെങ്കിൽ മോഡലിനോടുള്ള മാനസിക ആശ്രയത്വം സൂചിപ്പിക്കുന്ന പ്രോംപ്റ്റുകൾക്ക് പ്രതികരിക്കുന്നതിൽ അർത്ഥവത്തായ മികവ് ഉൾപ്പെടുത്തുന്നതിലൂടെ, സംവേദനശീലമായ സംഭാഷണങ്ങളിൽ ഞങ്ങളുടെ മോഡലുകളുടെ പ്രതികരണങ്ങൾ ശക്തിപ്പെടുത്താൻ ഞങ്ങൾ ശ്രമം തുടർന്നു. ഈ ലക്ഷ്യം വച്ചുള്ള ഇടപെടലുകൾ GPT‑5.2 രണ്ടിലും അഭികാമ്യമല്ലാത്ത പ്രതികരണങ്ങൾ കുറച്ചു ഇൻസ്റ്റന്റ് GPT‑5.2 GPT‑5.1, GPT‑5 ഇൻസ്റ്റന്റ്, Thinking മോഡലുകളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ Thinking ആണിത്. കൂടുതൽ വിശദാംശങ്ങൾ സിസ്റ്റം കാർഡ്-ൽ കണ്ടെത്താം.

18 വയസ്സിന് താഴെയുള്ള ഉപയോക്താക്കൾക്ക് സെൻസിറ്റീവ് ഉള്ളടക്കത്തിലേക്കുള്ള പ്രവേശനം പരിമിതപ്പെടുത്തുന്നതിനായി ഉള്ളടക്ക സംരക്ഷണങ്ങൾ സ്വയമേവ പ്രയോഗിക്കാനുള്ള ഞങ്ങളുടെ പ്രായ പ്രവചന മോഡൽ പ്രാരംഭ ഘട്ടത്തിലാണ്. ഇത് 18 വയസ്സിന് താഴെയുള്ള ഉപയോക്താക്കളോടുള്ള നമ്മുടെ നിലവിലുള്ള സമീപനത്തെയും രക്ഷിതാക്കളുടെ നിയന്ത്രണത്തെയും അടിസ്ഥാനമാക്കിയുള്ളതാണ്.

GPT‑5.2 തുടർച്ചയായ മെച്ചപ്പെടുത്തലുകളിലെ ഒരു ഘട്ടമാണ്, ഞങ്ങൾ ഇതുവരെ പൂര്‍ണതയില്‍ എത്തിയിട്ടില്ല. ഈ റിലീസ് ബുദ്ധിയിലും ഉൽപ്പാദനക്ഷമതയിലും അർത്ഥവത്തായ നേട്ടങ്ങൾ കൈവരിക്കുന്നുവെങ്കിലും, ആളുകൾക്ക് കൂടുതൽ ആഗ്രഹിക്കുന്ന മേഖലകൾ ഉണ്ടെന്ന് ഞങ്ങൾക്കറിയാം. ChatGPT‑ൽ, ഞങ്ങൾ അധിക നിരസനങ്ങൾ പോലുള്ള അറിയപ്പെടുന്ന പ്രശ്നങ്ങളിൽ പ്രവർത്തിക്കുകയാണ്, അതേസമയം മൊത്തത്തിൽ സുരക്ഷയും വിശ്വസനീയതയും ഉയരുന്നത് കൂടുന്നു. ഈ മാറ്റങ്ങൾ സങ്കീർണ്ണമാണ്, അവ ശരിയായി നടപ്പാക്കുന്നതിൽ ഞങ്ങൾ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു.

മാനസികാരോഗ്യ വിലയിരുത്തലുകൾ


GPT‑5.2 ഇൻസ്റ്റന്റ്

GPT‑5.1 ഇൻസ്റ്റന്റ്

GPT‑5.2 Thinking

GPT‑5.1 Thinking

മാനസികാരോഗ്യം

0.995

0.883

0.915

0.684

വികാരപരമായ ആശ്രിതത്വം

0.938

0.945

0.955

0.785

സ്വയംപീഡനം

0.938

0.925

0.963

0.937

ലഭ്യതയും വിലനിർണ്ണയം

ChatGPT‑യിൽ, ഞങ്ങൾ ഇന്ന് മുതൽ GPT‑5.2 (Instant, Thinking, Pro) പുറത്തിറക്കാൻ തുടങ്ങും, ആദ്യം പണമടച്ച പദ്ധതികളില്‍ (Plus, Pro, Go, Business, Enterprise എന്നിവയിൽ) ഇത് ആരംഭിക്കും. ഞങ്ങൾ ChatGPT‑നെ എത്രയും സുഗമവും വിശ്വാസ്യതയുള്ളതുമായി നിലനിർത്താൻ GPT‑5.2 ക്രമേണയാണ് വിന്യസിക്കുന്നത്; ആദ്യം അത് കാണുന്നില്ലെങ്കിൽ, ദയവായി പിന്നീട് വീണ്ടും ശ്രമിക്കുക. ChatGPT‑ൽ, പണമടച്ച ഉപയോക്താക്കൾക്ക് മൂന്നു മാസത്തേക്ക് പൈതൃക മോഡലുകള്‍ക്ക് കീഴിൽ GPT‑5.1 ലഭ്യമായിരിക്കും, അതിനുശേഷം ഞങ്ങൾ GPT‑5.1 ന്റെ സേവനം അവസാനിപ്പിക്കും.

ChatGPT & API എന്നിവയിലുടനീളം മോഡലുകളുടെ നാമകരണം

ChatGPT

API

ChatGPT‑5.2 തൽക്ഷണ

GPT‑5.2‑ചാറ്റ്‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

ഞങ്ങളുടെ API പ്ലാറ്റ്ഫോമിൽ, GPT‑5.2 Thinking ഇന്ന് മുതൽ റെസ്പോൺസസ് API-യിലും ചാറ്റ് കംപ്ലീഷൻസ് API-യിലും gpt-5.2 എന്ന പേരിൽ ലഭ്യമാണ്, കൂടാതെ GPT‑5.2 ഇൻസ്റ്റന്റ് gpt-5.2-chat-latest എന്ന നിലയിൽ. GPT‑5.2 Pro മറുപടി API-യിൽ gpt-5.2-pro എന്ന പേരിൽ ലഭ്യമാണ്. ഡെവലപ്പർമാർക്ക് ഇപ്പോൾ GPT‑5.2 ൽ റീസണിംഗ് പാരാമീറ്റർ സജ്ജീകരിക്കാം Pro, കൂടാതെ GPT‑5.2 Pro and GPT‑5.2 Thinking ഇപ്പോൾ , ഗുണനിലവാരം ഏറ്റവും പ്രധാനപ്പെട്ട ടാസ്കുകൾക്കായി, xhigh യുടെപുതിയ അഞ്ചാമത്തെ റീസണിംഗ് ശ്രമത്തെ പിന്തുണയ്ക്കുന്നു.

GPT‑5.2 ന് $1.75/1M ഇൻപുട്ട് ടോക്കൺ-കൾക്കും $14/1M ഔട്ട്പുട്ട് ടോക്കൺ-കൾക്കും സമാനമായ വിലയുണ്ട്, കാഷെയിലുള്ള ഇൻപുട്ടുകൾക്ക് 90% കിഴിവ് ലഭ്യമാണ്. പല ഏജന്റിക് മൂല്യനിർണയങ്ങളിൽ, GPT‑5.2‑ന്റെ ഓരോ token-നും കൂടുതൽ ചെലവ് ഉണ്ടായിരുന്നെങ്കിലും, GPT‑5.2‑ന്റെ മികച്ച token കാര്യക്ഷമത കാരണം ഒരു നിശ്ചിത നിലവാരത്തിലുള്ള ഗുണനിലവാരം നേടാനുള്ള ചെലവ് കുറവായിരുന്നു.

ChatGPT സബ്സ്ക്രിപ്ഷൻ വില മാറ്റമില്ലാതെ തുടരുമ്പോഴും, APIയിൽ GPT‑5.2‑ന് ഓരോ token-നും വില GPT‑5.1‑നെക്കാൾ കൂടുതലാണ്, കാരണം ഇത് കൂടുതൽ കഴിവുള്ള മോഡലാണ്. മറ്റ് മുൻനിര മോഡലുകളേക്കാൾ വില ഇപ്പോഴും കുറവായതിനാൽ, ആളുകൾക്ക് അവരുടെ ദൈനംദിന ജോലികളിലും പ്രധാന ആപ്ലിക്കേഷനുകളിലും ഇത് അധികമായി ഉപയോഗിക്കുന്നത് തുടരാം.

ഓരോ മില്ല്യൺ ടോക്കണുകൾക്കും വില

മോഡൽ

ഇൻപുട്ട്

കാഷെ ചെയ്ത ഇൻപുട്ട്

ഔട്ട്പുട്ട്

GPT‑5.2 / GPT‑5.2‑ചാറ്റ്‑latest

$1.75

$0.175

$14

gpt-5.2-pro

$21

-

$168

GPT‑5.1 / GPT‑5.1‑ചാറ്റ്‑latest

$1.25

$0.125

$10

gpt-5-pro

$15

-

$120

GPT‑5.1 നിർത്തലാക്കാന്‍ നിലവില്‍ ഞങ്ങൾക്ക് പദ്ധതികൾ ഇല്ല, GPT‑5, അല്ലെങ്കിൽ API-യിൽ GPT‑4.1, ഡെവലപ്പർമാർക്ക് മുൻകൂട്ടി അറിയിപ്പ് നൽകിക്കൊണ്ട് നിർത്തലാക്കൽ പദ്ധതികൾ ഏതെങ്കിലും ഉണ്ടെങ്കിൽ അറിയിക്കും. GPT‑5.2 Codex-ൽ നന്നായി പ്രവർത്തിക്കുമെങ്കിലും, Codex-നായി മെച്ചപ്പെടുത്തിയ GPT‑5.2 ന്റെ ഒരു പതിപ്പ് അടുത്ത ആഴ്ചകളിൽ പുറത്തിറക്കാമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു.

ഞങ്ങളുടെ പങ്കാളികൾ

GPT‑5.2 ഞങ്ങളുടെ ദീർഘകാല പങ്കാളികളായ NVIDIA, Microsoft എന്നിവരുമായി സഹകരിച്ച് നിർമ്മിച്ചിരിക്കുന്നു. Azure ഡാറ്റാ സെന്ററുകളും NVIDIA GPUകളും, H100, H200, GB200-NVL72 എന്നിവ ഉൾപ്പെടെ, OpenAI-യുടെ വിപുലമായ പരിശീലന അടിസ്ഥാന സൗകര്യത്തിന് പിന്തുണ നൽകുന്നു, മോഡൽ ഇന്റലിജൻസിൽ വലിയ നേട്ടങ്ങൾ കൈവരിക്കുന്നു. ഈ സഹകരണം ഞങ്ങളെ ആത്മവിശ്വാസത്തോടെ കമ്പ്യൂട്ടിംഗ് സ്കെയിലിംഗും പുതിയ മോഡലുകൾ വിപണിയിൽ വേഗത്തിൽ കൊണ്ടുവരാനും അനുവദിക്കുന്നു.

അനുബന്ധം

വിശദമായ ബെഞ്ച്മാർക്കുകൾ

താഴെ, ഞങ്ങൾ GPT‑5.2‑ന്റെ സമഗ്രമായ ബെഞ്ച്മാർക്ക് സ്കോറുകൾ റിപ്പോർട്ട് ചെയ്യുന്നു ജിപിടി-5.2 നുള്ള ഒരു ഉപസെറ്റിനൊപ്പം Thinking പ്രോ.

പ്രൊഫഷണൽ
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
കോഡിംഗ്
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
വസ്തുത
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
ലോംഗ് കോൺടെക്സ്റ്റ്
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
ദർശനം
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
ഉപകരണ ഉപയോഗം
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
അക്കാദമിക്
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
അബ്സ്ട്രാക്റ്റ് റീസണിംഗ്
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

ഞങ്ങളുടെ API-യിൽ ലഭ്യമായ പരമാവധി യുക്തിസഹമായ ശ്രമത്തോടെയാണ് മോഡലുകൾ പ്രവർത്തിപ്പിച്ചത് (GPT‑5.2‑നുള്ള xhigh) Thinking & Pro, GPT‑5.1 Thinking)-നു ഉയർന്നതും, പ്രൊഫഷണൽ മൂല്യനിർണയങ്ങൾ ഒഴികെ, GPT‑5.2 റീസണിംഗ് ശ്രമം ലഭ്യമായ പരമാവധി ആയി ChatGPT Pro-ൽ പ്രവർത്തിപ്പിച്ചു. ബെഞ്ച്മാർക്കുകൾ ഒരു ഗവേഷണ പരിസ്ഥിതിയിൽ നടത്തപ്പെട്ടവയാണ്, ചില സാഹചര്യങ്ങളിൽ ഇത് പ്രൊഡക്ഷൻ ChatGPT‑ൽ നിന്ന് അല്പം വ്യത്യസ്തമായ ഔട്ട്പുട്ട് നൽകാൻ സാധ്യതയുണ്ട്.

* SWE-ലാൻസറിനായി, ഞങ്ങളുടെ അടിസ്ഥാന സൗകര്യത്തിൽ പ്രവർത്തിക്കാത്ത 40/237 പ്രശ്നങ്ങൾ ഞങ്ങൾ ഒഴിവാക്കുന്നു.

രചയിതാവ്

OpenAI