ഞങ്ങൾ GPT‑5.2 അവതരിപ്പിക്കുന്നു, ഇതുവരെ ഉള്ളതിൽ ഏറ്റവും കഴിവുള്ള പ്രൊഫഷണൽ വിജ്ഞാന പ്രവർത്തനത്തിനായുള്ള ഏറ്റവും മികച്ച മോഡൽ സീരീസ്.
ഇതിനകം തന്നെ, ശരാശരി ChatGPT Enterprise ഉപയോക്താവ് AI അവർക്കു ദിവസവും 40-60 മിനിറ്റ് ലാഭിക്കുന്നതായി പറയുന്നു, കൂടാതെ കൂടുതൽ ഉപയോഗിക്കുന്നവർ ആഴ്ചയിൽ 10 മണിക്കൂറിൽ കൂടുതൽ ലാഭിക്കുന്നതായിപറയുന്നു. ഞങ്ങൾ GPT‑5.2 രൂപകൽപ്പന ചെയ്തത് ആളുകൾക്ക് കൂടുതൽ സാമ്പത്തിക മൂല്യം ലഭ്യമാക്കുന്നതിനാണ്; ഇത് സ്പ്രെഡ്ഷീറ്റുകൾ സൃഷ്ടിക്കുന്നതിലും, അവതരണങ്ങൾ നിർമ്മിക്കുന്നതിലും, കോഡ് എഴുതുന്നതിലും, ചിത്രങ്ങൾ തിരിച്ചറിയുന്നതിലും, ദീർഘമായ സന്ദർഭങ്ങൾ മനസ്സിലാക്കുന്നതിലും, ഉപകരണങ്ങൾ ഉപയോഗിക്കുന്നതിലും, സങ്കീർണ്ണവും മൾട്ടി-സ്റ്റെപ്പ് പദ്ധതികളെയും കൈകാര്യം ചെയ്യുന്നതിലും മികച്ചതാണ്.
GPT‑5.2 പല ബഞ്ച്മാർക്കുകളിലും, പ്രത്യേകിച്ച് GDPval-ൽ, പുതിയ state of the art ബഞ്ച് മാര്ക്ക് സൃഷ്ടിക്കുന്നു, 44 തൊഴിൽ മേഖലകളിലായി വ്യാപിക്കുന്ന നന്നായി നിർവചിച്ച വിജ്ഞാന ജോലികളുടെ ടാസ്കുകളിൽ ഉള്ള വ്യവസായ പ്രൊഫഷണലുകളെ മികവുറ്റവരാക്കുന്നു.
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (വിജയങ്ങൾ അല്ലെങ്കിൽ സമനില) | 70.9% | 38.8% (GPT‑5) |
SWE-Bench Pro (public) | 55.6% | 50.8% |
SWE-ബെഞ്ച് സ്ഥിരീകരിച്ചത് | 80.0% | 76.3% |
GPQA Diamond (ഉപകരണങ്ങൾ ഇല്ല) | 92.4% | 88.1% |
CharXiv റീസണിംഗ് (Python ഉപയോഗിച്ച്) | 88.7% | 80.3% |
HMMT (Feb 2025) | 99.4% | 96.3% |
ഫ്രോണ്ടിയർമാത്ത് (ടയർ 1–3) | 40.3% | 31.0% |
ARC-AGI-1 (സ്ഥിരീകരിച്ചത്) | 86.2% | 72.8% |
ARC-AGI-2 (സ്ഥിരീകരിച്ചത്) | 52.9% | 17.6% |
Notion(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), Box(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), Shopify(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), Harvey(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കൂടാതെ Zoom(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) എന്നിവ ശ്രദ്ധിച്ചാല്, GPT‑5.2 അത്യാധുനിക ദീർഘകാല റീസണിംഗും ടൂള്-കാളിംഗ് പ്രകടനവും കാഴ്ചവയ്ക്കുന്നു. Databricks(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), Hex(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കൂടാതെ Triple Whale(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) എന്നിവര് GPT‑5.2‑നെ ഏജൻ്റിക് ഡാറ്റ സയൻസിലും, ഡോക്യുമെൻ്റ് വിശകലന ടാസ്കുകളിലും അതുല്യമാണെന്ന് കണ്ടെത്തി. Cognition(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), Warp(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), Charlie Labs(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), JetBrains(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കൂടാതെ Augment Code(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) എന്നിവ പറയുന്നത് GPT‑5.2 അത്യാധുനിക ഏജന്റിക് കോഡിംഗ് പ്രകടനം നൽകുന്നു എന്ന് മാത്രമല്ല , ഇന്ററാക്ടീവ് കോഡിംഗ്, കോഡ് റിവ്യൂസ്, ബഗ് കണ്ടെത്തൽ തുടങ്ങിയ മേഖലകളിൽ അളക്കാവുന്ന മെച്ചപ്പെടുത്തലുകൾ സഹിതം ആണ് ഇത്.
ChatGPT‑ൽ, GPT‑5.2 Instant, Thinking, Pro എന്നിവ ആദ്യം പണമടച്ച പദ്ധതികളിൽ ഇന്ന് മുതൽ വിതരണം ആരംഭിക്കുന്നു. അവ ഇപ്പോൾ എല്ലാ ഡെവലപ്പർമാർക്കും API-യിൽ ലഭ്യമാണ്.
മൊത്തത്തിൽ, GPT‑5.2 പൊതുവായ ബുദ്ധി, ദീർഘ-സന്ദർഭ ധാരണ, ഏജന്റ് ടൂൾ-കോളിംഗ്, ദർശനം എന്നിവയിൽ ഗണ്യമായ പുരോഗതി കൊണ്ടുവരുന്നു - സങ്കീർണ്ണമായ, യഥാർത്ഥ ലോകത്തിലെ ജോലികൾ ആദ്യം മുതൽ അവസാനം വരെ നിർവ്വഹിക്കുന്നതിൽ മുൻ മോഡലുകളെക്കാൾ മികച്ചതാണ്.
GPT‑5.2 Thinking യഥാർത്ഥ ലോകത്തും പ്രൊഫഷണൽ ഉപയോഗത്തിനും ഇതുവരെ ലഭ്യമായതില് ഏറ്റവും മികച്ച മോഡലാണ്. GDPval എന്നത് 44 തൊഴിൽ മേഖലകളിലുടനീളം നന്നായി നിർവചിച്ച വിജ്ഞാനപ്രവർത്തന ടാസ്കുകൾ അളക്കുന്ന ഒരു മൂല്യനിർണ്ണയമാണ്, GPT‑5.2 Thinking ഒരു പുതിയ സ്റ്റേറ്റ് ഓഫ് ദി ആർട്ട് സ്കോർ സൃഷ്ടിക്കുന്നു, വിദഗ്ധരുടെ തലത്തിൽ അല്ലെങ്കിൽ അതിനുമുകളിൽ പ്രവർത്തിക്കുന്ന ഞങ്ങളുടെ ആദ്യ മോഡൽ ആണ് ഇത്. പ്രത്യേകിച്ച്, GPT‑5.2 വിദഗ്ദ്ധരായ മനുഷ്യ വിധികർത്താക്കളുടെ അഭിപ്രായത്തിൽ, "തിങ്കിംഗ്" GDPval വിജ്ഞാന ടാസ്കുകളുടെ 70.9% താരതമ്യങ്ങളിൽ മുൻനിര വ്യവസായ പ്രൊഫഷണലുകളെ തോൽപ്പിക്കുകയോ അല്ലെങ്കിൽ അവര്ക്ക് തുല്യമോ ആണ്. ഈ ടാസ്കുകളിൽ അവതരണങ്ങൾ, സ്പ്രെഡ്ഷീറ്റുകൾ, മറ്റ് കലാവസ്തുക്കൾ ഉണ്ടാക്കൽ എന്നിവ ഉൾപ്പെടുന്നു. GPT‑5.2 തിങ്കിംഗ് GDPval ടാസ്കുകൾ 11 മടങ്ങ് വേഗത്തിലും വിദഗ്ധ പ്രൊഫഷണലുകളുടെ ചെലവിന്റെ 1% ൽ താഴെ ചെലവിലും ഔട്ട്പുട്ടുകൾ ഉത്പാദിപ്പിച്ചു, ഇത് മനുഷ്യ മേൽനോട്ടത്തോടൊപ്പം ചേർത്താൽ, GPT‑5.2 പ്രൊഫഷണൽ ജോലിയിൽ സഹായകരമാകുമെന്നാണ് സൂചിപ്പിക്കുന്നത്. വേഗതയും ചെലവും സംബന്ധിച്ച കണക്കുകളും അതിന്റെ ചരിത്രപരമായ മെട്രിക്സുകളെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്; ChatGPT‑യിലെ വേഗത വ്യത്യാസപ്പെടാം.
GDPval-ൽ, മോഡലുകൾ യുഎസ് GDP-യിലേക്ക് സംഭാവന ചെയ്യുന്ന മുൻനിര 9 വ്യവസായങ്ങളിൽ നിന്നുള്ള 44 തൊഴിൽ മേഖലകളിലായി വ്യാപിക്കുന്ന, നന്നായി നിർവചിച്ച വിജ്ഞാന പ്രവർത്തനങ്ങൾ നടത്താൻ ശ്രമിക്കുന്നു. ടാസ്കുകൾ വിൽപ്പന അവതരണങ്ങൾ, അക്കൗണ്ടിംഗ് സ്പ്രെഡ്ഷീറ്റ്, അടിയന്തിര പരിചരണ ഷെഡ്യൂളുകൾ, നിർമ്മാണ ഡയഗ്രം, അല്ലെങ്കിൽ ചെറു വീഡിയോകൾ പോലുള്ള യഥാർത്ഥ പ്രവർത്തന ഉൽപ്പന്നങ്ങൾ ആവശ്യപ്പെടുന്നു. ChatGPT‑ൽ, GPT‑5.2 Thinking-ന് GPT‑5 Thinking-ല് ഇല്ലാത്ത പുതിയ ടൂളുകള് ഉണ്ട്.
ഒരു മികച്ച ഔട്ട്പുട്ട് പ്രത്യേകമായി അവലോകനം ചെയ്യുമ്പോൾ, ഒരു GDPval ജഡ്ജ് അഭിപ്രായപ്പെട്ടത്, "ഇത് ഔട്ട്പുട്ട് ഗുണനിലവാരത്തിൽ ഒരു ആവേശകരവും ശ്രദ്ധേയവുമായ ചുവടുവയ്പാണ്... [ഇത്] ജീവനക്കാരുള്ള ഒരു പ്രൊഫഷണൽ കമ്പനി ചെയ്തതുപോലെ തോന്നുന്നു, കൂടാതെ രണ്ട് ഡെലിവറിബിളുകൾക്കും അത്ഭുതകരമായി രൂപകൽപ്പന ചെയ്ത ലേഔട്ട്, ഉപദേശങ്ങൾ എന്നിവ ഉണ്ട്, എങ്കിലും ഇതിൽ ചില ചെറിയ പിശകുകൾ ഇനിയും ശരിയാക്കേണ്ടതുണ്ട്." എന്നാണ്
കൂടാതെ, ഫോർച്യൂൺ 500 കമ്പനിക്ക് ശരിയായ ഫോർമാറ്റിംഗും ഉദ്ധരണികളും ഉപയോഗിച്ച് മൂന്ന് സ്റ്റേറ്റ്മെന്റ് മോഡൽ ഒരുമിപ്പിക്കൽ, അല്ലെങ്കിൽ ടേക്ക്-പ്രൈവറ്റിനായി ഒരു ലിവറേജ് വാങ്ങൽ മോഡൽ നിർമ്മിക്കൽ പോലുള്ള ജൂനിയർ നിക്ഷേപ ബാങ്കിംഗ് അനലിസ്റ്റ് സ്പ്രെഡ്ഷീറ്റ് മോഡലിംഗ് ടാസ്കുകളുടെ ആന്തരിക ബെഞ്ച്മാർക്കിൽ, GPT‑5.2 Thinking-ന്റെ ശരാശരി സ്കോർ ഓരോ ടാസ്കിലും GPT‑5.1‑നേക്കാൾ 9.3% ഉയർന്നതുമാണ് 59.1% മുതൽ 68.4% വരെ ഉയര്ച്ച കാണുന്നുണ്ട്.
സൈഡ്-ബൈ-സൈഡ് താരതമ്യങ്ങൾ GPT‑5.2 സൃഷ്ടിച്ച സ്പ്രെഡ്ഷീറ്റുകളും സ്ലൈഡുകളും മെച്ചപ്പെട്ട സങ്കീർണ്ണതയും ഫോർമാറ്റിംഗും കാണിക്കുന്നു Thinking

പ്രോംപ്റ്റ്: തലവരി, നിയമന പദ്ധതി, ഒഴിവാക്കൽ, ബജറ്റ് സ്വാധീനം എന്നിവ ഉൾക്കൊള്ളുന്ന ഒരു തൊഴിലാളി പദ്ധതിയുടെ മോഡൽ സൃഷ്ടിക്കുക. എഞ്ചിനീയറിംഗ്, മാർക്കറ്റിംഗ്, നിയമ, വിൽപ്പന വകുപ്പുകൾ ഉൾപ്പെടെ.
ChatGPT‑യിലുള്ള പുതിയ സ്പ്രെഡ്ഷീറ്റും അവതരണ ശേഷികളും ഉപയോഗിക്കാൻ നിങ്ങൾ ഒരു പണമടച്ച പദ്ധതി യിൽ ചേര്ന്നിരിക്കണം, GPT‑5.2 Thinking അല്ലെങ്കിൽ Pro തിരഞ്ഞെടുത്തിരിക്കുകയും വേണം. സങ്കീർണ്ണമായ തലമുറകൾ ഉത്പാദിപ്പിക്കാൻ നിരവധി മിനിറ്റുകൾ എടുത്തേക്കാം.
GPT‑5.2 Thinking SWE-ബെഞ്ച് Pro-ൽ 55.6% എന്ന പുതിയ അത്യാധുനിക നിലവാരം സ്ഥാപിക്കുന്നു, യഥാർത്ഥ ലോകത്തിലെ സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗിന്റെ കർശനമായ ഒരു മൂല്യനിർണ്ണയമാണ് ഇത്. SWE-ബെഞ്ച് സ്ഥിരീകരിച്ചതിനെ അപേക്ഷിച്ച്, Python മാത്രം പരീക്ഷിക്കുന്ന SWE-bench Pro നാല് ഭാഷകളെ പരീക്ഷിക്കുകയും കൂടുതൽ മലിനീകരണ പ്രതിരോധം, കൂടുതൽ വെല്ലുവിളികളും വൈവിധ്യവും വ്യവസായപരമായ പ്രാധാന്യവും ലക്ഷ്യമിടുകയും ചെയ്യുന്നു.
In SWE-ബെഞ്ച് Pro(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), ഒരു മോഡലിന് ഒരു കോഡ് റിപോസിറ്ററി നല്കുമ്പോള് യഥാർത്ഥ സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗ് ടാസ്ക് പരിഹരിക്കുന്നതിന് ഒരു പാച്ച് സൃഷ്ടിക്കേണ്ടതുണ്ട്.
SWE-ബെഞ്ചിൽ സ്ഥിരീകരിച്ച (ചിത്രീകരിച്ചിട്ടില്ല), GPT‑5.2 Thinking 80% എന്ന പുതിയ ഉയർന്ന സ്കോർ നേടുന്നു.
ദൈനംദിന പ്രൊഫഷണൽ ഉപയോഗത്തിനായുള്ള ഒരു മോഡലില് പരിഗണിക്കുമ്പോള് , ഇതിന് ഉൽപ്പാദന കോഡ് കൂടുതൽ വിശ്വസനീയമായി ഡീബഗ് ചെയ്യാനും, ഫീച്ചർ അഭ്യർത്ഥനകൾ നടപ്പിലാക്കാനും, വലിയ കോഡ്ബേസുകൾ റീഫാക്ടർ ചെയ്യാനും, കുറവ് മാനുവൽ ഇടപെടലോടെ എന്റു-ടു-എൻഡ് പരിഹാരങ്ങൾ അയയ്ക്കാനും കഴിയുന്നു.
GPT‑5.2 Thinking , GPT‑5.1 Thinking -നെ അപേക്ഷിച്ച് ഫ്രണ്ട്-എൻഡ് സോഫ്റ്റ്വെയർ എഞ്ചിനീയറിംഗിൽ മെച്ചമാണ്. ആദ്യകാല പരീക്ഷകർ ഇത് ഫ്രണ്ട്-എൻഡ് വികസനത്തിലും സങ്കീർണ്ണമായ അല്ലെങ്കിൽ അസാധാരണമായ UI ജോലികളിലും, പ്രത്യേകിച്ച് 3D ഘടകങ്ങൾ ഉൾപ്പെടുന്നവയിൽ, വളരെ ശക്തമാണെന്ന് കണ്ടെത്തി - ഇത് സ്റ്റാക്കിലെ എഞ്ചിനീയർമാർക്ക് ഒരു ശക്തമായ ദൈനംദിന പങ്കാളിയാണെന്ന് സാരം. ഒരു പ്രോംപ്റ്റിൽ നിന്ന് എന്തെല്ലാം സൃഷ്ടിക്കാനാകുമെന്ന് കാണിക്കുന്ന ചില ഉദാഹരണങ്ങൾ കാണുക:
പ്രോംപ്റ്റ്: താഴെ പറയുന്ന ആവശ്യകതകളോടെ ഒരു HTML ഫയലിൽ ഒരു സിംഗിൾ പേജ് ആപ്പ് സൃഷ്ടിക്കുക:
- പേര്: Ocean Wave Simulation
- ലക്ഷ്യം: യാഥാർത്ഥ്യപരമായ ആനിമേറ്റഡ് തിരമാലകൾ പ്രദർശിപ്പിക്കുക.
- സവിശേഷതകൾ: കാറ്റിന്റെ വേഗത, തിരമാലയുടെ ഉയരം, ലൈറ്റിംഗ് മാറ്റുക.
- UI ശാന്തവും യാഥാർത്ഥ്യപരവുമായിരിക്കണം.
GPT‑5.2‑നെക്കുറിച്ചുള്ള ആദ്യകാല പരീക്ഷകർ അവരുടെ ഫീഡ്ബാക്ക് പങ്കിട്ടു കോഡിംഗ് ശേഷികൾ:
GPT-5.2 GPT മോഡലുകൾ ഏജന്റിക് കോഡിംഗിൽ GPT-5 മുതൽ ഏറ്റവും വലിയ മുന്നേറ്റം പ്രതിനിധീകരിക്കുന്നു, കൂടാതെ അതിന്റെ വില പരിധിയിൽ ഒരു SOTA കോഡിംഗ് മോഡലാണ്. പതിപ്പിന്റെ വർദ്ധന ബുദ്ധിയുടെ വളർച്ചയെ കുറച്ച് മാത്രം പ്രതിഫലിപ്പിക്കുന്നു. Windsurf-ലും നിരവധി പ്രധാന Devin വർക്ക്ലോഡുകളിലും ഇത് ഡിഫോൾട്ട് ആക്കുന്നതിൽ ഞങ്ങൾ ആവേശഭരിതരാണ്.
GPT‑5.2 Thinking GPT‑5.1 Thinking അപേക്ഷിച്ച് കുറച്ചു മാത്രം ഹലൂസിനെറ്റ് ചെയ്യുന്നുള്ളൂ. ChatGPT‑ന്റെ തിരിച്ചറിയാതാക്കിയ ചോദ്യങ്ങളിൽ നിന്നുള്ള മറുപടികളിൽ പിശകുകൾ 38%rel കുറവായിരുന്നു. പ്രൊഫഷണലുകൾക്ക്, ഗവേഷണം, എഴുത്ത്, വിശകലനം, തീരുമാന പിന്തുണ എന്നിവയ്ക്കായി മോഡൽ ഉപയോഗിക്കുമ്പോൾ കുറവ് പിഴവുകൾ മാത്രമേ ഉണ്ടാകു എന്നാണ് ഇതിന്റെ അർത്ഥം—ദൈനംദിന വിജ്ഞാന ജോലികൾക്കായി മോഡൽ കൂടുതൽ വിശ്വസനീയമാണ്.
റീസണിംഗ് ശ്രമം ലഭ്യമായ പരമാവധി ആയി ക്രമീകരിച്ച ശേഷം, ഒരു തിരയൽ ഉപകരണം പ്രവർത്തന സജ്ജമാക്കി. മറ്റു മോഡലുകൾ കണ്ടെത്തിയ പിശകുകൾ, അവ സ്വയം തന്നെ വരുത്താൻ സാധ്യതയുള്ള പിശകുകളാണ്. ക്ലെയിം-തലത്തിലുള്ള പിശക് നിരക്കുകൾ മറുപടി-തലത്തിലുള്ള പിശക് നിരക്കുകളേക്കാൾ വളരെ കുറവാണ്, കാരണം മിക്ക മറുപടികളിലും നിരവധി ക്ലെയിമുകൾ അടങ്ങിയിരിക്കുന്നു.
എല്ലാ മോഡലുകളെയും പോലെ, GPT‑5.2 Thinking അപൂർണ്ണമാണ്. പ്രധാനമായ എന്ത് കാര്യത്തിലും, അതിന്റെ ഉത്തരങ്ങൾ രണ്ടുതവണ പരിശോധിക്കുക.
GPT‑5.2 Thinking ദീർഘമായ സന്ദർഭ ചിന്തയിൽ ഒരു പുതിയ നിലവാരം സൃഷ്ടിക്കുന്നു, OpenAI MRCRv2-ൽ മുൻനിര പ്രകടനം കൈവരിക്കുന്നു—ദീർഘമായ ഡോക്യുമെൻ്റുകളിൽ വ്യാപിച്ചിരിക്കുന്ന വിവരങ്ങൾ സംയോജിപ്പിക്കുന്നതിനുള്ള മോഡലിന്റെ കഴിവിനെ പരീക്ഷിക്കുന്ന ഒരു വിലയിരുത്തൽ ആണിത്. നൂറുകണക്കിന് ആയിരക്കണക്കിന് token-കളിലുടനീളം ബന്ധപ്പെട്ട വിവരങ്ങൾ ആവശ്യമായ ഡീപ്പ് ഡോക്യുമെൻ്റ് വിശകലനം പോലുള്ള യഥാർത്ഥ ലോക ടാസ്കുകളിൽ, GPT‑5.2 Thinking GPT‑5.1 Thinking- നെ അപേക്ഷിച്ച് വളരെ കൃത്യമാണ്. പ്രത്യേകിച്ച് നാം കണ്ടിട്ടുള്ളതില് വെച്ച് , 4-needle MRCR വകഭേദത്തിൽ (256k token വരെ) ഏകദേശം 100% കൃത്യത നേടുന്ന ആദ്യ മോഡൽ ആണിത്.
പ്രായോഗികമായി, ഇത് പ്രൊഫഷണലുകൾക്ക് GPT‑5.2 ഉപയോഗിച്ച് റിപ്പോർട്ടുകൾ, കരാറുകൾ, ഗവേഷണ പ്രബന്ധങ്ങൾ, ട്രാൻസ്ക്രിപ്റ്റുകൾ, മൾട്ടി-ഫയൽ പദ്ധതികൾ പോലുള്ള ദീർഘമായ ഡോക്യുമെൻ്റുകളുമായി പ്രവർത്തന സജ്ജമാക്കാൻ, നൂറുകണക്കിന് token-കളിൽ സമഗ്രതയും കൃത്യതയും നിലനിർത്താൻ സഹായിക്കുന്നു. ഇത് GPT‑5.2 നെ ആഴത്തിലുള്ള വിശകലനം, സംശ്ലേഷണം, സങ്കീർണ്ണമായ മൾട്ടി-സോഴ്സ് പ്രവാഹങ്ങൾ എന്നിവയ്ക്ക് പ്രത്യേകിച്ചും അനുയോജ്യമാക്കുന്നു.
In OpenAI-MRCR(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) v2 (മൾട്ടി-റൗണ്ട് കോ-റഫറൻസ് പരിഹാരത്തിൽ), ഒരേപോലുള്ള നിരവധി “സൂചി” ഉപയോക്തൃ അഭ്യർത്ഥനകൾ സമാനമായ അഭ്യർത്ഥനകളുടെയും മറുപടികളുടെയും നീണ്ട “ഹേസ്റ്റാക്കുകളിൽ” ചേർക്കുന്നു, കൂടാതെ മോഡലിനോട് n-ആമത് സൂചിയിലേക്കുള്ള മറുപടി പുനരാവിഷ്കരിക്കാൻ ആവശ്യപ്പെടുന്നു. മൂല്യനിർണ്ണയത്തിന്റെ രണ്ടാം പതിപ്പ് തെറ്റായ ഗ്രൗണ്ട് ട്രൂത്ത് മൂല്യങ്ങളുള്ള ~5% ടാസ്കുകൾ പരിഹരിക്കുന്നു. ശരാശരി പൊരുത്ത അനുപാതം എന്നത് മോഡലിന്റെ മറുപടിയും ശരിയായ ഉത്തരത്തിനും ഇടയിലുള്ള ശരാശരി സ്ട്രിംഗ് പൊരുത്ത അനുപാതം അളക്കുന്നു. 256k പരമാവധി ഇൻപുട്ട് ടോക്കൺ-കളിൽ പോയിന്റുകൾ 128k–256k ഇൻപുട്ട് ടോക്കൺ-കളുടെ ശരാശരികളെ പ്രതിനിധീകരിക്കുന്നു, തുടങ്ങിയവ. ഇവിടെ, 256k 256 * 1,024 = 262,114 ടോക്കൺസ് പ്രതിനിധീകരിക്കുന്നു. റീസണിംഗ് ശ്രമം പരമാവധി ലഭ്യമായ രീതിയിലായിരുന്നു.
പരമാവധി കൊണ്ടെക്സ് വിൻഡോയ്ക്ക് അപ്പുറം ചിന്തിക്കുന്നതിൽ നിന്ന് പ്രയോജനം ലഭിക്കുന്ന ജോലികൾക്ക്, GPT‑5.2 Thinking മോഡലിന്റെ ഫലപ്രദമായ കൊണ്ടെക്സ് വിൻഡോ വിപുലീകരിക്കുന്നതില്, നമ്മുടെ പുതിയ Responses /compact എൻഡ്പോയിന്റ്മായി പൊരുത്തപ്പെടുന്നു. ഇത് GPT‑5.2‑നെ കൊണ്ടെക്സ് ദൈർഘ്യം കാരണം പരിമിതമായ, ഉപകരണങ്ങൾ കൂടുതലുള്ള, ദീർഘകാലം പ്രവർത്തിക്കുന്ന വർക്ക്ഫ്ലോകൾ കൈകാര്യം ചെയ്യുന്നതിന് അനുവദിക്കുന്നു. ഞങ്ങളുടെ API ഡോക്യുമെന്റേഷനിൽ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കൂടുതൽ വായിക്കുക.
GPT‑5.2 Thinking ഞങ്ങളുടെ ഇതുവരെ ഏറ്റവും ശക്തമായ വിഷന് മോഡൽ ആണ്, ചാർട്ട് വിശകലനത്തിലും സോഫ്റ്റ്വെയർ ഇന്റർഫേസ് മനസ്സിലാക്കലിലും പിശകിന്റെ നിരക്ക് ഏകദേശം പകുതിയായി കുറയ്ക്കുന്നു.
ദിനംപ്രതിയുള്ള പ്രൊഫഷണൽ ഉപയോഗത്തിനായി, മോഡൽ ഡാഷ്ബോർഡുകൾ, ഉൽപ്പന്ന സ്ക്രീൻഷോട്ടുകൾ, സാങ്കേതിക ഡയഗ്രാമുകൾ, ദൃശ്യ റിപ്പോർട്ടുകൾ എന്നിവ കൂടുതൽ കൃത്യമായി വ്യാഖ്യാനിക്കാൻ കഴിയും—ദൃശ്യ വിവരങ്ങൾ പ്രധാനമായ ഫിനാൻസ്, ഓപ്പറേഷൻസ്, എഞ്ചിനീയറിംഗ്, ഡിസൈൻ, കസ്റ്റമർ പിന്തുണ എന്നിവയിലുള്ള പ്രവൃത്തി പ്രവാഹങ്ങൾക്ക് പിന്തുണ നൽകുകയും ചെയ്യുന്നു.
ഇൻ CharXiv Reasoning(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), മോഡലുകൾ ശാസ്ത്രീയ പ്രബന്ധങ്ങളിൽ നിന്നുള്ള ദൃശ്യ ചാർട്ടുകളെക്കുറിച്ചുള്ള ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകുന്നു. ഒരു പൈത്തൺ ഉപകരണം പ്രവർത്തന സജ്ജമാക്കുകയും റീസണിംഗ് ശ്രമം പരമാവധി ക്രമീകരിക്കുകയും ചെയ്തു.
In ScreenSpot-Pro(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ൽ, മോഡലുകൾ വിവിധ പ്രൊഫഷണൽ ക്രമീകരണങ്ങളിൽ നിന്നുള്ള ഗ്രാഫിക്കൽ ഉപയോക്തൃ ഇന്റർഫേസുകളുടെ ഉയർന്ന റെസല്യൂഷൻ സ്ക്രീൻഷോട്ടുകൾക്കുറിച്ച് ചിന്തിക്കൂ. ഒരു പൈത്തൺ ഉപകരണം പ്രവർത്തന സജ്ജമാക്കി, ചിന്തിക്കുന്ന ശ്രമം പരമാവധി ആയി പ്രവർത്തന സജ്ജമാക്കി. പൈത്തൺ ഉപകരണം ഇല്ലാതെ, സ്കോറുകൾ വളരെ താഴ്ന്നതാണ്. ഇത്തരത്തിലുള്ള വിഷന്ടാസ്കുകളിൽ പൈത്തൺ ഉപകരണം പ്രവർത്തന സജ്ജമാക്കാൻ ഞങ്ങൾ ശുപാർശ ചെയ്യുന്നു.
മുൻ മോഡലുകളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ, GPT‑5.2 Thinking -ന് ഒരു ചിത്രത്തിൽ ഘടകങ്ങൾ എങ്ങനെ സ്ഥിതിചെയ്യുന്നുവെന്ന് കൂടുതൽ ശക്തമായ ഗ്രാഹ്യമുണ്ട്, ഇത് പ്രശ്നപരിഹാരത്തിൽ ആപേക്ഷിക ലേഔട്ട് നിർണായകമായ പങ്ക് വഹിക്കുന്ന ടാസ്കുകളിൽ സഹായിക്കുന്നു. താഴെ കാണുന്ന ഉദാഹരണത്തിൽ, മോഡലിനോട് ഒരു ഇൻപുട്ട് ചെയ്ത ചിത്രത്തിലെ (ഈ സാഹചര്യത്തിൽ, ഒരു മദർബോർഡ്) ഘടകങ്ങളെ തിരിച്ചറിയാനും ഏകദേശ ബൗണ്ടിംഗ് ബോക്സുകള് ഉള്പ്പെടുത്തിയ ലേബലുകൾ മടക്കിനൽകാനും ആവശ്യപ്പെടുന്നു. താഴ്ന്ന നിലവാരത്തിലുള്ള ചിത്രത്തിലും, GPT‑5.2 പ്രധാന പ്രദേശങ്ങളെ തിരിച്ചറിയുകയും ഓരോ ഘടകത്തിന്റെ യഥാർത്ഥ സ്ഥാനങ്ങളുമായി ഏകദേശം പൊരുത്തപ്പെടുന്ന ബോക്സുകൾ സ്ഥാപിക്കുകയും ചെയ്യുന്നു, അതേസമയം GPT‑5.1 കുറച്ച് ഭാഗങ്ങൾ മാത്രമേ ലേബൽ ചെയ്യാന് കഴിഞ്ഞുള്ളൂ, അവയ്ക്ക് സ്ഥലത്തിന്റെ ക്രമീകരണത്തെ കുറിച്ച് വളരെ കുറച്ച് ഗ്രാഹ്യമേ ഉള്ളു എന്ന് ഇത് കാണിക്കുന്നു.
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking τ2-ബെഞ്ച് ടെലികോമിൽ 98.7% എന്ന പുതിയ SOTA നില കൈവരിക്കുന്നു, ദീർഘകാല, മൾട്ടി-ടേൺ ടാസ്കുകളിൽ ഉപകരണങ്ങൾ വിശ്വസനീയമായി ഉപയോഗിക്കുന്നതിലെ അതിന്റെ കഴിവ് തെളിയിക്കുന്നു.
ലേറ്റൻസി സെൻസിറ്റീവ് ഉപയോഗ കേസുകൾക്ക്, GPT‑5.2 യുക്തിസഹമായി ചിന്തിക്കുന്നതിലും Thinking വളരെ മികച്ച പ്രകടനം കാഴ്ചവയ്ക്കുന്നു. ശ്രമം='ഒട്ടുമില്ല', GPT‑5.1 നെയും GPT‑4.1 നെയും ഇത് ഗണ്യമായി മറികടക്കുന്നു.
In τ2-ബെഞ്ച്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ൽ, മോഡലുകൾ ഉപകരണങ്ങൾ ഉപയോഗിച്ച് ഒരു സിമുലേറ്റഡ് ഉപയോക്താവിനൊപ്പം മൾട്ടി-ടേൺ ഇടപെടലിൽ ഉപഭോക്തൃ പിന്തുണ ടാസ്കുകൾ പൂർത്തിയാക്കുന്നു. ടെലികോം ഡൊമെയ്നിനായി, പ്രകടനം മെച്ചപ്പെടുത്തുന്നതിനായി സിസ്റ്റം പ്രോംപ്റ്റിൽ ഒരു പൊതുവായും ചുരുക്കത്തില് ഉള്ളതുമായ സഹായകരമായ നിർദ്ദേശം ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. കുറഞ്ഞ നിലവാരത്തിലുള്ള ഗ്രൗണ്ട് ട്രൂത്ത് ഗ്രേഡിംഗ് കാരണം എയർലൈൻ ഉപവിഭാഗം ഒഴിവാക്കിയിട്ടുണ്ട്.
പ്രൊഫഷണലുകൾക്കായി, ഇത് ശക്തമായ എൻഡ്-ടു-എൻഡ് പ്രവാഹങ്ങളിലേക്ക് വിവർത്തനം ചെയ്യുന്നു—ഉപഭോക്തൃ പിന്തുണ കേസുകൾ പരിഹരിക്കൽ, നിരവധി സിസ്റ്റങ്ങളിൽ നിന്ന് ഡാറ്റ എടുക്കൽ, വിശകലനങ്ങൾ നടത്തൽ, ഘട്ടങ്ങൾക്കിടയിലെ തകരാറുകൾ കുറച്ച് അന്തിമ ഫലങ്ങൾ സൃഷ്ടിക്കൽ പോലുള്ളവയില്.
ഉദാഹരണത്തിന്, മൾട്ടി-സ്റ്റെപ്പ് പരിഹാരം ആവശ്യമായ ഒരു സങ്കീർണ്ണമായ കസ്റ്റമർ സർവീസ് ചോദ്യത്തിന് ഉത്തരം നൽകുമ്പോൾ, മോഡൽ വഴി പല ഏജൻ്റുകളിലൂടെയും ഒരു പൂർണ്ണ പ്രവാഹം കൂടുതൽ ഫലപ്രദമായി ഏകോപിപ്പിക്കാൻ കഴിയും. താഴെ കാണുന്ന കേസിൽ, ഒരു യാത്രക്കാരൻ ഒരു വിമാനം വൈകിയതായി, ഒരു കണക്ഷൻ നഷ്ടപ്പെട്ടതായി, ന്യൂയോർക്കിൽ ഒരു രാത്രി താമസമുണ്ടായതായി, ഒരു മെഡിക്കൽ സീറ്റിംഗ് ആവശ്യകതയുണ്ടായതായി റിപ്പോർട്ട് ചെയ്യുന്നു. GPT‑5.2 ടാസ്കുകളുടെ മുഴുവൻ ശൃംഖല കൈകാര്യം ചെയ്യുന്നു—പുനഃബുക്കിംഗ്, പ്രത്യേക സഹായത്തിനുള്ള സീറ്റിംഗ്, നഷ്ടപരിഹാരം—GPT‑5.1‑നെക്കാൾ കൂടുതൽ സമ്പൂർണ്ണമായ ഫലം നൽകുന്നു.
GPT‑5.1

GPT‑5.2

AI ശാസ്ത്രീയ ഗവേഷണത്തെ എല്ലാവർക്കും പ്രയോജനപ്പെടുന്ന രീതിയിൽ വേഗത്തിലാക്കും എന്നത് ഞങ്ങളുടെ പ്രതീക്ഷകളിൽ ഒന്നാണ്. ഇതിനായി, AI അവരുടെ പ്രവർത്തനം വേഗത്തിലാക്കാൻ എങ്ങനെ സഹായിക്കാമെന്ന് കാണാൻ ശാസ്ത്രജ്ഞരുമായി പ്രവർത്തിക്കുകയും അവരെ കേൾക്കുകയും ചെയ്തുവരികയാണ്, കഴിഞ്ഞ മാസം ഞങ്ങൾ ചില പ്രാരംഭ സഹകരണ പരീക്ഷണങ്ങൾ ഇവിടെ പങ്കുവെച്ചു.
ഞങ്ങൾ GPT‑5.2‑വില് വിശ്വസിക്കുന്നു. Pro and GPT‑5.2 Thinking ശാസ്ത്രജ്ഞരെ സഹായിക്കുകയും വേഗത്തിലാക്കുകയും ചെയ്യുന്നതിനുള്ള ലോകത്തിലെ മികച്ച മോഡലുകളാണ്. GPQA ഡയമണ്ടിൽ, ഗ്രാജുവേറ്റ്-തല Google-പ്രൂഫ് Q&A ബെഞ്ച്മാർക്കിൽ, GPT‑5.2 Pro 93.2% നേട്ടം കൈവരിച്ചു, അതിനടുത്ത് GPT‑5.2 പിന്തുടരുന്നു 92.4% Thinking .
GPQA ഡയമണ്ടിൽ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), മോഡലുകൾ ഭൗതികശാസ്ത്രം, രസതന്ത്രം, ജീവശാസ്ത്രം എന്നിവയുമായി ബന്ധപ്പെട്ട മൾട്ടിപ്പിൾ ചോയ്സ് ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകുന്നു. യാതൊരു ഉപകരണങ്ങളും പ്രവർത്തന സജ്ജമാക്കപ്പെട്ടിരുന്നില്ല, ചിന്തശേഷി പരമാവധി ആയിരുന്നു.
FrontierMath (ടയർ 1–3) ൽ, വിദഗ്ധ-തല ഗണിതത്തിന്റെ ഒരു മൂല്യനിർണ്ണയം, GPT‑5.2 Thinking 40.3% പ്രശ്നങ്ങൾ പരിഹരിച്ച് അതിനെ ഒരു പുതിയ state of the art നിലവാരത്തിലേക്ക് എത്തിച്ചു.
ഫ്രോണ്ടിയർമാത്തിൽ ഫ്രോണ്ടിയർമാത്ത്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു), മോഡലുകൾ വിദഗ്ദ്ധ-നിലവാരത്തിലുള്ള ഗണിത പ്രശ്നങ്ങൾ പരിഹരിക്കുന്നു. ഒരു Python ഉപകരണം പ്രവർത്തന സജ്ജമാക്കുകയും, റീസണിംഗ് ശ്രമം പരമാവധി ക്രമീകരിക്കുകയും ചെയ്തു.
ഗണിതശാസ്ത്രത്തിലും ശാസ്ത്രത്തിലും AI മോഡലുകൾ അർത്ഥവത്തായ രീതിയിൽ പുരോഗതിയെ ത്വരിതപ്പെടുത്തുന്നത് നാം വ്യക്തമായി കാണാൻ തുടങ്ങുന്നു. ഉദാഹരണത്തിന്, സമീപകാല പ്രവർത്തനത്തിൽ GPT‑5.2 ഉപയോഗിച്ച് പ്രോ, ഗവേഷകർ സ്റ്റാറ്റിസ്റ്റിക്കൽ ലേണിംഗ് സിദ്ധാന്തത്തിലെ ഒരു തുറന്ന ചോദ്യം പര്യവേക്ഷണം ചെയ്തു. ഇടുങ്ങിയതും വ്യക്തമായി നിർവചിക്കപ്പെട്ടതുമായ ഒരു സാഹചര്യത്തിൽ, മോഡല് ഒരു തെളിവ് നിർദ്ദേശിച്ചു, അത് പിന്നീട് authors പരിശോധിക്കുകയും പുറത്തുനിന്നുള്ള വിദഗ്ധരുമായി അവലോകനം ചെയ്യുകയും ചെയ്തു, സൂക്ഷ്മാമായ മനുഷ്യ മേൽനോട്ടത്തിൽ മുന്നിര മോഡലുകൾക്ക് ഗണിതശാസ്ത്ര ഗവേഷണത്തെ എങ്ങനെ സഹായിക്കാനാകുമെന്ന് ഇത് വ്യക്തമാക്കുന്നു.
പൊതുവായ യുക്തിപരമായ കഴിവ് അളക്കുന്നതിനായി രൂപകൽപ്പന ചെയ്തിരിക്കുന്ന ഒരു മാനദണ്ഡമായ ARC-AGI-1 (പരിശോധിച്ചുറപ്പിച്ചത്) ൽ, 90% പരിധി മറികടക്കുന്ന ആദ്യ മോഡലാണ് GPT‑5.2, കഴിഞ്ഞ വർഷം o3‑പ്രിവ്യൂ പ്രകാരം 87% ൽ നിന്ന് മെച്ചപ്പെട്ടു, അതേസമയം ആ പ്രകടനം നേടുന്നതിനുള്ള ചെലവ് ഏകദേശം 390× കുറച്ചു.
ബുദ്ധിമുട്ട് വർദ്ധിപ്പിക്കുകയും ഫ്ലൂയിഡ് റീസണിംഗിനെ മികച്ച രീതിയിൽ വേർതിരിക്കുകയും ചെയ്യുന്ന ARC-AGI-2 (പരിശോധിച്ചുറപ്പിച്ചത്)-ൽ, GPT‑5.2 ചിന്താശൃംഖല മോഡലുകളില് 'Thinking' 52.9% സ്കോർ നേടി ഒരു പുതിയ നിലവാരം കൈവരിച്ചു. GPT‑5.2 Pro 54.2% വരെ ഉയർന്ന പ്രകടനം കാഴ്ചവെക്കുന്നു, മോഡലിന്റെ പുതിയ, അബ്സ്ട്രാക്റ്റ് പ്രശ്നങ്ങൾ ചിന്തിക്കാനുള്ള മോഡലിന്റെ കഴിവ് കൂടുതൽ വിപുലീകരിക്കുന്നു.
ഈ വിലയിരുത്തലുകളിലുടനീളം ഉള്ള മെച്ചപ്പെടുത്തലുകൾ GPT‑5.2യുടെ പ്രകടനത്തെ പ്രതിഫലിപ്പിക്കുന്നു ശക്തമായ മൾട്ടി-സ്റ്റെപ്പ് ചിന്താശേഷി, കൂടുതൽ കൃത്യമായ ക്വാണ്ടിറ്റേറ്റീവ് കൃത്യത, സങ്കീർണ്ണ സാങ്കേതിക ടാസ്കുകളിൽ കൂടുതൽ വിശ്വസനീയമായ പ്രശ്ന പരിഹാരം.
GPT‑5.2 നെക്കുറിച്ച് ഞങ്ങളുടെ ആദ്യകാല പരീക്ഷകർ പറയുന്നത് ഇതാ:
GPT-5.2 ഞങ്ങൾക്ക് പൂർണ്ണമായ ഒരു ആർക്കിടെക്ചർ മാറ്റം തുറന്നു തന്നു. ദുർബലമായ, മൾട്ടി-ഏജന്റ് സിസ്റ്റത്തെ ഞങ്ങൾ 20+ ഉപകരണങ്ങളുള്ള ഒരൊറ്റ മെഗാ-ഏജന്റായി ചുരുക്കി. മികച്ച കാര്യം, അത് എളുപ്പത്തിൽ പ്രവർത്തിക്കുന്നു. മെഗാ-ഏജന്റിനെ വേഗത്തിലും, കൂടുതൽ ബുദ്ധിപരമായും, 100 മടങ്ങ് എളുപ്പത്തിലും പരിപാലിക്കാൻ കഴിയും. ഞങ്ങൾ വളരെ കുറവായ ലേറ്റൻസി, വളരെ ശക്തമായ ടൂൾ കോളിംഗ് എന്നിവ കാണുന്നു, കൂടാതെ 5.2 ഒരു ലളിതമായ, ഒരു വരി പ്രോംപ്റ്റ് ഉപയോഗിച്ച് നന്നായി പ്രവർത്തിക്കുന്നതിനാൽ വ്യാപകമായ സിസ്റ്റം പ്രോംപ്റ്റുകൾ ഇനി ആവശ്യമില്ല. ഇത് തികച്ചും മാജിക് ആണെന്ന് തോന്നുന്നു.
ChatGPT‑ൽ, ഉപയോക്താക്കൾക്ക് GPT‑5.2 ദിവസേന ഉപയോഗിക്കാൻ കൂടുതൽ മെച്ചപ്പെട്ടതായി തോന്നണം—കൂടുതൽ ഘടനാപരവും, കൂടുതൽ വിശ്വസനീയവും, ആയിരിക്കുമ്പോള് തന്നെ ആശയവിനിമയം ആസ്വാദ്യകരവുമാണ്.
GPT‑5.2 ഇൻസ്റ്റന്റ് മോഡല് ദൈനംദിന പ്രവർത്തനങ്ങൾക്കും പഠനത്തിനും ഉള്ള വേഗതയേറിയതും കഴിവുള്ളതുമായ ഒരു ഉപകരണമാണ്, GPT‑5.1 ഇൻസ്റ്റന്റിൽ പരിചയപ്പെടുത്തിയ ഊഷ്മളമായ സംഭാഷണ ശൈലിയിൽ, വിവരാന്വേഷണ ചോദ്യങ്ങൾ, എങ്ങനെ ചെയ്യാം എന്നതിന്റെ മാർഗ്ഗനിർദ്ദേശങ്ങൾ, സാങ്കേതിക എഴുത്ത്, വിവർത്തനം എന്നിവയിൽ വ്യക്തമായ മെച്ചപ്പെടുത്തലുകൾ ഇത് കാണിക്കുന്നു. മുൻകാല പരീക്ഷകർക്ക്, പ്രധാന വിവരങ്ങൾ മുൻകൂട്ടി വെളിപ്പെടുത്തുന്ന കൂടുതൽ വ്യക്തമായ വിശദീകരണങ്ങൾ പ്രത്യേകിച്ചും ശ്രദ്ധിക്കാൻ കഴിഞ്ഞു.
GPT‑5.2 Thinkingആഴത്തിലുള്ള പ്രവർത്തനങ്ങൾക്കായി രൂപകൽപ്പന ചെയ്തിരിക്കുന്നു, ഉപയോക്താക്കളെ കൂടുതൽ സങ്കീർണ്ണമായ ടാസ്കുകൾ കൂടുതൽ മികവോടെ കൈകാര്യം ചെയ്യാൻ സഹായിക്കുന്നു—പ്രത്യേകിച്ച് കോഡിംഗ്, ദീർഘമായ ഡോക്യുമെൻ്റുകൾ സംഗ്രഹിക്കൽ, അപ്ലോഡ് ചെയ്ത ഫയലുകളെക്കുറിച്ചുള്ള ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകൽ, ഗണിതവും ലോജിക്കും ഘട്ടം ഘട്ടമായി നടത്തൽ, വ്യക്തമായ ഘടനയും കൂടുതൽ ഉപകാരപ്രദമായ വിശദാംശങ്ങളുമുള്ള പദ്ധതികൾ രൂപീകരിക്കുകയും തീരുമാനങ്ങൾ എടുക്കുകയും ചെയ്യുന്നതിൽ.
GPT‑5.2 Pro എന്നത് ഞങ്ങളുടെ ഏറ്റവും മിടുക്കുള്ളതും വിശ്വസനീയവുമായ ഓപ്ഷൻ ആണ്, ബുദ്ധിമുട്ടുള്ള ചോദ്യങ്ങൾക്ക് ഉയർന്ന നിലവാരമുള്ള ഉത്തരം ലഭിക്കാൻ കാത്തിരിക്കേണ്ടത്, ആദ്യകാല പരിശോധനയിൽ പ്രധാന പിശകുകൾ കുറവായും പ്രോഗ്രാമിംഗ് പോലുള്ള സങ്കീർണ്ണ ഡൊമെയ്നുകളിൽ ശക്തമായ പ്രകടനവും കാണിക്കുന്നു.
GPT‑5.2, ഞങ്ങൾ GPT‑5‑നൊപ്പം അവതരിപ്പിച്ച സുരക്ഷിത പൂർത്തീകരണം എന്ന ഗവേഷണത്തെ അടിസ്ഥാനമാക്കി നിർമ്മിച്ചിരിക്കുന്നു, ഇത് മോഡലിനെ ഏറ്റവും സഹായകരമായ ഉത്തരം നൽകാൻ പഠിപ്പിക്കുന്നു, അതേസമയം സുരക്ഷാ പരിധികൾക്കുള്ളിൽ തന്നെ മോഡല് തുടരുന്നു.
ഈ റിലീസിനൊപ്പം, ആത്മഹത്യ അല്ലെങ്കിൽ സ്വയംഹാനിയുടെ അടയാളങ്ങൾ, മാനസികാരോഗ്യ വിഷമത, അല്ലെങ്കിൽ മോഡലിനോടുള്ള മാനസിക ആശ്രയത്വം സൂചിപ്പിക്കുന്ന പ്രോംപ്റ്റുകൾക്ക് പ്രതികരിക്കുന്നതിൽ അർത്ഥവത്തായ മികവ് ഉൾപ്പെടുത്തുന്നതിലൂടെ, സംവേദനശീലമായ സംഭാഷണങ്ങളിൽ ഞങ്ങളുടെ മോഡലുകളുടെ പ്രതികരണങ്ങൾ ശക്തിപ്പെടുത്താൻ ഞങ്ങൾ ശ്രമം തുടർന്നു. ഈ ലക്ഷ്യം വച്ചുള്ള ഇടപെടലുകൾ GPT‑5.2 രണ്ടിലും അഭികാമ്യമല്ലാത്ത പ്രതികരണങ്ങൾ കുറച്ചു ഇൻസ്റ്റന്റ് GPT‑5.2 GPT‑5.1, GPT‑5 ഇൻസ്റ്റന്റ്, Thinking മോഡലുകളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ Thinking ആണിത്. കൂടുതൽ വിശദാംശങ്ങൾ സിസ്റ്റം കാർഡ്-ൽ കണ്ടെത്താം.
18 വയസ്സിന് താഴെയുള്ള ഉപയോക്താക്കൾക്ക് സെൻസിറ്റീവ് ഉള്ളടക്കത്തിലേക്കുള്ള പ്രവേശനം പരിമിതപ്പെടുത്തുന്നതിനായി ഉള്ളടക്ക സംരക്ഷണങ്ങൾ സ്വയമേവ പ്രയോഗിക്കാനുള്ള ഞങ്ങളുടെ പ്രായ പ്രവചന മോഡൽ പ്രാരംഭ ഘട്ടത്തിലാണ്. ഇത് 18 വയസ്സിന് താഴെയുള്ള ഉപയോക്താക്കളോടുള്ള നമ്മുടെ നിലവിലുള്ള സമീപനത്തെയും രക്ഷിതാക്കളുടെ നിയന്ത്രണത്തെയും അടിസ്ഥാനമാക്കിയുള്ളതാണ്.
GPT‑5.2 തുടർച്ചയായ മെച്ചപ്പെടുത്തലുകളിലെ ഒരു ഘട്ടമാണ്, ഞങ്ങൾ ഇതുവരെ പൂര്ണതയില് എത്തിയിട്ടില്ല. ഈ റിലീസ് ബുദ്ധിയിലും ഉൽപ്പാദനക്ഷമതയിലും അർത്ഥവത്തായ നേട്ടങ്ങൾ കൈവരിക്കുന്നുവെങ്കിലും, ആളുകൾക്ക് കൂടുതൽ ആഗ്രഹിക്കുന്ന മേഖലകൾ ഉണ്ടെന്ന് ഞങ്ങൾക്കറിയാം. ChatGPT‑ൽ, ഞങ്ങൾ അധിക നിരസനങ്ങൾ പോലുള്ള അറിയപ്പെടുന്ന പ്രശ്നങ്ങളിൽ പ്രവർത്തിക്കുകയാണ്, അതേസമയം മൊത്തത്തിൽ സുരക്ഷയും വിശ്വസനീയതയും ഉയരുന്നത് കൂടുന്നു. ഈ മാറ്റങ്ങൾ സങ്കീർണ്ണമാണ്, അവ ശരിയായി നടപ്പാക്കുന്നതിൽ ഞങ്ങൾ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു.
GPT‑5.2 ഇൻസ്റ്റന്റ് | GPT‑5.1 ഇൻസ്റ്റന്റ് | GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
മാനസികാരോഗ്യം | 0.995 | 0.883 | 0.915 | 0.684 |
വികാരപരമായ ആശ്രിതത്വം | 0.938 | 0.945 | 0.955 | 0.785 |
സ്വയംപീഡനം | 0.938 | 0.925 | 0.963 | 0.937 |
ChatGPT‑യിൽ, ഞങ്ങൾ ഇന്ന് മുതൽ GPT‑5.2 (Instant, Thinking, Pro) പുറത്തിറക്കാൻ തുടങ്ങും, ആദ്യം പണമടച്ച പദ്ധതികളില് (Plus, Pro, Go, Business, Enterprise എന്നിവയിൽ) ഇത് ആരംഭിക്കും. ഞങ്ങൾ ChatGPT‑നെ എത്രയും സുഗമവും വിശ്വാസ്യതയുള്ളതുമായി നിലനിർത്താൻ GPT‑5.2 ക്രമേണയാണ് വിന്യസിക്കുന്നത്; ആദ്യം അത് കാണുന്നില്ലെങ്കിൽ, ദയവായി പിന്നീട് വീണ്ടും ശ്രമിക്കുക. ChatGPT‑ൽ, പണമടച്ച ഉപയോക്താക്കൾക്ക് മൂന്നു മാസത്തേക്ക് പൈതൃക മോഡലുകള്ക്ക് കീഴിൽ GPT‑5.1 ലഭ്യമായിരിക്കും, അതിനുശേഷം ഞങ്ങൾ GPT‑5.1 ന്റെ സേവനം അവസാനിപ്പിക്കും.
ChatGPT | API |
ChatGPT‑5.2 തൽക്ഷണ | GPT‑5.2‑ചാറ്റ്‑latest |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
ഞങ്ങളുടെ API പ്ലാറ്റ്ഫോമിൽ, GPT‑5.2 Thinking ഇന്ന് മുതൽ റെസ്പോൺസസ് API-യിലും ചാറ്റ് കംപ്ലീഷൻസ് API-യിലും gpt-5.2 എന്ന പേരിൽ ലഭ്യമാണ്, കൂടാതെ GPT‑5.2 ഇൻസ്റ്റന്റ് gpt-5.2-chat-latest എന്ന നിലയിൽ. GPT‑5.2 Pro മറുപടി API-യിൽ gpt-5.2-pro എന്ന പേരിൽ ലഭ്യമാണ്. ഡെവലപ്പർമാർക്ക് ഇപ്പോൾ GPT‑5.2 ൽ റീസണിംഗ് പാരാമീറ്റർ സജ്ജീകരിക്കാം Pro, കൂടാതെ GPT‑5.2 Pro and GPT‑5.2 Thinking ഇപ്പോൾ , ഗുണനിലവാരം ഏറ്റവും പ്രധാനപ്പെട്ട ടാസ്കുകൾക്കായി, xhigh യുടെപുതിയ അഞ്ചാമത്തെ റീസണിംഗ് ശ്രമത്തെ പിന്തുണയ്ക്കുന്നു.
GPT‑5.2 ന് $1.75/1M ഇൻപുട്ട് ടോക്കൺ-കൾക്കും $14/1M ഔട്ട്പുട്ട് ടോക്കൺ-കൾക്കും സമാനമായ വിലയുണ്ട്, കാഷെയിലുള്ള ഇൻപുട്ടുകൾക്ക് 90% കിഴിവ് ലഭ്യമാണ്. പല ഏജന്റിക് മൂല്യനിർണയങ്ങളിൽ, GPT‑5.2‑ന്റെ ഓരോ token-നും കൂടുതൽ ചെലവ് ഉണ്ടായിരുന്നെങ്കിലും, GPT‑5.2‑ന്റെ മികച്ച token കാര്യക്ഷമത കാരണം ഒരു നിശ്ചിത നിലവാരത്തിലുള്ള ഗുണനിലവാരം നേടാനുള്ള ചെലവ് കുറവായിരുന്നു.
ChatGPT സബ്സ്ക്രിപ്ഷൻ വില മാറ്റമില്ലാതെ തുടരുമ്പോഴും, APIയിൽ GPT‑5.2‑ന് ഓരോ token-നും വില GPT‑5.1‑നെക്കാൾ കൂടുതലാണ്, കാരണം ഇത് കൂടുതൽ കഴിവുള്ള മോഡലാണ്. മറ്റ് മുൻനിര മോഡലുകളേക്കാൾ വില ഇപ്പോഴും കുറവായതിനാൽ, ആളുകൾക്ക് അവരുടെ ദൈനംദിന ജോലികളിലും പ്രധാന ആപ്ലിക്കേഷനുകളിലും ഇത് അധികമായി ഉപയോഗിക്കുന്നത് തുടരാം.
മോഡൽ | ഇൻപുട്ട് | കാഷെ ചെയ്ത ഇൻപുട്ട് | ഔട്ട്പുട്ട് |
GPT‑5.2 / GPT‑5.2‑ചാറ്റ്‑latest | $1.75 | $0.175 | $14 |
gpt-5.2-pro | $21 | - | $168 |
GPT‑5.1 / GPT‑5.1‑ചാറ്റ്‑latest | $1.25 | $0.125 | $10 |
gpt-5-pro | $15 | - | $120 |
GPT‑5.1 നിർത്തലാക്കാന് നിലവില് ഞങ്ങൾക്ക് പദ്ധതികൾ ഇല്ല, GPT‑5, അല്ലെങ്കിൽ API-യിൽ GPT‑4.1, ഡെവലപ്പർമാർക്ക് മുൻകൂട്ടി അറിയിപ്പ് നൽകിക്കൊണ്ട് നിർത്തലാക്കൽ പദ്ധതികൾ ഏതെങ്കിലും ഉണ്ടെങ്കിൽ അറിയിക്കും. GPT‑5.2 Codex-ൽ നന്നായി പ്രവർത്തിക്കുമെങ്കിലും, Codex-നായി മെച്ചപ്പെടുത്തിയ GPT‑5.2 ന്റെ ഒരു പതിപ്പ് അടുത്ത ആഴ്ചകളിൽ പുറത്തിറക്കാമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു.
GPT‑5.2 ഞങ്ങളുടെ ദീർഘകാല പങ്കാളികളായ NVIDIA, Microsoft എന്നിവരുമായി സഹകരിച്ച് നിർമ്മിച്ചിരിക്കുന്നു. Azure ഡാറ്റാ സെന്ററുകളും NVIDIA GPUകളും, H100, H200, GB200-NVL72 എന്നിവ ഉൾപ്പെടെ, OpenAI-യുടെ വിപുലമായ പരിശീലന അടിസ്ഥാന സൗകര്യത്തിന് പിന്തുണ നൽകുന്നു, മോഡൽ ഇന്റലിജൻസിൽ വലിയ നേട്ടങ്ങൾ കൈവരിക്കുന്നു. ഈ സഹകരണം ഞങ്ങളെ ആത്മവിശ്വാസത്തോടെ കമ്പ്യൂട്ടിംഗ് സ്കെയിലിംഗും പുതിയ മോഡലുകൾ വിപണിയിൽ വേഗത്തിൽ കൊണ്ടുവരാനും അനുവദിക്കുന്നു.
താഴെ, ഞങ്ങൾ GPT‑5.2‑ന്റെ സമഗ്രമായ ബെഞ്ച്മാർക്ക് സ്കോറുകൾ റിപ്പോർട്ട് ചെയ്യുന്നു ജിപിടി-5.2 നുള്ള ഒരു ഉപസെറ്റിനൊപ്പം Thinking പ്രോ.
പ്രൊഫഷണൽ
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
കോഡിംഗ്
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
വസ്തുത
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
ലോംഗ് കോൺടെക്സ്റ്റ്
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
ദർശനം
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
ഉപകരണ ഉപയോഗം
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
അക്കാദമിക്
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
അബ്സ്ട്രാക്റ്റ് റീസണിംഗ്
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
ഞങ്ങളുടെ API-യിൽ ലഭ്യമായ പരമാവധി യുക്തിസഹമായ ശ്രമത്തോടെയാണ് മോഡലുകൾ പ്രവർത്തിപ്പിച്ചത് (GPT‑5.2‑നുള്ള xhigh) Thinking & Pro, GPT‑5.1 Thinking)-നു ഉയർന്നതും, പ്രൊഫഷണൽ മൂല്യനിർണയങ്ങൾ ഒഴികെ, GPT‑5.2 റീസണിംഗ് ശ്രമം ലഭ്യമായ പരമാവധി ആയി ChatGPT Pro-ൽ പ്രവർത്തിപ്പിച്ചു. ബെഞ്ച്മാർക്കുകൾ ഒരു ഗവേഷണ പരിസ്ഥിതിയിൽ നടത്തപ്പെട്ടവയാണ്, ചില സാഹചര്യങ്ങളിൽ ഇത് പ്രൊഡക്ഷൻ ChatGPT‑ൽ നിന്ന് അല്പം വ്യത്യസ്തമായ ഔട്ട്പുട്ട് നൽകാൻ സാധ്യതയുണ്ട്.
* SWE-ലാൻസറിനായി, ഞങ്ങളുടെ അടിസ്ഥാന സൗകര്യത്തിൽ പ്രവർത്തിക്കാത്ത 40/237 പ്രശ്നങ്ങൾ ഞങ്ങൾ ഒഴിവാക്കുന്നു.


