2026 ഫെബ്രുവരി 20

ഞങ്ങളുടെ ആദ്യ തെളിവ് സമർപ്പണങ്ങൾ

ഡൊമെയ്ൻ-നിർദ്ദിഷ്ട പ്രശ്നങ്ങളിൽ പരിശോധിക്കാവുന്ന തെളിവുകൾ AI സൃഷ്ടിക്കുമോ എന്ന് പരിശോധിക്കുന്ന ഗണിതശാസ്ത്ര വെല്ലുവിളിയായ ഫസ്റ്റ് പ്രൂഫിനായി ഞങ്ങൾ നടത്തിയ ശ്രമങ്ങൾ പങ്കുവെക്കുന്നു.

ഞങ്ങളുടെ തെളിവ് ശ്രമങ്ങളുടെ സമാഹാരം കാണുക

ലോഡിംഗ്…

ഞങ്ങൾ എല്ലാ 10 ഫസ്റ്റ് പ്രൂഫിലെ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) പ്രശ്നങ്ങളിലുമൊരു ആന്തരിക മോഡൽ പ്രവർത്തിപ്പിച്ചു, AI സംവിധാനങ്ങൾക്ക് ശരിയായതും പരിശോധിക്കാവുന്നതുമായ തെളിവുകൾ നിർമ്മിക്കാൻ കഴിയുമോ എന്ന് പരിശോധിക്കാൻ രൂപകൽപ്പന ചെയ്ത ഗവേഷണ നിലവാരത്തിലുള്ള ഗണിതശാസ്ത്ര വെല്ലുവിളിയാണിത്. ചുരുക്ക-ഉത്തരമോ മത്സര ശൈലിയിലുള്ളതോ ആയ ഗണിതശാസ്ത്രത്തിൽ നിന്ന് വ്യത്യസ്തമായി ഈ പ്രശ്നങ്ങൾക്ക് പ്രത്യേക മേഖലകളിൽ സമഗ്രമായ വാദഗതികൾ കെട്ടിപ്പടുക്കേണ്ടതുണ്ട്, കൂടാതെ വിദഗ്ദ്ധ പരിശോധനയില്ലാതെ കൃത്യത ഉറപ്പാക്കുക പ്രയാസകരവുമാണ്. ഫസ്റ്റ് പ്രൂഫ് പ്രശ്‌നങ്ങളുടെ രചയിതാക്കൾ അവരുടെ തത്തുല്യ മേഖലകളിലെ മുൻനിര വിദഗ്ദ്ധരാണ്, അതിലെ ചില പ്രശ്നങ്ങൾക്ക് പരിഹാരം കണ്ടെത്താൻ രചയിതാക്കൾക്ക് പോലും വർഷങ്ങളോളം കാത്തിരിക്കേണ്ടി വന്നിട്ടുണ്ട്. ഈ വിഷയങ്ങളുമായി അടുത്ത ബന്ധമുള്ള ഒരു അക്കാദമിക് വകുപ്പിന് ഒരാഴ്ചയ്ക്കുള്ളിൽ പല പ്രശ്നങ്ങളും പരിഹരിക്കാൻ സാധിച്ചേക്കാം.

ഞങ്ങളുടെ തെളിവ് ശ്രമങ്ങൾ 2026 ഫെബ്രുവരി 14 ശനിയാഴ്ച, 12:00 AM PT-ന് ഞങ്ങൾ പങ്കിട്ടു⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) . വിദഗ്ധരുടെ ഫീഡ്ബാക്കിനെ അടിസ്ഥാനമാക്കി, മോഡലിന്റെ തെളിവ് ശ്രമങ്ങളിൽ (പ്രശ്നങ്ങൾ 4, 5, 6, 9, 10) കുറഞ്ഞത് അഞ്ചെണ്ണം ശരിയായിരിക്കാനുള്ള ഉയർന്ന സാധ്യതയുണ്ടെന്ന് ഞങ്ങൾ വിശ്വസിക്കുന്നു, കൂടാതെ മറ്റു ചിലത് ഇപ്പോഴും അവലോകനത്തിലാണ്. പ്രശ്നം 2-നുള്ള ഞങ്ങളുടെ ശ്രമം ശരിയാകാനാണ് സാധ്യതയെന്ന് ഞങ്ങൾ ആദ്യം വിശ്വസിച്ചിരുന്നു. ഫസ്റ്റ് പ്രൂഫിന്റെ ഔദ്യോഗിക വ്യാഖ്യാനങ്ങളും തുടർന്ന് നടന്ന കമ്മ്യൂണിറ്റി വിശകലനങ്ങളും അടിസ്ഥാനമാക്കി, ഇത് തെറ്റാണെന്ന് ഇപ്പോൾ ഞങ്ങൾ വിശ്വസിക്കുന്നു. ഇടപെടലിന് ഞങ്ങൾ നന്ദിയുള്ളവരാണ്, കൂടാതെ തുടർന്നുള്ള അവലോകനങ്ങൾക്കായി ഞങ്ങൾ കാത്തിരിക്കുന്നു. ഞങ്ങളുടെ എല്ലാ തെളിവ് ശ്രമങ്ങളും ഇവിടെ⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കണ്ടെത്താവുന്നതാണ്. പ്രീപ്രിന്റിൽ പത്ത് തെളിവ് ശ്രമങ്ങളും, കൂടാതെ ഈ പ്രക്രിയയിലുടനീളം മോഡലുകളുമായി ഞങ്ങൾ നടത്തിയ ആശയവിനിമയങ്ങൾ അനുകരിക്കാൻ സഹായിക്കുന്ന പ്രോംപ്റ്റ് രീതികളും ഉദാഹരണങ്ങളും അടങ്ങിയ പുതുതായി ചേർത്ത ഒരു അനുബന്ധവും ഉൾപ്പെടുന്നു.

അടുത്ത തലമുറ AI മോഡലുകളുടെ കഴിവുകൾ വിലയിരുത്തുന്നതിനുള്ള ഏറ്റവും പ്രധാനപ്പെട്ട മാർഗം പുതുമയുള്ള അത്യാധുനിക ഗവേഷണമാണെന്ന് ഞങ്ങൾ വിശ്വസിക്കുന്നു. മാനദണ്ഡങ്ങൾ ഉപകാരപ്രദമാണ്, പക്ഷേ അവ ഗവേഷണത്തിലെ ഏറ്റവും പ്രയാസമുള്ള ചില ഭാഗങ്ങൾ പരിഗണിക്കാതെ വിട്ടുപോയേക്കാം: റീസണിംഗിന്റെ തുടർച്ചയായി നിലനിർത്തൽ, ശരിയായ ആശയങ്ങൾ തിരഞ്ഞെടുക്കൽ, പ്രശ്നങ്ങളിലെ അവ്യക്തതകൾ കൈകാര്യം ചെയ്യൽ, വിദഗ്ദ്ധ പരിശോധനയെ അതിജീവിക്കുന്ന വാദഗതികൾ അവതരിപ്പിക്കൽ. ശരിയാണോ എന്ന് പരിശോധിക്കാൻ എളുപ്പമല്ലാത്ത സാഹചര്യങ്ങളിലും പരാജയങ്ങൾ പോലും പുതിയ കാര്യങ്ങൾ പഠിപ്പിക്കുന്നതുമായ ഇടങ്ങളിൽ, ഇത്തരം കഴിവുകളെ പരീക്ഷിച്ചു നോക്കാൻ ഫസ്റ്റ് പ്രൂഫ് പോലുള്ള അത്യാധുനിക വെല്ലുവിളികൾ ഞങ്ങളെ സഹായിക്കുന്നു.

ചിന്താപരമായ കൃത്യത വർദ്ധിപ്പിക്കുന്നതിൽ പ്രധാന ശ്രദ്ധ നൽകിക്കൊണ്ട് ഞങ്ങൾ ഇപ്പോൾ ഒരു പുതിയ മോഡലിനെ പരിശീലിപ്പിച്ചുകൊണ്ടിരിക്കുകയാണ്, മണിക്കൂറുകളോളം തുടർച്ചയായി ചിന്തിക്കാനും, നിഗമനങ്ങളിൽ പൂർണ്ണ ആത്മവിശ്വാസം നിലനിർത്താനും മോഡലിന് സാധിക്കണം എന്നതാണ് ഇതിന്റെ ലക്ഷ്യം. ഫസ്റ്റ് പ്രൂഫ് പ്രശ്നങ്ങൾ പ്രഖ്യാപിക്കപ്പെട്ടപ്പോൾ, അത് പരീക്ഷിച്ചു നോക്കാൻ പറ്റിയതാണെന്ന് തോന്നി, അതിനാൽ വാരാന്ത്യത്തിൽ ഞാൻ അത് പരീക്ഷിച്ചു. ഇതിനകം തന്നെ അതിന് രണ്ട് പ്രശ്നങ്ങൾക്ക് (#9, #10) പരിഹാരം കാണാൻ സാധിച്ചു. പരിശീലനം പുരോഗമിക്കുന്തോറും, ക്രമേണ കൂടുതൽ കഴിവുള്ളതായി മാറി, ഒടുവിൽ–ഞങ്ങളുടെ കണക്കുകൂട്ടൽ പ്രകാരം–കുറഞ്ഞത് മൂന്നു പ്രശ്നങ്ങൾ കൂടി പരിഹരിക്കാൻ അതിന് സാധിച്ചു. പ്രത്യേകിച്ച്, അത് #6-ഉം രണ്ടു ദിവസത്തിന് ശേഷം #4-ഉം പരിഹരിച്ചപ്പോൾ ഞങ്ങൾക്ക് വലിയ സന്തോഷം തോന്നി, കാരണം ആ പ്രശ്നങ്ങൾ ഞങ്ങളിൽ പലർക്കും പരിചിതമായ മേഖലകളിൽ നിന്നുള്ളവയായിരുന്നു. ഒരു മോഡൽ ഓരോ ദിവസം കഴിയുന്തോറും പ്രകടമായ രീതിയിൽ ബുദ്ധിമാനാകുന്നത് കാണുന്നത് അത്ഭുതകരമാണ്.

– ജെയിംസ് ആർ. ലീ (OpenAI ഗവേഷകൻ, റീസണിംഗ്)

പരിമിതമായ മനുഷ്യ മേൽനോട്ടത്തിലാണ് ഞങ്ങൾ മോഡൽ പ്രവർത്തിപ്പിച്ചത്. പരിശീലനത്തിനിടയിൽ മോഡലിന്റെ പതിപ്പുകൾക്ക് നിർദ്ദേശങ്ങൾ നൽകിയപ്പോൾ, മുൻപത്തെ ശ്രമങ്ങളിൽ ഫലപ്രദമെന്ന് കണ്ട ചില രീതികൾ വീണ്ടും ശ്രമിക്കാൻ ഞങ്ങൾ ചിലപ്പോൾ നിർദ്ദേശിച്ചിരുന്നു. ചില ശ്രമങ്ങളിൽ, വിദഗ്ധരുടെ ഫീഡ്ബാക്ക് ലഭിച്ചതിന് ശേഷം, ഒരു തെളിവിന്റെ ഭാഗങ്ങൾ വിശദീകരിക്കാനോ വ്യക്തത വരുത്താനോ മോഡലിനോട് ആവശ്യപ്പെട്ടു, റീസണിംഗ് പരിശോധിക്കുന്നത് എളുപ്പമാക്കുന്നതിന് വേണ്ടിയായിരുന്നു ഇത്. പരിശോധന, ഫോർമാറ്റിംഗ്, ശൈലി എന്നിവയ്ക്കായി ഈ മോഡലും ChatGPT‑യും തമ്മിലുള്ള ആശയവിനിമയത്തിന് ഞങ്ങൾ സൗകര്യമൊരുക്കി. ചില പ്രശ്നങ്ങൾക്ക്, മനുഷ്യന്റെ വിവേചനബുദ്ധിയിലൂടെ തിരഞ്ഞെടുത്ത ഏതാനും ശ്രമങ്ങളിൽ വെച്ച് ഏറ്റവും മികച്ചത് ഞങ്ങൾ അവതരിപ്പിക്കുന്നു. ഇത് ഒരു വേഗത്തിലുള്ള പ്രവർത്തനമായിരുന്നു, കൂടാതെ ശരിയായി നിയന്ത്രിതമായ ഒരു വിലയിരുത്തലിൽ ഞങ്ങളുടെ പ്രക്രിയ ഞങ്ങൾ ആഗ്രഹിക്കുന്നത്ര വ്യക്തമായിരുന്നില്ല. ഭാവിയിലെ ആവർത്തനങ്ങൾക്കായി കൂടുതൽ കർശനമായ പരീക്ഷണ മൂല്യനിർണ്ണയ രീതികളെക്കുറിച്ച് ഫസ്റ്റ് പ്രൂഫ് സംഘാടകരുമായി ചർച്ചകൾ നടത്താൻ ഞങ്ങൾ ആഗ്രഹിക്കുന്നു.

ഈ പ്രവർത്തനം ഗണിതശാസ്ത്രത്തിലും ശാസ്ത്രത്തിലും അത്യാധുനിക റീസണിംഗ് മോഡലുകളിൽ നിന്നുള്ള മുൻകാല ഫലങ്ങളെ അടിസ്ഥാനമാക്കിയാണ്. 2025 ജൂലൈയിൽ, ഞങ്ങൾ ഒരു പൊതുവായ-ഉദ്ദേശ്യ റീസണിംഗ് മോഡൽ (35/42 പോയിന്റുകൾ) ഉപയോഗിച്ച് അന്താരാഷ്ട്ര മാത്തമാറ്റിക്കൽ ഒളിമ്പ്യാഡിൽ സ്വർണ്ണ മെഡൽ നിലവാരത്തിലുള്ള പ്രകടനം⁠(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കൈവരിച്ചു. 2025 നവംബറിൽ, ഞങ്ങൾ “GPT‑5 ഉപയോഗിച്ച് ശാസ്ത്ര ഗവേഷണം ത്വരിതപ്പെടുത്താനുള്ള പ്രാരംഭ പരീക്ഷണങ്ങൾ” എന്നത് പങ്കുവെച്ചു, ഇത് ഗണിതം, ഭൗതികശാസ്ത്രം, ജീവശാസ്ത്രം തുടങ്ങിയ വിവിധ മേഖലകളിൽ GPT‑5 ഗവേഷകർക്ക് പുരോഗതി കൈവരിക്കാൻ എങ്ങനെ സഹായിച്ചു എന്നതിനെക്കുറിച്ചും, ഒപ്പം ഞങ്ങൾ നിരീക്ഷിച്ച പരിമിതികളെക്കുറിച്ചും വിശദീകരിക്കുന്ന കേസ് പഠനങ്ങളും ഇതിൽ ഉൾപ്പെടുത്തിയിട്ടുണ്ട് . ഏറ്റവും ഒടുവിലായി, ഒരു ഭൗതികശാസ്ത്ര ഗവേഷണ സഹകരണത്തെക്കുറിച്ച് ഞങ്ങൾ റിപ്പോർട്ട് ചെയ്തു, അതിൽ ഗ്ലൂവോൺ-ആംപ്ലിറ്റ്യൂഡ് ഫോർമുലയ്ക്കായി GPT‑5.2 ഒരു സാധ്യതയുള്ള ഗണിതവാചകം നിർദ്ദേശിക്കുകയും അത് പിന്നീട് ഒരു ആന്തരിക മോഡൽ ഔദ്യോഗികമായി തെളിയിക്കുകയും ഗവേഷകർ ശരിയാണെന്ന് സ്ഥിരീകരിക്കുകയും ചെയ്തു.

ഗവേഷണ തലത്തിലുള്ള റീസണിംഗ് എങ്ങനെ വിലയിരുത്താം എന്നതിനെക്കുറിച്ച് സമൂഹവുമായി കൂടുതൽ ആഴത്തിലുള്ള ആഴത്തിലുള്ള ചർച്ചകൾ നടത്താൻ ഞങ്ങൾ ആഗ്രഹിക്കുന്നു, ഇതിൽ ഈ ശ്രമങ്ങളെക്കുറിച്ചുള്ള വിദഗ്ദ്ധരുടെ അഭിപ്രായങ്ങളും ഉൾപ്പെടും, കൂടാതെ, ഭാവിയിൽ പൊതുജനങ്ങൾക്ക് ലഭ്യമാകുന്ന മോഡലുകളിൽ ഈ പുതിയ കഴിവുകൾ ലഭ്യമാക്കുന്നതിൽ ഞങ്ങൾ ആവേശഭരിതരാണ്.

2026

രചയിതാവ്

OpenAI

വായന തുടരുക

എല്ലാം കാണുക

രണ്ട് ക്രമീകരണങ്ങൾ പ്രവർത്തനക്ഷമമാക്കി ARC-AGI-3 സ്കോർ മൂന്നിരട്ടിയാക്കിയ വിധം

ഗവേഷണം2026 ജൂലൈ 29

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

കമ്പനി2026 ജൂലൈ 29

Scientific computing agentic AI card image (1x1)

ഏജന്റിക് AI യുഗത്തിലെ ശാസ്ത്രീയ കമ്പ്യൂട്ടിംഗ്

പ്രസിദ്ധീകരണം2026 ജൂലൈ 28