ഞങ്ങളുടെ ആദ്യ തെളിവ് സമർപ്പണങ്ങൾ
ഡൊമെയ്ൻ-നിർദ്ദിഷ്ട പ്രശ്നങ്ങളിൽ പരിശോധിക്കാവുന്ന തെളിവുകൾ AI സൃഷ്ടിക്കുമോ എന്ന് പരിശോധിക്കുന്ന ഗണിതശാസ്ത്ര വെല്ലുവിളിയായ ഫസ്റ്റ് പ്രൂഫിനായി ഞങ്ങൾ നടത്തിയ ശ്രമങ്ങൾ പങ്കുവെക്കുന്നു.
ഞങ്ങൾ എല്ലാ 10 ഫസ്റ്റ് പ്രൂഫിലെ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) പ്രശ്നങ്ങളിലുമൊരു ആന്തരിക മോഡൽ പ്രവർത്തിപ്പിച്ചു, AI സംവിധാനങ്ങൾക്ക് ശരിയായതും പരിശോധിക്കാവുന്നതുമായ തെളിവുകൾ നിർമ്മിക്കാൻ കഴിയുമോ എന്ന് പരിശോധിക്കാൻ രൂപകൽപ്പന ചെയ്ത ഗവേഷണ നിലവാരത്തിലുള്ള ഗണിതശാസ്ത്ര വെല്ലുവിളിയാണിത്. ചുരുക്ക-ഉത്തരമോ മത്സര ശൈലിയിലുള്ളതോ ആയ ഗണിതശാസ്ത്രത്തിൽ നിന്ന് വ്യത്യസ്തമായി ഈ പ്രശ്നങ്ങൾക്ക് പ്രത്യേക മേഖലകളിൽ സമഗ്രമായ വാദഗതികൾ കെട്ടിപ്പടുക്കേണ്ടതുണ്ട്, കൂടാതെ വിദഗ്ദ്ധ പരിശോധനയില്ലാതെ കൃത്യത ഉറപ്പാക്കുക പ്രയാസകരവുമാണ്. ഫസ്റ്റ് പ്രൂഫ് പ്രശ്നങ്ങളുടെ രചയിതാക്കൾ അവരുടെ തത്തുല്യ മേഖലകളിലെ മുൻനിര വിദഗ്ദ്ധരാണ്, അതിലെ ചില പ്രശ്നങ്ങൾക്ക് പരിഹാരം കണ്ടെത്താൻ രചയിതാക്കൾക്ക് പോലും വർഷങ്ങളോളം കാത്തിരിക്കേണ്ടി വന്നിട്ടുണ്ട്. ഈ വിഷയങ്ങളുമായി അടുത്ത ബന്ധമുള്ള ഒരു അക്കാദമിക് വകുപ്പിന് ഒരാഴ്ചയ്ക്കുള്ളിൽ പല പ്രശ്നങ്ങളും പരിഹരിക്കാൻ സാധിച്ചേക്കാം.
ഞങ്ങളുടെ തെളിവ് ശ്രമങ്ങൾ 2026 ഫെബ്രുവരി 14 ശനിയാഴ്ച, 12:00 AM PT-ന് ഞങ്ങൾ പങ്കിട്ടു(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) . വിദഗ്ധരുടെ ഫീഡ്ബാക്കിനെ അടിസ്ഥാനമാക്കി, മോഡലിന്റെ തെളിവ് ശ്രമങ്ങളിൽ (പ്രശ്നങ്ങൾ 4, 5, 6, 9, 10) കുറഞ്ഞത് അഞ്ചെണ്ണം ശരിയായിരിക്കാനുള്ള ഉയർന്ന സാധ്യതയുണ്ടെന്ന് ഞങ്ങൾ വിശ്വസിക്കുന്നു, കൂടാതെ മറ്റു ചിലത് ഇപ്പോഴും അവലോകനത്തിലാണ്. പ്രശ്നം 2-നുള്ള ഞങ്ങളുടെ ശ്രമം ശരിയാകാനാണ് സാധ്യതയെന്ന് ഞങ്ങൾ ആദ്യം വിശ്വസിച്ചിരുന്നു. ഫസ്റ്റ് പ്രൂഫിന്റെ ഔദ്യോഗിക വ്യാഖ്യാനങ്ങളും തുടർന്ന് നടന്ന കമ്മ്യൂണിറ്റി വിശകലനങ്ങളും അടിസ്ഥാനമാക്കി, ഇത് തെറ്റാണെന്ന് ഇപ്പോൾ ഞങ്ങൾ വിശ്വസിക്കുന്നു. ഇടപെടലിന് ഞങ്ങൾ നന്ദിയുള്ളവരാണ്, കൂടാതെ തുടർന്നുള്ള അവലോകനങ്ങൾക്കായി ഞങ്ങൾ കാത്തിരിക്കുന്നു. ഞങ്ങളുടെ എല്ലാ തെളിവ് ശ്രമങ്ങളും ഇവിടെ(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കണ്ടെത്താവുന്നതാണ്. പ്രീപ്രിന്റിൽ പത്ത് തെളിവ് ശ്രമങ്ങളും, കൂടാതെ ഈ പ്രക്രിയയിലുടനീളം മോഡലുകളുമായി ഞങ്ങൾ നടത്തിയ ആശയവിനിമയങ്ങൾ അനുകരിക്കാൻ സഹായിക്കുന്ന പ്രോംപ്റ്റ് രീതികളും ഉദാഹരണങ്ങളും അടങ്ങിയ പുതുതായി ചേർത്ത ഒരു അനുബന്ധവും ഉൾപ്പെടുന്നു.
അടുത്ത തലമുറ AI മോഡലുകളുടെ കഴിവുകൾ വിലയിരുത്തുന്നതിനുള്ള ഏറ്റവും പ്രധാനപ്പെട്ട മാർഗം പുതുമയുള്ള അത്യാധുനിക ഗവേഷണമാണെന്ന് ഞങ്ങൾ വിശ്വസിക്കുന്നു. മാനദണ്ഡങ്ങൾ ഉപകാരപ്രദമാണ്, പക്ഷേ അവ ഗവേഷണത്തിലെ ഏറ്റവും പ്രയാസമുള്ള ചില ഭാഗങ്ങൾ പരിഗണിക്കാതെ വിട്ടുപോയേക്കാം: റീസണിംഗിന്റെ തുടർച്ചയായി നിലനിർത്തൽ, ശരിയായ ആശയങ്ങൾ തിരഞ്ഞെടുക്കൽ, പ്രശ്നങ്ങളിലെ അവ്യക്തതകൾ കൈകാര്യം ചെയ്യൽ, വിദഗ്ദ്ധ പരിശോധനയെ അതിജീവിക്കുന്ന വാദഗതികൾ അവതരിപ്പിക്കൽ. ശരിയാണോ എന്ന് പരിശോധിക്കാൻ എളുപ്പമല്ലാത്ത സാഹചര്യങ്ങളിലും പരാജയങ്ങൾ പോലും പുതിയ കാര്യങ്ങൾ പഠിപ്പിക്കുന്നതുമായ ഇടങ്ങളിൽ, ഇത്തരം കഴിവുകളെ പരീക്ഷിച്ചു നോക്കാൻ ഫസ്റ്റ് പ്രൂഫ് പോലുള്ള അത്യാധുനിക വെല്ലുവിളികൾ ഞങ്ങളെ സഹായിക്കുന്നു.
ചിന്താപരമായ കൃത്യത വർദ്ധിപ്പിക്കുന്നതിൽ പ്രധാന ശ്രദ്ധ നൽകിക്കൊണ്ട് ഞങ്ങൾ ഇപ്പോൾ ഒരു പുതിയ മോഡലിനെ പരിശീലിപ്പിച്ചുകൊണ്ടിരിക്കുകയാണ്, മണിക്കൂറുകളോളം തുടർച്ചയായി ചിന്തിക്കാനും, നിഗമനങ്ങളിൽ പൂർണ്ണ ആത്മവിശ്വാസം നിലനിർത്താനും മോഡലിന് സാധിക്കണം എന്നതാണ് ഇതിന്റെ ലക്ഷ്യം. ഫസ്റ്റ് പ്രൂഫ് പ്രശ്നങ്ങൾ പ്രഖ്യാപിക്കപ്പെട്ടപ്പോൾ, അത് പരീക്ഷിച്ചു നോക്കാൻ പറ്റിയതാണെന്ന് തോന്നി, അതിനാൽ വാരാന്ത്യത്തിൽ ഞാൻ അത് പരീക്ഷിച്ചു. ഇതിനകം തന്നെ അതിന് രണ്ട് പ്രശ്നങ്ങൾക്ക് (#9, #10) പരിഹാരം കാണാൻ സാധിച്ചു. പരിശീലനം പുരോഗമിക്കുന്തോറും, ക്രമേണ കൂടുതൽ കഴിവുള്ളതായി മാറി, ഒടുവിൽ–ഞങ്ങളുടെ കണക്കുകൂട്ടൽ പ്രകാരം–കുറഞ്ഞത് മൂന്നു പ്രശ്നങ്ങൾ കൂടി പരിഹരിക്കാൻ അതിന് സാധിച്ചു. പ്രത്യേകിച്ച്, അത് #6-ഉം രണ്ടു ദിവസത്തിന് ശേഷം #4-ഉം പരിഹരിച്ചപ്പോൾ ഞങ്ങൾക്ക് വലിയ സന്തോഷം തോന്നി, കാരണം ആ പ്രശ്നങ്ങൾ ഞങ്ങളിൽ പലർക്കും പരിചിതമായ മേഖലകളിൽ നിന്നുള്ളവയായിരുന്നു. ഒരു മോഡൽ ഓരോ ദിവസം കഴിയുന്തോറും പ്രകടമായ രീതിയിൽ ബുദ്ധിമാനാകുന്നത് കാണുന്നത് അത്ഭുതകരമാണ്.
– ജെയിംസ് ആർ. ലീ (OpenAI ഗവേഷകൻ, റീസണിംഗ്)
പരിമിതമായ മനുഷ്യ മേൽനോട്ടത്തിലാണ് ഞങ്ങൾ മോഡൽ പ്രവർത്തിപ്പിച്ചത്. പരിശീലനത്തിനിടയിൽ മോഡലിന്റെ പതിപ്പുകൾക്ക് നിർദ്ദേശങ്ങൾ നൽകിയപ്പോൾ, മുൻപത്തെ ശ്രമങ്ങളിൽ ഫലപ്രദമെന്ന് കണ്ട ചില രീതികൾ വീണ്ടും ശ്രമിക്കാൻ ഞങ്ങൾ ചിലപ്പോൾ നിർദ്ദേശിച്ചിരുന്നു. ചില ശ്രമങ്ങളിൽ, വിദഗ്ധരുടെ ഫീഡ്ബാക്ക് ലഭിച്ചതിന് ശേഷം, ഒരു തെളിവിന്റെ ഭാഗങ്ങൾ വിശദീകരിക്കാനോ വ്യക്തത വരുത്താനോ മോഡലിനോട് ആവശ്യപ്പെട്ടു, റീസണിംഗ് പരിശോധിക്കുന്നത് എളുപ്പമാക്കുന്നതിന് വേണ്ടിയായിരുന്നു ഇത്. പരിശോധന, ഫോർമാറ്റിംഗ്, ശൈലി എന്നിവയ്ക്കായി ഈ മോഡലും ChatGPT‑യും തമ്മിലുള്ള ആശയവിനിമയത്തിന് ഞങ്ങൾ സൗകര്യമൊരുക്കി. ചില പ്രശ്നങ്ങൾക്ക്, മനുഷ്യന്റെ വിവേചനബുദ്ധിയിലൂടെ തിരഞ്ഞെടുത്ത ഏതാനും ശ്രമങ്ങളിൽ വെച്ച് ഏറ്റവും മികച്ചത് ഞങ്ങൾ അവതരിപ്പിക്കുന്നു. ഇത് ഒരു വേഗത്തിലുള്ള പ്രവർത്തനമായിരുന്നു, കൂടാതെ ശരിയായി നിയന്ത്രിതമായ ഒരു വിലയിരുത്തലിൽ ഞങ്ങളുടെ പ്രക്രിയ ഞങ്ങൾ ആഗ്രഹിക്കുന്നത്ര വ്യക്തമായിരുന്നില്ല. ഭാവിയിലെ ആവർത്തനങ്ങൾക്കായി കൂടുതൽ കർശനമായ പരീക്ഷണ മൂല്യനിർണ്ണയ രീതികളെക്കുറിച്ച് ഫസ്റ്റ് പ്രൂഫ് സംഘാടകരുമായി ചർച്ചകൾ നടത്താൻ ഞങ്ങൾ ആഗ്രഹിക്കുന്നു.
ഈ പ്രവർത്തനം ഗണിതശാസ്ത്രത്തിലും ശാസ്ത്രത്തിലും അത്യാധുനിക റീസണിംഗ് മോഡലുകളിൽ നിന്നുള്ള മുൻകാല ഫലങ്ങളെ അടിസ്ഥാനമാക്കിയാണ്. 2025 ജൂലൈയിൽ, ഞങ്ങൾ ഒരു പൊതുവായ-ഉദ്ദേശ്യ റീസണിംഗ് മോഡൽ (35/42 പോയിന്റുകൾ) ഉപയോഗിച്ച് അന്താരാഷ്ട്ര മാത്തമാറ്റിക്കൽ ഒളിമ്പ്യാഡിൽ സ്വർണ്ണ മെഡൽ നിലവാരത്തിലുള്ള പ്രകടനം(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) കൈവരിച്ചു. 2025 നവംബറിൽ, ഞങ്ങൾ “GPT‑5 ഉപയോഗിച്ച് ശാസ്ത്ര ഗവേഷണം ത്വരിതപ്പെടുത്താനുള്ള പ്രാരംഭ പരീക്ഷണങ്ങൾ” എന്നത് പങ്കുവെച്ചു, ഇത് ഗണിതം, ഭൗതികശാസ്ത്രം, ജീവശാസ്ത്രം തുടങ്ങിയ വിവിധ മേഖലകളിൽ GPT‑5 ഗവേഷകർക്ക് പുരോഗതി കൈവരിക്കാൻ എങ്ങനെ സഹായിച്ചു എന്നതിനെക്കുറിച്ചും, ഒപ്പം ഞങ്ങൾ നിരീക്ഷിച്ച പരിമിതികളെക്കുറിച്ചും വിശദീകരിക്കുന്ന കേസ് പഠനങ്ങളും ഇതിൽ ഉൾപ്പെടുത്തിയിട്ടുണ്ട് . ഏറ്റവും ഒടുവിലായി, ഒരു ഭൗതികശാസ്ത്ര ഗവേഷണ സഹകരണത്തെക്കുറിച്ച് ഞങ്ങൾ റിപ്പോർട്ട് ചെയ്തു, അതിൽ ഗ്ലൂവോൺ-ആംപ്ലിറ്റ്യൂഡ് ഫോർമുലയ്ക്കായി GPT‑5.2 ഒരു സാധ്യതയുള്ള ഗണിതവാചകം നിർദ്ദേശിക്കുകയും അത് പിന്നീട് ഒരു ആന്തരിക മോഡൽ ഔദ്യോഗികമായി തെളിയിക്കുകയും ഗവേഷകർ ശരിയാണെന്ന് സ്ഥിരീകരിക്കുകയും ചെയ്തു.
ഗവേഷണ തലത്തിലുള്ള റീസണിംഗ് എങ്ങനെ വിലയിരുത്താം എന്നതിനെക്കുറിച്ച് സമൂഹവുമായി കൂടുതൽ ആഴത്തിലുള്ള ആഴത്തിലുള്ള ചർച്ചകൾ നടത്താൻ ഞങ്ങൾ ആഗ്രഹിക്കുന്നു, ഇതിൽ ഈ ശ്രമങ്ങളെക്കുറിച്ചുള്ള വിദഗ്ദ്ധരുടെ അഭിപ്രായങ്ങളും ഉൾപ്പെടും, കൂടാതെ, ഭാവിയിൽ പൊതുജനങ്ങൾക്ക് ലഭ്യമാകുന്ന മോഡലുകളിൽ ഈ പുതിയ കഴിവുകൾ ലഭ്യമാക്കുന്നതിൽ ഞങ്ങൾ ആവേശഭരിതരാണ്.


