முக்கிய உள்ளடக்கத்திற்கு செல்க
OpenAI

20 பிப்ரவரி, 2026

ஆராய்ச்சிமுடிவு

எங்கள் First Proof சமர்ப்பிப்புகள்

டொமைன் சார்ந்த சிக்கல்களில் AI சரிபார்க்கக்கூடிய ஆதாரங்களை உருவாக்க முடியுமா என்பதைச் சோதிக்கும் கணித சவாலான First Proof க்கான எங்கள் ஆதார முயற்சிகளைப் பகிர்ந்து கொள்கிறோம்.

ஏற்றுகிறது…

நாங்கள் 10 First Proof(புதிய சாளரத்தில் திறக்கும்) பிரச்சினைகளில் உள்ளக மாடலை இயக்கினோம், இது AI அமைப்புகள் சரியான, சரிபார்க்கக்கூடிய சான்று முயற்சிகளை உருவாக்க முடியுமா என்பதை சோதிக்க வடிவமைக்கப்பட்ட ஆராய்ச்சி-நிலை கணித சவால் ஆகும். குறுகிய பதில் அல்லது போட்டி பாணி கணிதத்திலிருந்து மாறாக, இந்தப் பிரச்சினைகள் சிறப்பு துறைகளில் தொடக்கம் முதல் முடிவு வரை வாதங்களை உருவாக்க வேண்டும், மேலும் நிபுணர் மதிப்பாய்வு இல்லாமல் சரியானதா என்பதை உறுதிப்படுத்துவது கடினம். First Proof பிரச்சினைகளின் ஆசிரியர்கள் அந்தந்த துறைகளில் முன்னணி நிபுணர்களாக உள்ளனர், மேலும் ஆசிரியர்கள் தீர்வுகளைக் கண்டறிவதற்கு முன்பு குறைந்தது சில சிக்கல்கள் பல ஆண்டுகளாகத் திறந்தே இருந்தன. பாடப் பகுதிகளுடன் கணிசமான ஒன்றுடன் ஒன்று மேற்பொருந்தும் ஒரு கல்வித் துறை, ஒரு வாரத்தில் பல சிக்கல்களைத் தீர்க்க முடியும்.

நாங்கள் சான்று முயற்சிகளை சனிக்கிழமை, பிப்ரவரி 14, 2026 அன்று காலை 12:00 PT இல் பகிர்ந்தோம்(புதிய சாளரத்தில் திறக்கும்). நிபுணர்களின் கருத்துக்களின் அடிப்படையில், மாடலின் நிரூபண முயற்சிகளில் குறைந்தது ஐந்து (பிரச்சினைகள் 4, 5, 6, 9, மற்றும் 10) சரியாக இருக்க அதிக வாய்ப்பு உள்ளது என்று நாங்கள் நம்புகிறோம், மேலும் பல இன்னும் மதிப்பாய்வில் உள்ளன. ஆரம்பத்தில், பிரச்சனை 2 க்கான எங்கள் முயற்சி சரியாக இருக்கக்கூடும் என்று நாங்கள் நம்பினோம். அதிகாரப்பூர்வ முதல் ஆதார வர்ணனை மற்றும் மேலும் சமூக பகுப்பாய்வின் அடிப்படையில், அது தவறு என்று நாங்கள் இப்போது நம்புகிறோம். இந்த ஈடுபாட்டிற்கு நாங்கள் நன்றியுள்ளவர்களாக இருக்கிறோம், மேலும் தொடர்ந்து மதிப்பாய்வு செய்ய ஆவலுடன் காத்திருக்கிறோம். எங்கள் சான்று முயற்சிகளின் முழு தொகுப்பை இங்கே(புதிய சாளரத்தில் திறக்கும்) காணலாம். ப்ரீபிரிண்ட் அனைத்து பத்து நிரூபண முயற்சிகளையும் உள்ளடக்கியுள்ளது, மேலும் செயல்முறையின் போது மாடல்களுடன் எங்களின் கைமுறை தொடர்புகளை ஒத்திகை செய்யும் ப்ராம்ப்ட் வடிவங்கள் மற்றும் உதாரணங்களுடன் புதிதாக சேர்க்கப்பட்ட ஒரு இணைப்பும் உள்ளது.

அடுத்த தலைமுறை AI மாடல்களின் திறன்களை மதிப்பீடு செய்வதற்கான மிக முக்கியமான வழி, புதுமையான அதிநவீன ஆராய்ச்சியே என்று நாங்கள் நம்புகிறோம். வரையறைகள் பயனுள்ளதாக இருக்கும், ஆனால் அவை ஆராய்ச்சியின் சில கடினமான பகுதிகளைத் தவறவிடக்கூடும்: நீண்ட ரீஸனிங் சங்கிலிகளைத் தக்கவைத்தல், சரியான சுருக்கங்களைத் தேர்ந்தெடுப்பது, சிக்கல் அறிக்கைகளில் தெளிவின்மையைக் கையாளுதல் மற்றும் நிபுணர் ஆய்வுக்குப் பிறகு தப்பிப்பிழைக்கும் வாதங்களை உருவாக்குதல். First Proof போன்ற அதிநவீன சவால்கள், சரியானதா என்பதைச் சரிபார்ப்பது கடினமான சூழல்களில் அந்த திறன்களை கடுமையாகச் சோதிக்க உதவுகின்றன; மேலும் தோல்வி நிகழும் விதங்கள் பயனுள்ள தகவல்களை வழங்குகின்றன.

“நாங்கள் தற்போது ஒரு புதிய மாடலை பயிற்றுவித்து வருகிறோம், இதில் அதன் சிந்தனையின் கடுமை நிலையை உயர்த்துவது முக்கியமானது, மேலும் மாடல் பல மணி நேரங்கள் தொடர்ந்து சிந்தித்து, அதன் முடிவுகளில் மிகுந்த நம்பிக்கையுடன் நிலைத்திருக்க வேண்டும் என்பதே இலக்கு. First Proof பிரச்சினைகள் அறிவிக்கப்பட்டபோது, அது சரியான சோதனை மேடையாகத் தோன்றியது, எனவே வார இறுதியில் நான் அதை முயற்சி செய்தேன். ஏற்கனவே அது இரண்டு பிரச்சினைகளை (#9 மற்றும் #10) தீர்க்க முடிந்தது. அது பயிற்சி பெற்றபோது, அது மேலும் திறன் பெற்றது, எங்கள் கணிப்பில், குறைந்தது மேலும் மூன்று பிரச்சினைகளை தீர்த்தது. #6-ஐ அது தீர்த்தபோது, பின்னர் இரண்டு நாட்களுக்குப் பிறகு #4-ஐயும் தீர்த்தபோது, எங்களில் பலருக்கும் பரிச்சயமான துறைகளிலிருந்து வந்த பிரச்சனைகள் என்பதால், நாங்கள் குறிப்பாக மகிழ்ந்தோம். "ஒரு மாடல் கண்கூடாக மேலும் புத்திசாலியாக நாளுக்கு நாள் மாறுவதைப் பார்ப்பது நிச்சயமாக அற்புதமாக இருக்கிறது.”

– James R. Lee (OpenAI ஆராய்ச்சியாளர், ரீஸனிங்)

நாங்கள் மனித மேற்பார்வை குறைவாகக் கொண்டு மாடலை இயக்கினோம். பயிற்சியின் போது மாடலின் பதிப்புகளைத் தூண்டும் போது, முந்தைய முயற்சிகளில் பலனளித்த உத்திகளை மீண்டும் முயற்சிக்க சில நேரங்களில் நாங்கள் பரிந்துரைத்தோம். சில முயற்சிகளுக்கு, நிபுணர்களின் கருத்துக்களைப் பெற்ற பிறகு, ரீஸனிங்கைச் சரிபார்ப்பதை எளிதாக்க, ஒரு சான்றின் பகுதிகளை விரிவுபடுத்த அல்லது தெளிவுபடுத்த மாடலைக் கேட்டோம். சரிபார்ப்பு, வடிவமைப்பு, மற்றும் பாணிக்காக, இந்த மாடல் மற்றும் ChatGPT இடையே பின்னோக்கி-முன்னோக்கி பரிமாற்றத்தை நாங்கள் எளிதாக்கினோம். சில பிரச்சினைகளுக்கு, மனிதர்களின் தீர்ப்பின் அடிப்படையில் தேர்ந்தெடுக்கப்பட்ட சில முயற்சிகளில் சிறந்ததை நாங்கள் வழங்குகிறோம். இது ஒரு வேகமான ஸ்பிரிண்ட் ஆக இருந்தது, மேலும் முறையாக கட்டுப்படுத்தப்பட்ட மதிப்பீட்டில் எங்கள் செயல்முறை நாங்கள் விரும்பிய அளவுக்கு சுத்தமாக இல்லை. எதிர்கால மறு செயல்பாடுகளுக்காக மேலும் கடுமையான பரிசோதனை மற்றும் மதிப்பீட்டு கட்டமைப்பைப் பற்றி First Proof அமைப்பாளர்களுடன் விவாதிக்க நாங்கள் ஆவலுடன் எதிர்பார்க்கிறோம்.

இந்த வேலை கணிதம் மற்றும் அறிவியலில் அதிநவீன ரீஸனிங் மாடல்களில் இருந்து கிடைத்த முந்தைய முடிவுகளை அடிப்படையாகக் கொண்டது. ஜூலை 2025 இல், பொதுப் பயன்பாட்டு ரீஸனிங் மாடல் (35/42 புள்ளிகள்) மூலம் சர்வதேச கணித ஒலிம்பியாடில் தங்கப் பதக்க நிலை செயல்திறனை(புதிய சாளரத்தில் திறக்கும்) எட்டினோம். 2025 நவம்பரில், கணிதம், இயற்பியல், உயிரியல் மற்றும் பிற துறைகளில் GPT‑5 ஆராய்ச்சியாளர்களுக்கு எவ்வாறு தெளிவான முன்னேற்றத்தை ஏற்படுத்த உதவியது என்பதையும், நாங்கள் கவனித்த வரம்புகளையும் உள்ளடக்கிய கேஸ் ஸ்டடீஸ்களின் தொகுப்பான “GPT‑5 ஐப் பயன்படுத்தி அறிவியலை வேகப்படுத்துவதற்கான ஆரம்பக்கட்ட ஆய்வுகள்” என்பதை பகிர்ந்தோம். மிக சமீபத்தில், ஒரு இயற்பியல் ஒத்துழைப்பை நாங்கள் அறிவித்தோம், அங்கு GPT‑5.2 ஒரு குளூயான்-அம்ப்பிளிடியூட் சூத்திரத்திற்கான தகுந்த வெளிப்பாட்டை முன்மொழிந்தது, அது பின்னர் ஒரு உள் மாடலால் முறையாக நிரூபிக்கப்பட்டு ஆசிரியர்களால் சரிபார்க்கப்பட்டது.

ஆராய்ச்சி தரத்திலான ரீஸனிங்கை மதிப்பீடு செய்வதில் சமூகத்துடன் ஆழமான தொடர்பை எதிர்பார்க்கிறோம், இதில் இந்த முயற்சிகளுக்கான நிபுணர் கருத்துக்களும் அடங்கும், மேலும் எதிர்கால பொது மாடல்களில் இந்த புதிய திறன்களை வழங்குவதில் நாங்கள் உற்சாகமாக இருக்கிறோம்.

ஆசிரியர்

OpenAI