२० फेब्रुवारी, २०२६

आमची पहिली प्रूफ सबमिशन्स

फर्स्ट प्रूफ साठी आम्ही आमचे पुरावे सिद्ध करण्याचे प्रयत्न शेअर करत आहोत, जे एक गणितीय आव्हान आहे ज्यामध्ये AI डोमेन-विशिष्ट समस्यांवर तपासता येणारे पुरावे तयार करू शकते का याची चाचणी केली जाते.

आमच्या पुरावा प्रयत्नांचा संच पहा

लोड होत आहे...

आम्ही सर्व दहा फर्स्ट प्रूफ⁠(नवीन विंडोमध्ये उघडेल) समस्यांवर एक अंतर्गत मॉडेल चालवले, जे AI प्रणाली योग्य, तपासता येण्याजोगे पुरावे तयार करू शकतात का हे तपासण्यासाठी डिझाइन केलेले संशोधन-स्तरीय गणितीय आव्हान आहे. लघु उत्तरांच्या किंवा स्पर्धात्मक शैलीतील गणिताप्रमाणे नव्हे, या समस्या विशिष्ट क्षेत्रांमध्ये संपूर्ण तर्क रचण्याची मागणी करतात, आणि तज्ज्ञ पुनरावलोकनाशिवाय त्यांची बरोबरी सिद्ध करणे कठीण असते. फर्स्ट प्रूफ समस्यांचे लेखक त्यांच्या क्षेत्रातील अग्रणी तज्ज्ञ आहेत, आणि लेखकांना उपाय सापडण्यापूर्वी किमान दोन समस्या अनेक वर्षे अनुत्तरित होत्या. ज्या शैक्षणिक विभागाचे विषय क्षेत्रांशी लक्षणीय प्रमाणात ओव्हरलॅप आहे, तो विभाग एका आठवड्यात अनेक समस्या सोडवू शकतो.

आम्ही आमचे पुरावा प्रयत्न⁠(नवीन विंडोमध्ये उघडेल) शनिवार, 14 फेब्रुवारी, 2026 रोजी 12:00 AM PT ला शेअर केले. तज्ज्ञांकडून मिळालेल्या अभिप्रायाच्या आधारे, आम्हाला वाटते की मॉडेलच्या किमान पाच पुरावा प्रयत्नांपैकी (समस्या चार, पाच, सहा, नऊ, आणि दहा) बरोबर असण्याची शक्यता जास्त आहे, आणि इतर काही अजूनही पुनरावलोकनाधीन आहेत. आम्हाला सुरुवातीला असे वाटले की समस्या दोन साठीचा आमचा प्रयत्न बहुधा बरोबर होता. अधिकृत फर्स्ट प्रूफ भाष्य आणि पुढील समुदाय विश्लेषणाच्या आधारे, आता आम्हाला असे वाटते की हे चुकीचे आहे. आम्ही सहभागाबद्दल आभारी आहोत आणि पुढील पुनरावलोकनाची उत्सुकतेने वाट पाहत आहोत. आमच्या पुरावा प्रयत्नांचा संपूर्ण संच येथे⁠(नवीन विंडोमध्ये उघडेल) आढळू शकतो. प्रीप्रिंटमध्ये सर्व दहा पुरावा प्रयत्न समाविष्ट आहेत, तसेच प्रक्रियेदरम्यान मॉडेल्ससोबतच्या आमच्या मॅन्युअल परस्परसंवादांचे अनुकरण करण्यासाठी प्रॉम्प्ट पॅटर्न्स आणि उदाहरणांसह नव्याने जोडलेला एक परिशिष्ट आहे.

आम्हाला विश्वास आहे की नवीन अत्याधुनिक संशोधन हे पुढील पिढीच्या AI मॉडेल्सच्या क्षमतांचे मूल्यमापन करण्याचा कदाचित सर्वात महत्त्वाचा मार्ग आहे. बेंचमार्क उपयुक्त असतात, परंतु ते संशोधनातील काही सर्वात कठीण भाग गमावू शकतात: रीझनिंगच्या दीर्घ साखळ्या टिकवणे, योग्य संकल्पना निवडणे, समस्या विधानांमधील अस्पष्टता हाताळणे, आणि तज्ज्ञांच्या तपासणीला तोंड देऊ शकतील असे युक्तिवाद तयार करणे. फर्स्ट प्रूफ सारखी अत्याधुनिक आव्हाने आपल्याला त्या क्षमतांची स्ट्रेस-टेस्ट करण्यास मदत करतात, अशा परिस्थितींमध्ये जिथे अचूकता पडताळणे अवघड असते आणि अपयशाचे प्रकार माहितीपूर्ण ठरतात.

“आम्ही सध्या एका नवीन मॉडेलचे प्रशिक्षण देत आहोत, ज्याचे प्राथमिक लक्ष त्याच्या विचारातील काटेकोरपणा वाढविण्यावर आहे, ज्यामुळे हे मॉडेल अनेक तास अखंडपणे विचार करू शकेल आणि आपल्या निष्कर्षांबद्दल अत्यंत आत्मविश्वास बाळगेल. जेव्हा फर्स्ट प्रूफ समस्या जाहीर झाल्या, तेव्हा ती एक परिपूर्ण चाचणीमंच वाटली, म्हणून मी विकेंडमध्ये ती वापरून पाहिली. आधीच ते दोन समस्या (क्रमांक 9 आणि 10) सोडवू शकले होते. जसजसे ते प्रशिक्षण घेत होते, तसतसे ते अधिकाधिक सक्षम होत गेले, आणि शेवटी–आमच्या मते–किमान आणखी तीन समस्यांचे निराकरण केले. जेव्हा त्याने #6 सोडवले आणि मग, दोन दिवसांनी, #4 सोडवले, आम्हाला विशेषतः आनंद झाला, कारण त्या समस्या आमच्यापैकी अनेकांना परिचित असलेल्या क्षेत्रांमधील होत्या. "दररोज एक मॉडेल ठोसपणे अधिक हुशार होताना पाहणे खरोखरच आश्चर्यकारक आहे.”

– जेम्स आर. ली (OpenAI संशोधक, रीझनिंग)

आम्ही मर्यादित मानवी देखरेखीखाली मॉडेल चालवले. प्रशिक्षणादरम्यान मॉडेलच्या आवृत्त्यांना प्रॉम्प्ट करताना, आम्ही कधीकधी आधीच्या प्रयत्नांमध्ये यशस्वी ठरलेल्या पुन्हा प्रयत्न करण्याच्या रणनीती सुचवल्या. काही प्रयत्नांसाठी, तज्ज्ञांकडून फीडबॅक मिळाल्यानंतर आम्ही मॉडेलला पुराव्याचे काही भाग विस्तृत किंवा स्पष्ट करण्यास सांगितले, जेणेकरून रीझनिंगची पडताळणी करणे सोपे होईल. आम्ही सत्यापन, फॉरमॅटिंग, आणि शैलीसाठी या मॉडेल आणि ChatGPT यांच्यात परस्पर संवाद सुलभ केला. काही समस्यांसाठी, आम्ही मानवी निर्णयाने निवडलेल्या काही प्रयत्नांमधून सर्वोत्तम सादर करतो. हा एक जलद स्प्रिंट होता, आणि योग्यरित्या नियंत्रित मूल्यांकनामध्ये आमची प्रक्रिया जशी अपेक्षित होती तितकी स्वच्छ नव्हती. भविष्यातील आवृत्त्यांसाठी अधिक कठोर प्रयोग आणि मूल्यांकन फ्रेमवर्कबाबत फर्स्ट प्रूफ आयोजकांसोबत चर्चा करण्याची आम्ही अपेक्षा करतो.

हे कार्य गणित आणि विज्ञानातील अत्याधुनिक रीझनिंग मॉडेल्समधील आधीच्या परिणामांवर आधारित आहे. जुलै 2025 मध्ये, आम्ही एक सर्वसाधारण-उद्देश रीझनिंग मॉडेल (35/42 गुण) वापरून आंतरराष्ट्रीय गणित ऑलिंपियाडमध्ये सुवर्णपदक-स्तरीय कामगिरी⁠(नवीन विंडोमध्ये उघडेल) साध्य केली. नोव्हेंबर 2025 मध्ये, आम्ही “GPT‑5 सह विज्ञानाला गती देण्यासाठी प्रारंभिक प्रयोग” शेअर केले, ज्यामध्ये GPT‑5 ने संशोधकांना गणित, भौतिकशास्त्र, जीवशास्त्र आणि इतर क्षेत्रांमध्ये ठोस प्रगती करण्यास मदत केली, तसेच आम्ही निरीक्षण केलेल्या मर्यादांचा समावेश होता. आणि अगदी अलीकडेच, आम्ही एक भौतिकशास्त्र सहकार्य नोंदवले, जिथे GPT‑5.2 ने ग्लूऑन-ॲम्प्लिट्यूड सूत्रासाठी एक उमेदवार अभिव्यक्ती प्रस्तावित केली होती, जी नंतर अंतर्गत मॉडेलने औपचारिकरीत्या सिद्ध केली आणि लेखकांनी पडताळली.

आम्ही समुदायासोबत संशोधन-स्तरीय रीझनिंगचे मूल्यांकन कसे करावे यावर अधिक सखोल सहभाग घेण्यास उत्सुक आहोत, ज्यामध्ये या प्रयत्नांवर तज्ञांचा अभिप्राय समाविष्ट आहे. भविष्यातील सार्वजनिक मॉडेल्समध्ये या नवीन क्षमता उपलब्ध करून देण्यासाठी आम्ही उत्साहित आहोत.

2026

लेखक

OpenAI

वाचत राहा

सर्व पहा

दोन सेटिंग्स सक्षम केल्याने ARC-AGI-3 बेंचमार्कवर आमचे स्कोअर कसे तिप्पट झाले

रिसर्च२९ जुलै, २०२६

oai Science Academic Research Academic Research 1x1

शैक्षणिक संशोधकांसाठी ChatGPT द्वारे वैज्ञानिक शोधांना गती

कंपनी२९ जुलै, २०२६

Scientific computing agentic AI card image (1x1)

एजंटिक AI च्या युगातील वैज्ञानिक संगणन

प्रकाशन२८ जुलै, २०२६