स्किप करके मेन कंटेंट पर जाऍं
OpenAI

हमारे First Proof सबमिशन

हम First Proof के लिए अपने प्रूफ़ प्रयास साझा कर रहे हैं, जो एक गणितीय चुनौती है और यह जाँचती है कि क्या AI डोमेन-विशिष्ट समस्याओं पर जाँचे जा सकने वाले प्रूफ़ तैयार कर सकता है.

लोड किया जा रहा है...

हमने सभी दस First Proo(एक नई विंडो में खुलेगा) समस्याओं पर एक आंतरिक मॉडल चलाया, जो एक शोध-स्तरीय गणितीय चुनौती है, जिसे यह परीक्षण करने के लिए डिज़ाइन किया गया है कि क्या AI सिस्टम सही, जाँचने योग्य प्रमाण प्रयास तैयार कर सकते हैं. शॉर्ट-आंसर या प्रतियोगिता-शैली के गणित के विपरीत, इन समस्याओं में विशेषीकृत क्षेत्रों में संपूर्ण तर्क तैयार करने की आवश्यकता होती है, और विशेषज्ञ समीक्षा के बिना सहीता स्थापित करना कठिन है. First Proof समस्याओं के लेखक अपने-अपने क्षेत्रों के अग्रणी विशेषज्ञ हैं, और कम से कम कुछ समस्याएँ लेखकों द्वारा समाधान खोजने से पहले वर्षों तक अनसुलझी रहीं. एक शैक्षणिक विभाग जो विषय क्षेत्रों के साथ पर्याप्त ओवरलैप रखता है, संभवतः एक सप्ताह में कई समस्याओं का समाधान कर सकता है.

हमने हमारे प्रमाण प्रयास साझा किए(एक नई विंडो में खुलेगा) शनिवार, 14 फरवरी, 2026 को 12:00 AM PT पर. विशेषज्ञों से मिले फीडबैक के आधार पर, हमारा मानना है कि मॉडल के कम से कम पाँच प्रूफ प्रयास (समस्याएँ 4, 5, 6, 9, और 10) सही होने की उच्च संभावना रखते हैं, और कई अन्य अभी भी समीक्षा के अधीन हैं. शुरुआत में हमें लगा कि समस्या दो के लिए हमारा प्रयास शायद सही था. आधिकारिक First Proof टिप्पणी और आगे के समुदाय विश्लेषण के आधार पर, अब हमें लगता है कि यह गलत है. हम सहभागिता के लिए आभारी हैं और आगे भी समीक्षा जारी रहने की उम्मीद करते हैं. हमारे सभी प्रूफ प्रयासों का पूरा सेट यहाँ(एक नई विंडो में खुलेगा) उपलब्ध है. प्रीप्रिंट में सभी दस प्रूफ प्रयास शामिल हैं, साथ ही एक नया जोड़ा गया परिशिष्ट भी है, जिसमें प्रॉम्प्ट पैटर्न और उदाहरण शामिल हैं, जो प्रक्रिया के दौरान मॉडलों के साथ हमारी मैनुअल इंटरैक्शन का अनुकरण करने का उद्देश्य रखते हैं.

हम मानते हैं कि नई अत्याधुनिक रिसर्च अगली पीढ़ी के AI मॉडल की क्षमताओं का मूल्यांकन करने का सबसे महत्वपूर्ण तरीका हो सकता है. बेंचमार्क उपयोगी होते हैं, लेकिन वे शोध के कुछ सबसे कठिन हिस्सों को नजरअंदाज कर सकते हैं: रीज़निंग की लंबी श्रृंखलाओं को बनाए रखना, सही अमूर्तताओं का चयन करना, समस्या विवरण में अस्पष्टता को संभालना, और ऐसे तर्क प्रस्तुत करना जो विशेषज्ञों की जांच में खरे उतरें. First Proof जैसी अत्याधुनिक चुनौतियाँ हमें उन सेटिंग्स में उन क्षमताओं का स्ट्रेस-टेस्ट करने में मदद करती हैं जहाँ शुद्धता को सत्यापित करना कठिन होता है और विफलता के तरीके जानकारीपूर्ण होते हैं.

“हम फिलहाल एक नए मॉडल को प्रशिक्षित कर रहे हैं, जिसका मुख्य उद्देश्य इसकी सोच में कठोरता के स्तर को बढ़ाना है, ताकि मॉडल कई घंटों तक लगातार सोच सके और अपने निष्कर्षों में अत्यधिक आत्मविश्वास बनाए रख सके. जब First Proof की समस्याओं की घोषणा की गई, तो यह एक आदर्श परीक्षण मंच जैसा लगा, इसलिए सप्ताहांत में मैंने इसे आज़माया. यह पहले ही दो समस्याओं (#9 और #10) को हल करने में सक्षम था. जैसे-जैसे यह प्रशिक्षण लेता गया, यह अधिक सक्षम होता गया, और अंततः—हमारे अनुमान में—कम से कम तीन और समस्याओं को हल कर लिया. हम विशेष रूप से खुश थे जब इसने #6 को हल किया और फिर, दो दिन बाद, #4 को, क्योंकि वे समस्याएँ ऐसे क्षेत्रों से थीं जो हममें से कई के लिए परिचित थीं. दिन-ब-दिन एक मॉडल को ठोस रूप से और ज़्यादा स्मार्ट होते देखना काफ़ी अविश्वसनीय है.”

– James R. Lee (OpenAI शोधकर्ता, रीज़निंग)

हमने सीमित मानव पर्यवेक्षण में मॉडल चलाया. प्रशिक्षण के दौरान मॉडल के संस्करणों को प्रॉम्प्ट करते समय, हम कभी-कभी उन पुनः प्रयास रणनीतियों का सुझाव देते थे जो पहले के प्रयासों में सफल प्रतीत हुई थीं. कुछ प्रयासों के लिए, विशेषज्ञ प्रतिक्रिया प्राप्त करने के बाद हमने मॉडल से प्रमाण के कुछ हिस्सों को विस्तार से बताने या स्पष्ट करने के लिए कहा, ताकि रीज़निंग को सत्यापित करना आसान हो सके. हमने सत्यापन, फ़ॉर्मैटिंग और शैली के लिए इस मॉडल और ChatGPT के बीच विचार-विमर्श को भी सुगम बनाया. कुछ समस्याओं के लिए, हम कुछ प्रयासों में से सर्वश्रेष्ठ प्रयास प्रस्तुत करते हैं, जिसे मानव निर्णय द्वारा चुना गया है. यह एक तेज़ स्प्रिंट था, और हमारी प्रक्रिया उतनी साफ़ नहीं थी जितनी हम एक सही तरीके से नियंत्रित मूल्यांकन में पसंद करते. हम भविष्य के संस्करणों के लिए अधिक कठोर प्रयोग और मूल्यांकन ढांचे पर First Proof आयोजकों के साथ चर्चा करने के लिए उत्सुक हैं.

यह कार्य गणित और विज्ञान में अत्याधुनिक रीज़निंग मॉडल के पहले के परिणामों पर आधारित है. जुलाई 2025 में, हमने एक सामान्य-उद्देश्य रीज़निंग मॉडल (35/42 अंक) के साथ इंटरनेशनल मैथेमैटिकल ओलंपियाड में स्वर्ण पदक स्तर का प्रदर्शन(एक नई विंडो में खुलेगा) प्राप्त किया. नवंबर 2025 में, हमने “GPT‑5 के साथ विज्ञान में तेजी लाने के प्रारंभिक प्रयोग” साझा किए, जो केस स्टडीज़ का एक सेट है, जिसमें GPT‑5 ने शोधकर्ताओं को गणित, भौतिकी, जीवविज्ञान और अन्य क्षेत्रों में ठोस प्रगति करने में मदद की, साथ ही उन सीमाओं का भी उल्लेख किया जिन्हें हमने देखा. और सबसे हाल ही में, हमने एक भौतिकी सहयोग की रिपोर्ट की, जिसमें GPT‑5.2 ने एक ग्लूऑन-एम्प्लीट्यूड सूत्र के लिए एक उम्मीदवार अभिव्यक्ति प्रस्तावित की, जिसे बाद में एक आंतरिक मॉडल द्वारा औपचारिक रूप से सिद्ध किया गया और लेखकों द्वारा सत्यापित किया गया.

हम समुदाय के साथ रिसर्च-ग्रेड रीज़निंग का मूल्यांकन कैसे किया जाए, इस पर गहन जुड़ाव की प्रतीक्षा कर रहे हैं, जिसमें इन प्रयासों पर विशेषज्ञों की प्रतिक्रिया भी शामिल है, और हम इन नई क्षमताओं को भविष्य के सार्वजनिक मॉडलों में उपलब्ध कराने के लिए उत्साहित हैं.

लेखक

OpenAI