મુખ્ય વિષય-સામગ્રી પર જાવો
OpenAI

20 ફેબ્રુઆરી, 2026

સંશોધનનિષ્કર્ષ

અમારા First Proof સબમિશન્સ

અમે First Proof માટે અમારા પ્રૂફ પ્રયાસો શેર કરી રહ્યા છીએ, જે ગણિતીય પડકાર છે અને તપાસે છે કે AI ડોમેન-વિશિષ્ટ પ્રશ્નો પર ચકાસી શકાય એવા પ્રૂફ આપી શકે છે કે નહીં.

લોડિંગ…

અમે તમામ 10 First Proof(નવી વિન્ડોમાં ખૂલે છે) પ્રશ્નો પર એક આંતરિક મોડલ ચલાવ્યું, જે સંશોધન-સ્તરનો ગણિત પડકાર છે અને તપાસવા માટે રચાયેલ છે કે AI સિસ્ટમ્સ સાચા, ચકાસી શકાય એવા પ્રૂફ પ્રયત્નો આપી શકે છે કે નહીં. ટૂંકા-જવાબ અથવા સ્પર્ધાત્મક શૈલીના ગણિતથી ભિન્ન રીતે, આ પ્રશ્નોમાં વિશિષ્ટ ક્ષેત્રોમાં શરૂઆતથી અંત સુધીની દલીલો બાંધવાની જરૂર પડે છે, અને નિષ્ણાત સમીક્ષા વગર યોગ્યતા સ્થાપિત કરવી મુશ્કેલ છે. First Proof પ્રશ્નોના લેખકો તેમના પોતાના ક્ષેત્રોના અગ્રણી નિષ્ણાતો છે, અને ઓછામાં ઓછા બે પ્રશ્નો એવા હતા જે લેખકોને ઉકેલો મળ્યા પહેલાં વર્ષો સુધી ખુલ્લા રહ્યા હતા. વિષય વિસ્તારો સાથે નોંધપાત્ર ઓવરલેપ ધરાવતો કોઈ શૈક્ષણિક વિભાગ સંભવિત રીતે એક અઠવાડિયામાં આમાંથી ઘણા પ્રશ્નો ઉકેલી શકે.

અમે શનિવાર, 14 ફેબ્રુઆરી, 2026ના રોજ 12:00 AM PTએ અમારા પ્રૂફ પ્રયત્નો શેર કર્યા(નવી વિન્ડોમાં ખૂલે છે). નિષ્ણાતોના પ્રતિસાદના આધારે, અમને લાગે છે કે મોડલના ઓછામાં ઓછા પાંચ પ્રૂફ પ્રયત્નો (પ્રશ્ન 4, 5, 6, 9 અને 10) સાચા હોવાની ઊંચી સંભાવના ધરાવે છે, અને બીજા કેટલાક હજી સમીક્ષા હેઠળ છે. શરૂઆતમાં અમને લાગ્યું હતું કે પ્રશ્ન 2 માટેનો અમારો પ્રયાસ કદાચ સાચો હતો. અધિકૃત First Proof ટિપ્પણી અને સમુદાયના વધુ વિશ્લેષણના આધારે, હવે અમને લાગે છે કે તે ખોટો છે. અમે આ જોડાણ બદલ આભારી છીએ અને આગળની સમીક્ષાની રાહ જોઈ રહ્યા છીએ. અમારા પ્રૂફ પ્રયત્નોનો સંપૂર્ણ સેટ અહીં(નવી વિન્ડોમાં ખૂલે છે) મળી શકે છે. પ્રીપ્રિન્ટમાં તમામ દસ પ્રૂફ પ્રયત્નો છે, ઉપરાંત નવી ઉમેરાયેલી પરિશિષ્ટ પણ છે, જેમાં પ્રોમ્પ્ટ પેટર્ન્સ અને ઉદાહરણો છે જે પ્રક્રિયા દરમિયાન મોડલ્સ સાથેની અમારી મેન્યુઅલ ક્રિયાપ્રતિક્રિયાઓનું અનુસરણ કરવાનો પ્રયાસ કરે છે.

અમને લાગે છે કે નવીન અત્યાધુનિક સંશોધન કદાચ આગામી પેઢીના AI મોડલની ક્ષમતાઓનું મૂલ્યાંકન કરવાની સૌથી મહત્વપૂર્ણ રીત છે. બેન્ચમાર્ક્સ ઉપયોગી છે, પણ તેઓ સંશોધનના કેટલાક સૌથી મુશ્કેલ ભાગોને ચૂકી શકે છે: રિઝનિંગની લાંબી શ્રેણીઓ જાળવી રાખવી, યોગ્ય અમૂર્તતાઓ પસંદ કરવી, પ્રશ્ન નિવેદનોમાં રહેલી અસ્પષ્ટતા હેન્ડલ કરવી, અને નિષ્ણાતોની કડક તપાસમાં ટકી રહે તેવી દલીલો તૈયાર કરવી. First Proof જેવી અત્યાધુનિક પડકારો અમને આ ક્ષમતાઓને એવી પરિસ્થિતિઓમાં સ્ટ્રેસ-ટેસ્ટ કરવામાં મદદ કરે છે જ્યાં યોગ્યતા ચકાસવી સરળ નથી અને નિષ્ફળતાના પ્રકારો માહિતીપ્રદ હોય છે.

“અમે હાલમાં એક નવા મોડલને તાલીમ આપી રહ્યા છીએ, જેમાં મુખ્ય ધ્યાન તેના વિચારમાં કડકતાનું સ્તર વધારવા પર છે, એ હેતુ સાથે કે મોડલ સતત ઘણા કલાકો સુધી વિચારી શકે અને તેના નિષ્કર્ષોમાં અત્યંત વિશ્વાસપૂર્ણ રહી શકે. જ્યારે First Proofના પ્રશ્નોની જાહેરાત થઈ, ત્યારે તે સંપૂર્ણ પરીક્ષણ માળખું લાગ્યું, તેથી મેં વીકએન્ડ દરમિયાન તેને અજમાવ્યો. તે પહેલેથી જ બે પ્રશ્નો (#9 અને #10) ઉકેલી શક્યું હતું. તાલીમ સાથે તે વધતી જતી રીતે વધુ સક્ષમ બનતું ગયું અને અંતે, અમારા અંદાજ મુજબ, ઓછામાં ઓછા વધુ ત્રણ ઉકેલી શક્યું. ખાસ કરીને જ્યારે તેણે #6 ઉકેલ્યો અને પછી બે દિવસ બાદ #4, ત્યારે અમને ખૂબ આનંદ થયો, કારણ કે તે પ્રશ્નો ઘણા અમને પરિચિત ક્ષેત્રોમાંથી હતા. દિવસ પ્રતિદિન કોઈ મોડલ સ્પષ્ટ રીતે વધુ સ્માર્ટ બનતું જોવું ખરેખર અદ્ભુત છે.”

– જેમ્સ આર. લી (OpenAI સંશોધક, Reasoning)

અમે મોડલને મર્યાદિત માનવીય દેખરેખ સાથે ચલાવ્યું. તાલીમ દરમિયાન મોડલના વર્ઝન્સને પ્રોમ્પ્ટ કરતી વખતે, અમે ક્યારેક અગાઉના પ્રયત્નોમાં ફળદાયી લાગેલી વ્યૂહરચનાઓ ફરી અજમાવવા સૂચવ્યું. કેટલીક કોશિશોમાં, નિષ્ણાત પ્રતિસાદ મળ્યા પછી અમે મોડલને પ્રૂફના કેટલાક ભાગો વિસ્તૃત કરવા અથવા સ્પષ્ટ કરવા કહ્યું, જેથી રિઝનિંગ ચકાસવું સરળ બને. અમે ચકાસણી, ફોર્મેટિંગ અને શૈલી માટે આ મોડલ અને ChatGPT વચ્ચે પાછું-આગળ પણ સુગમ બનાવ્યું. કેટલાક પ્રશ્નો માટે, અમે માનવીય નિર્ણય દ્વારા પસંદ કરાયેલા થોડા પ્રયત્નોમાંથી શ્રેષ્ઠ રજૂ કરીએ છીએ. આ ઝડપી દોડ હતી, અને યોગ્ય રીતે નિયંત્રિત મૂલ્યાંકનમાં જેવી ઇચ્છીએ એવી સ્વચ્છ અમારી પ્રક્રિયા નહોતી. ભવિષ્યના આવર્તનો માટે વધુ કડક પ્રયોગ અને મૂલ્યાંકન માળખા વિશે First Proof આયોજકો સાથે ચર્ચાની અમે રાહ જોયે છીએ.

આ કાર્ય ગણિત અને વિજ્ઞાનમાં અત્યાધુનિક রিজনিং মডেলના અગાઉના પરિણામો પર આધારિત છે. જુલાઈ 2025માં, અમે સામાન્ય હેતુના রিজনিং মডেল સાથે International Mathematical Olympiadમાં સુવર્ણ પદક-સ્તરની કામગીરી(નવી વિન્ડોમાં ખૂલે છે) હાંસલ કરી હતી (35/42 પોઇન્ટ્સ). નવેમ્બર 2025માં, અમે “GPT‑5 સાથે વિજ્ઞાનને ઝડપી બનાવવાના પ્રારંભિક પ્રયોગો” શેર કર્યા, જેમાં કેસ સ્ટડીઝનો સંગ્રહ હતો જ્યાં GPT‑5એ સંશોધકોને ગણિત, ભૌતિકશાસ્ત્ર, જીવવિજ્ઞાન અને અન્ય ક્ષેત્રોમાં ઠોસ પ્રગતિ કરવામાં મદદ કરી, સાથે જ અમે જોયેલી મર્યાદાઓ પણ દર્શાવી. અને તાજેતરમાં જ, અમે એક ભૌતિકશાસ્ત્ર સહકાર વિશે અહેવાલ આપ્યો, જેમાં GPT‑5.2એ ગ્લુઓન-એમ્પ્લિટ્યુડ સૂત્ર માટે એક સંભવિત અભિવ્યક્તિ પ્રસ્તાવિત કરી, જેને પછી આંતરિક મોડલ દ્વારા ઔપચારિક રીતે સાબિત કરવામાં આવી અને લેખકો દ્વારા ચકાસવામાં આવી.

સંશોધન-ગ્રેડ રિઝનિંગનું મૂલ્યાંકન કેવી રીતે કરવું તે અંગે સમુદાય સાથે વધુ ઊંડા જોડાણની અમે રાહ જોયે છીએ, જેમાં આ પ્રયત્નો પર નિષ્ણાત પ્રતિસાદનો સમાવેશ થાય છે, અને ભવિષ્યના જાહેર મોડલોમાં આ નવી ક્ષમતાઓ ઉપલબ્ધ કરાવવા માટે અમે ઉત્સાહિત છીએ.

લેખક

OpenAI