20 ફેબ્રુઆરી, 2026

અમારા First Proof સબમિશન્સ

અમે First Proof માટે અમારા પ્રૂફ પ્રયાસો શેર કરી રહ્યા છીએ, જે ગણિતીય પડકાર છે અને તપાસે છે કે AI ડોમેન-વિશિષ્ટ પ્રશ્નો પર ચકાસી શકાય એવા પ્રૂફ આપી શકે છે કે નહીં.

અમારા પ્રૂફ પ્રયત્નોનો સેટ જુઓ

લોડિંગ…

અમે તમામ 10 First Proof⁠(નવી વિન્ડોમાં ખૂલે છે) પ્રશ્નો પર એક આંતરિક મોડલ ચલાવ્યું, જે સંશોધન-સ્તરનો ગણિત પડકાર છે અને તપાસવા માટે રચાયેલ છે કે AI સિસ્ટમ્સ સાચા, ચકાસી શકાય એવા પ્રૂફ પ્રયત્નો આપી શકે છે કે નહીં. ટૂંકા-જવાબ અથવા સ્પર્ધાત્મક શૈલીના ગણિતથી ભિન્ન રીતે, આ પ્રશ્નોમાં વિશિષ્ટ ક્ષેત્રોમાં શરૂઆતથી અંત સુધીની દલીલો બાંધવાની જરૂર પડે છે, અને નિષ્ણાત સમીક્ષા વગર યોગ્યતા સ્થાપિત કરવી મુશ્કેલ છે. First Proof પ્રશ્નોના લેખકો તેમના પોતાના ક્ષેત્રોના અગ્રણી નિષ્ણાતો છે, અને ઓછામાં ઓછા બે પ્રશ્નો એવા હતા જે લેખકોને ઉકેલો મળ્યા પહેલાં વર્ષો સુધી ખુલ્લા રહ્યા હતા. વિષય વિસ્તારો સાથે નોંધપાત્ર ઓવરલેપ ધરાવતો કોઈ શૈક્ષણિક વિભાગ સંભવિત રીતે એક અઠવાડિયામાં આમાંથી ઘણા પ્રશ્નો ઉકેલી શકે.

અમે શનિવાર, 14 ફેબ્રુઆરી, 2026ના રોજ 12:00 AM PTએ અમારા પ્રૂફ પ્રયત્નો શેર કર્યા⁠(નવી વિન્ડોમાં ખૂલે છે). નિષ્ણાતોના પ્રતિસાદના આધારે, અમને લાગે છે કે મોડલના ઓછામાં ઓછા પાંચ પ્રૂફ પ્રયત્નો (પ્રશ્ન 4, 5, 6, 9 અને 10) સાચા હોવાની ઊંચી સંભાવના ધરાવે છે, અને બીજા કેટલાક હજી સમીક્ષા હેઠળ છે. શરૂઆતમાં અમને લાગ્યું હતું કે પ્રશ્ન 2 માટેનો અમારો પ્રયાસ કદાચ સાચો હતો. અધિકૃત First Proof ટિપ્પણી અને સમુદાયના વધુ વિશ્લેષણના આધારે, હવે અમને લાગે છે કે તે ખોટો છે. અમે આ જોડાણ બદલ આભારી છીએ અને આગળની સમીક્ષાની રાહ જોઈ રહ્યા છીએ. અમારા પ્રૂફ પ્રયત્નોનો સંપૂર્ણ સેટ અહીં⁠(નવી વિન્ડોમાં ખૂલે છે) મળી શકે છે. પ્રીપ્રિન્ટમાં તમામ દસ પ્રૂફ પ્રયત્નો છે, ઉપરાંત નવી ઉમેરાયેલી પરિશિષ્ટ પણ છે, જેમાં પ્રોમ્પ્ટ પેટર્ન્સ અને ઉદાહરણો છે જે પ્રક્રિયા દરમિયાન મોડલ્સ સાથેની અમારી મેન્યુઅલ ક્રિયાપ્રતિક્રિયાઓનું અનુસરણ કરવાનો પ્રયાસ કરે છે.

અમને લાગે છે કે નવીન અત્યાધુનિક સંશોધન કદાચ આગામી પેઢીના AI મોડલની ક્ષમતાઓનું મૂલ્યાંકન કરવાની સૌથી મહત્વપૂર્ણ રીત છે. બેન્ચમાર્ક્સ ઉપયોગી છે, પણ તેઓ સંશોધનના કેટલાક સૌથી મુશ્કેલ ભાગોને ચૂકી શકે છે: રિઝનિંગની લાંબી શ્રેણીઓ જાળવી રાખવી, યોગ્ય અમૂર્તતાઓ પસંદ કરવી, પ્રશ્ન નિવેદનોમાં રહેલી અસ્પષ્ટતા હેન્ડલ કરવી, અને નિષ્ણાતોની કડક તપાસમાં ટકી રહે તેવી દલીલો તૈયાર કરવી. First Proof જેવી અત્યાધુનિક પડકારો અમને આ ક્ષમતાઓને એવી પરિસ્થિતિઓમાં સ્ટ્રેસ-ટેસ્ટ કરવામાં મદદ કરે છે જ્યાં યોગ્યતા ચકાસવી સરળ નથી અને નિષ્ફળતાના પ્રકારો માહિતીપ્રદ હોય છે.

“અમે હાલમાં એક નવા મોડલને તાલીમ આપી રહ્યા છીએ, જેમાં મુખ્ય ધ્યાન તેના વિચારમાં કડકતાનું સ્તર વધારવા પર છે, એ હેતુ સાથે કે મોડલ સતત ઘણા કલાકો સુધી વિચારી શકે અને તેના નિષ્કર્ષોમાં અત્યંત વિશ્વાસપૂર્ણ રહી શકે. જ્યારે First Proofના પ્રશ્નોની જાહેરાત થઈ, ત્યારે તે સંપૂર્ણ પરીક્ષણ માળખું લાગ્યું, તેથી મેં વીકએન્ડ દરમિયાન તેને અજમાવ્યો. તે પહેલેથી જ બે પ્રશ્નો (#9 અને #10) ઉકેલી શક્યું હતું. તાલીમ સાથે તે વધતી જતી રીતે વધુ સક્ષમ બનતું ગયું અને અંતે, અમારા અંદાજ મુજબ, ઓછામાં ઓછા વધુ ત્રણ ઉકેલી શક્યું. ખાસ કરીને જ્યારે તેણે #6 ઉકેલ્યો અને પછી બે દિવસ બાદ #4, ત્યારે અમને ખૂબ આનંદ થયો, કારણ કે તે પ્રશ્નો ઘણા અમને પરિચિત ક્ષેત્રોમાંથી હતા. દિવસ પ્રતિદિન કોઈ મોડલ સ્પષ્ટ રીતે વધુ સ્માર્ટ બનતું જોવું ખરેખર અદ્ભુત છે.”

– જેમ્સ આર. લી (OpenAI સંશોધક, Reasoning)

અમે મોડલને મર્યાદિત માનવીય દેખરેખ સાથે ચલાવ્યું. તાલીમ દરમિયાન મોડલના વર્ઝન્સને પ્રોમ્પ્ટ કરતી વખતે, અમે ક્યારેક અગાઉના પ્રયત્નોમાં ફળદાયી લાગેલી વ્યૂહરચનાઓ ફરી અજમાવવા સૂચવ્યું. કેટલીક કોશિશોમાં, નિષ્ણાત પ્રતિસાદ મળ્યા પછી અમે મોડલને પ્રૂફના કેટલાક ભાગો વિસ્તૃત કરવા અથવા સ્પષ્ટ કરવા કહ્યું, જેથી રિઝનિંગ ચકાસવું સરળ બને. અમે ચકાસણી, ફોર્મેટિંગ અને શૈલી માટે આ મોડલ અને ChatGPT વચ્ચે પાછું-આગળ પણ સુગમ બનાવ્યું. કેટલાક પ્રશ્નો માટે, અમે માનવીય નિર્ણય દ્વારા પસંદ કરાયેલા થોડા પ્રયત્નોમાંથી શ્રેષ્ઠ રજૂ કરીએ છીએ. આ ઝડપી દોડ હતી, અને યોગ્ય રીતે નિયંત્રિત મૂલ્યાંકનમાં જેવી ઇચ્છીએ એવી સ્વચ્છ અમારી પ્રક્રિયા નહોતી. ભવિષ્યના આવર્તનો માટે વધુ કડક પ્રયોગ અને મૂલ્યાંકન માળખા વિશે First Proof આયોજકો સાથે ચર્ચાની અમે રાહ જોયે છીએ.

આ કાર્ય ગણિત અને વિજ્ઞાનમાં અત્યાધુનિક রিজনিং মডেলના અગાઉના પરિણામો પર આધારિત છે. જુલાઈ 2025માં, અમે સામાન્ય હેતુના রিজনিং মডেল સાથે International Mathematical Olympiadમાં સુવર્ણ પદક-સ્તરની કામગીરી⁠(નવી વિન્ડોમાં ખૂલે છે) હાંસલ કરી હતી (35/42 પોઇન્ટ્સ). નવેમ્બર 2025માં, અમે “GPT‑5 સાથે વિજ્ઞાનને ઝડપી બનાવવાના પ્રારંભિક પ્રયોગો” શેર કર્યા, જેમાં કેસ સ્ટડીઝનો સંગ્રહ હતો જ્યાં GPT‑5એ સંશોધકોને ગણિત, ભૌતિકશાસ્ત્ર, જીવવિજ્ઞાન અને અન્ય ક્ષેત્રોમાં ઠોસ પ્રગતિ કરવામાં મદદ કરી, સાથે જ અમે જોયેલી મર્યાદાઓ પણ દર્શાવી. અને તાજેતરમાં જ, અમે એક ભૌતિકશાસ્ત્ર સહકાર વિશે અહેવાલ આપ્યો, જેમાં GPT‑5.2એ ગ્લુઓન-એમ્પ્લિટ્યુડ સૂત્ર માટે એક સંભવિત અભિવ્યક્તિ પ્રસ્તાવિત કરી, જેને પછી આંતરિક મોડલ દ્વારા ઔપચારિક રીતે સાબિત કરવામાં આવી અને લેખકો દ્વારા ચકાસવામાં આવી.

સંશોધન-ગ્રેડ રિઝનિંગનું મૂલ્યાંકન કેવી રીતે કરવું તે અંગે સમુદાય સાથે વધુ ઊંડા જોડાણની અમે રાહ જોયે છીએ, જેમાં આ પ્રયત્નો પર નિષ્ણાત પ્રતિસાદનો સમાવેશ થાય છે, અને ભવિષ્યના જાહેર મોડલોમાં આ નવી ક્ષમતાઓ ઉપલબ્ધ કરાવવા માટે અમે ઉત્સાહિત છીએ.

2026

લેખક

OpenAI

વાંચતા રહો

બધું જુઓ

બે સેટિંગ ચાલુ કરવાથી ARC-AGI-3 માપદંડ પર અમારા ગુણ ત્રણ ગણા કેવી રીતે થયા

સંશોધન29 જુલાઈ, 2026

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

કંપની29 જુલાઈ, 2026

Scientific computing agentic AI card image (1x1)

એજન્ટિક AIના યુગમાં વૈજ્ઞાનિક કમ્પ્યુટિંગ

પ્રકાશન28 જુલાઈ, 2026