మా ఫస్ట్ ప్రూఫ్ సబ్మిషన్లు
డొమైన్-నిర్దిష్ట సమస్యలపై AI తనిఖీ చేయగల రుజువులను ఉత్పత్తి చేయగలదా అని పరీక్షించే గణిత సవాలు అయిన ఫస్ట్ ప్రూఫ్ కోసం మా ప్రూఫ్ ప్రయత్నాలను మేం పంచుకుంటున్నాం.
మేం 10 ఫస్ట్ ప్రూఫ్(కొత్త విండోలో తెరుచుకుంటుంది) సమస్యలన్నింటిపై ఒక అంతర్గత మోడల్ను రన్ చేశాం, ఇది AI సిస్టమ్లు సరైన, తనిఖీ చేయగల రుజువు ప్రయత్నాలను ఉత్పత్తి చేయగలవా అని పరీక్షించడానికి రూపొందించిన పరిశోధన-స్థాయి గణిత సవాలు. చిన్న-సమాధాన లేదా పోటీ-శైలి గణితంతో పోలిస్తే, ఈ సమస్యలు ప్రత్యేక డొమైన్లలో సమగ్ర వాదనలను నిర్మించాల్సి ఉంటుంది, మరియు నిపుణుల సమీక్ష లేకుండా సరైనతను నిర్ధారించడం కష్టం. ఫస్ట్ ప్రూఫ్ సమస్యల రచయితలు తమ రంగాల్లో ప్రముఖ నిపుణులు, మరియు కనీసం కొన్ని సమస్యలు రచయితలు పరిష్కారాలను కనుగొనడానికి ముందు సంవత్సరాల పాటు పరిష్కారం లేకుండా ఉండేవి. విషయ రంగాలతో గణనీయమైన ఓవర్ల్యాప్ ఉన్న ఒక అకాడెమిక్ విభాగం అనేక సమస్యలను ఒక వారం లోపల పరిష్కరించగలదని ఊహించవచ్చు.
మేం మా ప్రూఫ్ ప్రయత్నాలను శనివారం, 14 ఫిబ్రవరి, 2026 నాడు 12:00 AM PT నాడు పంచుకున్నాం(కొత్త విండోలో తెరుచుకుంటుంది) . నిపుణుల అభిప్రాయం ప్రకారం, మోడల్ యొక్క ప్రూఫ్ ప్రయత్నాలలో కనీసం ఐదు (సమస్యలు 4, 5, 6, 9, మరియు 10) సరైనవిగా ఉండే అవకాశం ఎక్కువగా ఉందని మేము నమ్ముతున్నాము, మరియు మరికొన్ని ఇంకా సమీక్షలో ఉన్నాయి. మొదట మేము సమస్య రెండు కోసం మా ప్రయత్నం సరైనదని నమ్మాము. అధికారిక First Proof వ్యాఖ్యానం మరియు కమ్యూనిటీ విశ్లేషణ ఆధారంగా, మేము ఇప్పుడు ఇది తప్పు అని నమ్ముతున్నాం. మేము మీ భాగస్వామ్యానికి కృతజ్ఞతలు తెలుపుతున్నాము మరియు సమీక్ష కొనసాగింపును ఆశిస్తున్నాము. మా అన్ని ప్రూఫ్ ప్రయత్నాలను ఇక్కడ(కొత్త విండోలో తెరుచుకుంటుంది) చూడవచ్చు. ప్రీప్రింట్లో పది ప్రూఫ్ ప్రయత్నాలు, అలాగే ప్రక్రియలో మోడల్లతో మా మాన్యువల్ ఇంటరాక్షన్లను సిమ్యులేట్ చేయడానికి ప్రాంప్ట్ ప్యాటర్న్లు మరియు ఉదాహరణలతో కొత్తగా జోడించిన ఒక అనుబంధం ఉన్నాయి.
నెక్ట్స్ జనరేషన్ AI మోడల్స్ సామర్థ్యాలను అంచనా వేయడానికి సరికొత్త అత్యాధునిక రీసెర్చ్ బహుశా అత్యంత కీలకమైన మార్గమని మేం విశ్వసిస్తున్నాం. బెంచ్మార్క్లు ఉపయోగకరమైనవే, కానీ అవి పరిశోధనలోని అత్యంత కఠినమైన కొన్ని భాగాలను గుర్తించలేకపోవచ్చు: రిజనింగ్ యొక్క దీర్ఘ శ్రేణులను కొనసాగించడం, సరైన అబ్స్ట్రాక్షన్లను ఎంచుకోవడం, సమస్య వివరణల్లోని అస్పష్టతను నిర్వహించడం, మరియు నిపుణుల పరిశీలనను తట్టుకునే వాదనలను రూపొందించడం. 'ఫస్ట్ ప్రూఫ్' వంటి ఫ్రాంటియర్ సవాళ్లు, కచ్చితత్వాన్ని ధృవీకరించడం కష్టతరమైన సందర్భాలలో మరియు వైఫల్య ధోరణులు సమాచారాన్ని అందించే పరిస్థితులలో, ఆ సామర్థ్యాలను స్ట్రెస్-టెస్ట్ చేయడానికి మాకు సాయపడతాయి.
“మేం ప్రస్తుతం ఒక కొత్త మోడల్ను శిక్షణ ఇస్తున్నాము, దీని ప్రధాన లక్ష్యం దాని ఆలోచనలో కఠినత స్థాయిని పెంచడం. ఈ మోడల్ అనేక గంటల పాటు నిరంతరంగా ఆలోచించి, తన నిర్ధారణలపై అత్యంత విశ్వాసంతో ఉండగలగడం లక్ష్యం ఫస్ట్ ఫ్రూఫ్ సమస్యలు ప్రకటించినప్పుడు, అవి పరిపూర్ణ పరీక్షా వేదికగా అనిపించాయి, కాబట్టి వారాంతంలో నేను వాటిని ప్రయత్నించాను. ఇప్పటికే ఇది రెండు సమస్యలను (#9 మరియు #10) పరిష్కరించింది. ఇది శిక్షణ పొందిన కొద్దీ, ఇది మరింత సామర్థ్యవంతంగా మారింది, చివరికి—మా అంచనా ప్రకారం—కనీసం మరో మూడు సమస్యలను పరిష్కరించింది. మేము #6 ను పరిష్కరించినప్పుడు ప్రత్యేకంగా సంతోషించాం, ఆపై రెండు రోజుల తర్వాత #4 ను కూడా పరిష్కరించడంతో, ఎందుకంటే ఆ సమస్యలు మనలో చాలామందికి పరిచయమైన రంగాల నుంచి వచ్చాయి. రోజురోజుకీ ఒక మోడల్ స్పష్టంగా మరింత తెలివిగా మారడాన్ని చూడటం నిజంగా అద్భుతం.
– జేమ్స్ ఆర్. లీ (OpenAI పరిశోధకుడు, రీజనింగ్)
మేం పరిమిత మానవ పర్యవేక్షణతో మోడల్ను నడిపించాం. మోడల్ వెర్షన్లను ట్రైనింగ్ సమయంలో ప్రాంప్ట్ చేస్తూ, గత ప్రయత్నాల్లో ఫలప్రదంగా కనిపించిన రీట్రై వ్యూహాలను మేం కొన్నిసార్లు సూచించాం. కొన్ని ప్రయత్నాల కోసం, నిపుణుల అభిప్రాయం అందుకున్న తర్వాత, రుజువు కొన్ని భాగాలను విస్తరించమని లేదా స్పష్టత ఇవ్వమని మేము మోడల్ను అడిగాం, తద్వారా రిజనింగ్ను సులభంగా ధృవీకరించవచ్చు. మేము ధృవీకరణ, ఫార్మాటింగ్, మరియు శైలికి ఈ మోడల్ మరియు ChatGPT మధ్య పరస్పర చర్చను కూడా సులభతరం చేసాము. కొన్ని సమస్యల కోసం, మేము కొన్ని ప్రయత్నాల్లో ఉత్తమమైనదాన్ని మానవుల తీర్పు ద్వారా ఎంపిక చేసి చూపిస్తాము. ఇది ఒక వేగవంతమైన స్ప్రింట్, మరియు సరిగ్గా నియంత్రిత మూల్యాంకనంలో మేము కోరుకున్నంత శుభ్రంగా మా ప్రక్రియ లేదు. భవిష్యత్తు పునరావృతాల కోసం మరింత కఠినమైన ప్రయోగం మరియు మూల్యాంకన ఫ్రేమ్వర్క్ గురించి First Proof నిర్వాహకులతో చర్చలు జరపడానికి మనం ఎదురుచూస్తున్నాం.
గణితం మరియు సైన్స్లో అత్యాధునిక రిజనింగ్ మోడల్స్ నుండి వచ్చిన పూర్వ ఫలితాలపై ఈ పని ఆధారపడి ఉంది. జూలై 2025లో, మేము సాధారణ ప్రయోజనాల రిజనింగ్ మోడల్తో (35/42 పాయింట్లు) ఇంటర్నేషనల్ మ్యాథమెటికల్ ఒలింపియాడ్లో బంగారు పతకం స్థాయి పనితీరు(కొత్త విండోలో తెరుచుకుంటుంది) సాధించాము. 2025 నవంబర్లో, మేము “GPT‑5 తో శాస్త్రాన్ని వేగవంతం చేయడంలో ప్రారంభ ప్రయోగాలు” అనే కేస్ స్టడీల సమాహారాన్ని పంచుకున్నాం, ఇందులో GPT‑5 గణితం, భౌతిక శాస్త్రం, జీవశాస్త్రం మరియు ఇతర రంగాలలో పరిశోధకులకు స్పష్టమైన పురోగతి సాధించడంలో ఎలా సహాయపడిందో, అలాగే మేము గమనించిన పరిమితులను వివరించాము. మరియు ఇటీవల, మేము ఒక భౌతిక శాస్త్ర సహకారం గురించి నివేదించాము, ఇందులో GPT‑5.2 గ్లూయాన్-ఆంప్లిట్యూడ్ సూత్రానికి అభ్యర్థి వ్యక్తీకరణను ప్రతిపాదించింది, దానిని తర్వాత అంతర్గత మోడల్ అధికారికంగా నిరూపించింది మరియు రచయితలు ధృవీకరించారు.
మేం కమ్యూనిటీతో పరిశోధన-స్థాయి రిజనింగ్ను ఎలా మూల్యాంకనం చేయాలనేది మరింత లోతైన చర్చలు జరపాలని ఆశిస్తున్నాం, ఈ ప్రయత్నాలపై నిపుణుల అభిప్రాయాలను పొందాలని, భవిష్యత్తులో పబ్లిక్ మోడల్స్లో ఈ కొత్త సామర్థ్యాలను అందుబాటులోకి తీసుకురావడానికి ఉత్సాహంగా ఉన్నాం.


