ప్రధాన కంటెంట్‌కి దాటండి
OpenAI

20 ఫిబ్రవరి, 2026

రీసెర్చ్ముగింపు

మా ఫస్ట్ ప్రూఫ్ సబ్మిషన్‌లు

డొమైన్-నిర్దిష్ట సమస్యలపై AI తనిఖీ చేయగల రుజువులను ఉత్పత్తి చేయగలదా అని పరీక్షించే గణిత సవాలు అయిన ఫస్ట్ ప్రూఫ్ కోసం మా ప్రూఫ్ ప్రయత్నాలను మేం పంచుకుంటున్నాం.

లోడ్ అవుతోంది…

మేం 10 ఫస్ట్ ప్రూఫ్(కొత్త విండోలో తెరుచుకుంటుంది) సమస్యలన్నింటిపై ఒక అంతర్గత మోడల్‌ను రన్ చేశాం, ఇది AI సిస్టమ్‌లు సరైన, తనిఖీ చేయగల రుజువు ప్రయత్నాలను ఉత్పత్తి చేయగలవా అని పరీక్షించడానికి రూపొందించిన పరిశోధన-స్థాయి గణిత సవాలు. చిన్న-సమాధాన లేదా పోటీ-శైలి గణితంతో పోలిస్తే, ఈ సమస్యలు ప్రత్యేక డొమైన్‌లలో సమగ్ర వాదనలను నిర్మించాల్సి ఉంటుంది, మరియు నిపుణుల సమీక్ష లేకుండా సరైనతను నిర్ధారించడం కష్టం. ఫస్ట్ ప్రూఫ్ సమస్యల రచయితలు తమ రంగాల్లో ప్రముఖ నిపుణులు, మరియు కనీసం కొన్ని సమస్యలు రచయితలు పరిష్కారాలను కనుగొనడానికి ముందు సంవత్సరాల పాటు పరిష్కారం లేకుండా ఉండేవి. విషయ రంగాలతో గణనీయమైన ఓవర్‌ల్యాప్ ఉన్న ఒక అకాడెమిక్ విభాగం అనేక సమస్యలను ఒక వారం లోపల పరిష్కరించగలదని ఊహించవచ్చు.

మేం మా ప్రూఫ్ ప్రయత్నాలను శనివారం, 14 ఫిబ్రవరి, 2026 నాడు 12:00 AM PT నాడు పంచుకున్నాం(కొత్త విండోలో తెరుచుకుంటుంది) . నిపుణుల అభిప్రాయం ప్రకారం, మోడల్ యొక్క ప్రూఫ్ ప్రయత్నాలలో కనీసం ఐదు (సమస్యలు 4, 5, 6, 9, మరియు 10) సరైనవిగా ఉండే అవకాశం ఎక్కువగా ఉందని మేము నమ్ముతున్నాము, మరియు మరికొన్ని ఇంకా సమీక్షలో ఉన్నాయి. మొదట మేము సమస్య రెండు కోసం మా ప్రయత్నం సరైనదని నమ్మాము. అధికారిక First Proof వ్యాఖ్యానం మరియు కమ్యూనిటీ విశ్లేషణ ఆధారంగా, మేము ఇప్పుడు ఇది తప్పు అని నమ్ముతున్నాం. మేము మీ భాగస్వామ్యానికి కృతజ్ఞతలు తెలుపుతున్నాము మరియు సమీక్ష కొనసాగింపును ఆశిస్తున్నాము. మా అన్ని ప్రూఫ్ ప్రయత్నాలను ఇక్కడ(కొత్త విండోలో తెరుచుకుంటుంది) చూడవచ్చు. ప్రీప్రింట్‌లో పది ప్రూఫ్ ప్రయత్నాలు, అలాగే ప్రక్రియలో మోడల్‌లతో మా మాన్యువల్ ఇంటరాక్షన్‌లను సిమ్యులేట్ చేయడానికి ప్రాంప్ట్ ప్యాటర్న్‌లు మరియు ఉదాహరణలతో కొత్తగా జోడించిన ఒక అనుబంధం ఉన్నాయి.

నెక్ట్స్ జనరేషన్ AI మోడల్స్ సామర్థ్యాలను అంచనా వేయడానికి సరికొత్త అత్యాధునిక రీసెర్చ్ బహుశా అత్యంత కీలకమైన మార్గమని మేం విశ్వసిస్తున్నాం. బెంచ్‌మార్క్‌లు ఉపయోగకరమైనవే, కానీ అవి పరిశోధనలోని అత్యంత కఠినమైన కొన్ని భాగాలను గుర్తించలేకపోవచ్చు: రిజనింగ్ యొక్క దీర్ఘ శ్రేణులను కొనసాగించడం, సరైన అబ్స్ట్రాక్షన్‌లను ఎంచుకోవడం, సమస్య వివరణల్లోని అస్పష్టతను నిర్వహించడం, మరియు నిపుణుల పరిశీలనను తట్టుకునే వాదనలను రూపొందించడం. 'ఫస్ట్ ప్రూఫ్' వంటి ఫ్రాంటియర్ సవాళ్లు, కచ్చితత్వాన్ని ధృవీకరించడం కష్టతరమైన సందర్భాలలో మరియు వైఫల్య ధోరణులు సమాచారాన్ని అందించే పరిస్థితులలో, ఆ సామర్థ్యాలను స్ట్రెస్-టెస్ట్ చేయడానికి మాకు సాయపడతాయి.

“మేం ప్రస్తుతం ఒక కొత్త మోడల్‌ను శిక్షణ ఇస్తున్నాము, దీని ప్రధాన లక్ష్యం దాని ఆలోచనలో కఠినత స్థాయిని పెంచడం. ఈ మోడల్ అనేక గంటల పాటు నిరంతరంగా ఆలోచించి, తన నిర్ధారణలపై అత్యంత విశ్వాసంతో ఉండగలగడం లక్ష్యం ఫస్ట్ ఫ్రూఫ్ సమస్యలు ప్రకటించినప్పుడు, అవి పరిపూర్ణ పరీక్షా వేదికగా అనిపించాయి, కాబట్టి వారాంతంలో నేను వాటిని ప్రయత్నించాను. ఇప్పటికే ఇది రెండు సమస్యలను (#9 మరియు #10) పరిష్కరించింది. ఇది శిక్షణ పొందిన కొద్దీ, ఇది మరింత సామర్థ్యవంతంగా మారింది, చివరికి—మా అంచనా ప్రకారం—కనీసం మరో మూడు సమస్యలను పరిష్కరించింది. మేము #6 ను పరిష్కరించినప్పుడు ప్రత్యేకంగా సంతోషించాం, ఆపై రెండు రోజుల తర్వాత #4 ను కూడా పరిష్కరించడంతో, ఎందుకంటే ఆ సమస్యలు మనలో చాలామందికి పరిచయమైన రంగాల నుంచి వచ్చాయి. రోజురోజుకీ ఒక మోడల్ స్పష్టంగా మరింత తెలివిగా మారడాన్ని చూడటం నిజంగా అద్భుతం.

– జేమ్స్ ఆర్. లీ (OpenAI పరిశోధకుడు, రీజనింగ్)

మేం పరిమిత మానవ పర్యవేక్షణతో మోడల్‌ను నడిపించాం. మోడల్ వెర్షన్‌లను ట్రైనింగ్ సమయంలో ప్రాంప్ట్ చేస్తూ, గత ప్రయత్నాల్లో ఫలప్రదంగా కనిపించిన రీట్రై వ్యూహాలను మేం కొన్నిసార్లు సూచించాం. కొన్ని ప్రయత్నాల కోసం, నిపుణుల అభిప్రాయం అందుకున్న తర్వాత, రుజువు కొన్ని భాగాలను విస్తరించమని లేదా స్పష్టత ఇవ్వమని మేము మోడల్‌ను అడిగాం, తద్వారా రిజనింగ్‌ను సులభంగా ధృవీకరించవచ్చు. మేము ధృవీకరణ, ఫార్మాటింగ్, మరియు శైలికి ఈ మోడల్ మరియు ChatGPT మధ్య పరస్పర చర్చను కూడా సులభతరం చేసాము. కొన్ని సమస్యల కోసం, మేము కొన్ని ప్రయత్నాల్లో ఉత్తమమైనదాన్ని మానవుల తీర్పు ద్వారా ఎంపిక చేసి చూపిస్తాము. ఇది ఒక వేగవంతమైన స్ప్రింట్, మరియు సరిగ్గా నియంత్రిత మూల్యాంకనంలో మేము కోరుకున్నంత శుభ్రంగా మా ప్రక్రియ లేదు. భవిష్యత్తు పునరావృతాల కోసం మరింత కఠినమైన ప్రయోగం మరియు మూల్యాంకన ఫ్రేమ్‌వర్క్ గురించి First Proof నిర్వాహకులతో చర్చలు జరపడానికి మనం ఎదురుచూస్తున్నాం.

గణితం మరియు సైన్స్‌లో అత్యాధునిక రిజనింగ్ మోడల్స్ నుండి వచ్చిన పూర్వ ఫలితాలపై ఈ పని ఆధారపడి ఉంది. జూలై 2025లో, మేము సాధారణ ప్రయోజనాల రిజనింగ్ మోడల్‌తో (35/42 పాయింట్లు) ఇంటర్నేషనల్ మ్యాథమెటికల్ ఒలింపియాడ్‌లో బంగారు పతకం స్థాయి పనితీరు(కొత్త విండోలో తెరుచుకుంటుంది) సాధించాము. 2025 నవంబర్‌లో, మేము “GPT‑5 తో శాస్త్రాన్ని వేగవంతం చేయడంలో ప్రారంభ ప్రయోగాలు” అనే కేస్ స్టడీల సమాహారాన్ని పంచుకున్నాం, ఇందులో GPT‑5 గణితం, భౌతిక శాస్త్రం, జీవశాస్త్రం మరియు ఇతర రంగాలలో పరిశోధకులకు స్పష్టమైన పురోగతి సాధించడంలో ఎలా సహాయపడిందో, అలాగే మేము గమనించిన పరిమితులను వివరించాము. మరియు ఇటీవల, మేము ఒక భౌతిక శాస్త్ర సహకారం గురించి నివేదించాము, ఇందులో GPT‑5.2 గ్లూయాన్-ఆంప్లిట్యూడ్ సూత్రానికి అభ్యర్థి వ్యక్తీకరణను ప్రతిపాదించింది, దానిని తర్వాత అంతర్గత మోడల్ అధికారికంగా నిరూపించింది మరియు రచయితలు ధృవీకరించారు.

మేం కమ్యూనిటీతో పరిశోధన-స్థాయి రిజనింగ్‌ను ఎలా మూల్యాంకనం చేయాలనేది మరింత లోతైన చర్చలు జరపాలని ఆశిస్తున్నాం, ఈ ప్రయత్నాలపై నిపుణుల అభిప్రాయాలను పొందాలని, భవిష్యత్తులో పబ్లిక్ మోడల్స్‌లో ఈ కొత్త సామర్థ్యాలను అందుబాటులోకి తీసుకురావడానికి ఉత్సాహంగా ఉన్నాం.

రచయిత

OpenAI