20 ఫిబ్రవరి, 2026

మా ఫస్ట్ ప్రూఫ్ సబ్మిషన్‌లు

డొమైన్-నిర్దిష్ట సమస్యలపై AI తనిఖీ చేయగల రుజువులను ఉత్పత్తి చేయగలదా అని పరీక్షించే గణిత సవాలు అయిన ఫస్ట్ ప్రూఫ్ కోసం మా ప్రూఫ్ ప్రయత్నాలను మేం పంచుకుంటున్నాం.

మా ప్రూఫ్ ప్రయత్నాల సమూహాన్ని చూడండి

లోడ్ అవుతోంది…

మేం 10 ఫస్ట్ ప్రూఫ్⁠(కొత్త విండోలో తెరుచుకుంటుంది) సమస్యలన్నింటిపై ఒక అంతర్గత మోడల్‌ను రన్ చేశాం, ఇది AI సిస్టమ్‌లు సరైన, తనిఖీ చేయగల రుజువు ప్రయత్నాలను ఉత్పత్తి చేయగలవా అని పరీక్షించడానికి రూపొందించిన పరిశోధన-స్థాయి గణిత సవాలు. చిన్న-సమాధాన లేదా పోటీ-శైలి గణితంతో పోలిస్తే, ఈ సమస్యలు ప్రత్యేక డొమైన్‌లలో సమగ్ర వాదనలను నిర్మించాల్సి ఉంటుంది, మరియు నిపుణుల సమీక్ష లేకుండా సరైనతను నిర్ధారించడం కష్టం. ఫస్ట్ ప్రూఫ్ సమస్యల రచయితలు తమ రంగాల్లో ప్రముఖ నిపుణులు, మరియు కనీసం కొన్ని సమస్యలు రచయితలు పరిష్కారాలను కనుగొనడానికి ముందు సంవత్సరాల పాటు పరిష్కారం లేకుండా ఉండేవి. విషయ రంగాలతో గణనీయమైన ఓవర్‌ల్యాప్ ఉన్న ఒక అకాడెమిక్ విభాగం అనేక సమస్యలను ఒక వారం లోపల పరిష్కరించగలదని ఊహించవచ్చు.

మేం మా ప్రూఫ్ ప్రయత్నాలను శనివారం, 14 ఫిబ్రవరి, 2026 నాడు 12:00 AM PT నాడు పంచుకున్నాం⁠(కొత్త విండోలో తెరుచుకుంటుంది) . నిపుణుల అభిప్రాయం ప్రకారం, మోడల్ యొక్క ప్రూఫ్ ప్రయత్నాలలో కనీసం ఐదు (సమస్యలు 4, 5, 6, 9, మరియు 10) సరైనవిగా ఉండే అవకాశం ఎక్కువగా ఉందని మేము నమ్ముతున్నాము, మరియు మరికొన్ని ఇంకా సమీక్షలో ఉన్నాయి. మొదట మేము సమస్య రెండు కోసం మా ప్రయత్నం సరైనదని నమ్మాము. అధికారిక First Proof వ్యాఖ్యానం మరియు కమ్యూనిటీ విశ్లేషణ ఆధారంగా, మేము ఇప్పుడు ఇది తప్పు అని నమ్ముతున్నాం. మేము మీ భాగస్వామ్యానికి కృతజ్ఞతలు తెలుపుతున్నాము మరియు సమీక్ష కొనసాగింపును ఆశిస్తున్నాము. మా అన్ని ప్రూఫ్ ప్రయత్నాలను ఇక్కడ⁠(కొత్త విండోలో తెరుచుకుంటుంది) చూడవచ్చు. ప్రీప్రింట్‌లో పది ప్రూఫ్ ప్రయత్నాలు, అలాగే ప్రక్రియలో మోడల్‌లతో మా మాన్యువల్ ఇంటరాక్షన్‌లను సిమ్యులేట్ చేయడానికి ప్రాంప్ట్ ప్యాటర్న్‌లు మరియు ఉదాహరణలతో కొత్తగా జోడించిన ఒక అనుబంధం ఉన్నాయి.

నెక్ట్స్ జనరేషన్ AI మోడల్స్ సామర్థ్యాలను అంచనా వేయడానికి సరికొత్త అత్యాధునిక రీసెర్చ్ బహుశా అత్యంత కీలకమైన మార్గమని మేం విశ్వసిస్తున్నాం. బెంచ్‌మార్క్‌లు ఉపయోగకరమైనవే, కానీ అవి పరిశోధనలోని అత్యంత కఠినమైన కొన్ని భాగాలను గుర్తించలేకపోవచ్చు: రిజనింగ్ యొక్క దీర్ఘ శ్రేణులను కొనసాగించడం, సరైన అబ్స్ట్రాక్షన్‌లను ఎంచుకోవడం, సమస్య వివరణల్లోని అస్పష్టతను నిర్వహించడం, మరియు నిపుణుల పరిశీలనను తట్టుకునే వాదనలను రూపొందించడం. 'ఫస్ట్ ప్రూఫ్' వంటి ఫ్రాంటియర్ సవాళ్లు, కచ్చితత్వాన్ని ధృవీకరించడం కష్టతరమైన సందర్భాలలో మరియు వైఫల్య ధోరణులు సమాచారాన్ని అందించే పరిస్థితులలో, ఆ సామర్థ్యాలను స్ట్రెస్-టెస్ట్ చేయడానికి మాకు సాయపడతాయి.

“మేం ప్రస్తుతం ఒక కొత్త మోడల్‌ను శిక్షణ ఇస్తున్నాము, దీని ప్రధాన లక్ష్యం దాని ఆలోచనలో కఠినత స్థాయిని పెంచడం. ఈ మోడల్ అనేక గంటల పాటు నిరంతరంగా ఆలోచించి, తన నిర్ధారణలపై అత్యంత విశ్వాసంతో ఉండగలగడం లక్ష్యం ఫస్ట్ ఫ్రూఫ్ సమస్యలు ప్రకటించినప్పుడు, అవి పరిపూర్ణ పరీక్షా వేదికగా అనిపించాయి, కాబట్టి వారాంతంలో నేను వాటిని ప్రయత్నించాను. ఇప్పటికే ఇది రెండు సమస్యలను (#9 మరియు #10) పరిష్కరించింది. ఇది శిక్షణ పొందిన కొద్దీ, ఇది మరింత సామర్థ్యవంతంగా మారింది, చివరికి—మా అంచనా ప్రకారం—కనీసం మరో మూడు సమస్యలను పరిష్కరించింది. మేము #6 ను పరిష్కరించినప్పుడు ప్రత్యేకంగా సంతోషించాం, ఆపై రెండు రోజుల తర్వాత #4 ను కూడా పరిష్కరించడంతో, ఎందుకంటే ఆ సమస్యలు మనలో చాలామందికి పరిచయమైన రంగాల నుంచి వచ్చాయి. రోజురోజుకీ ఒక మోడల్ స్పష్టంగా మరింత తెలివిగా మారడాన్ని చూడటం నిజంగా అద్భుతం.

– జేమ్స్ ఆర్. లీ (OpenAI పరిశోధకుడు, రీజనింగ్)

మేం పరిమిత మానవ పర్యవేక్షణతో మోడల్‌ను నడిపించాం. మోడల్ వెర్షన్‌లను ట్రైనింగ్ సమయంలో ప్రాంప్ట్ చేస్తూ, గత ప్రయత్నాల్లో ఫలప్రదంగా కనిపించిన రీట్రై వ్యూహాలను మేం కొన్నిసార్లు సూచించాం. కొన్ని ప్రయత్నాల కోసం, నిపుణుల అభిప్రాయం అందుకున్న తర్వాత, రుజువు కొన్ని భాగాలను విస్తరించమని లేదా స్పష్టత ఇవ్వమని మేము మోడల్‌ను అడిగాం, తద్వారా రిజనింగ్‌ను సులభంగా ధృవీకరించవచ్చు. మేము ధృవీకరణ, ఫార్మాటింగ్, మరియు శైలికి ఈ మోడల్ మరియు ChatGPT మధ్య పరస్పర చర్చను కూడా సులభతరం చేసాము. కొన్ని సమస్యల కోసం, మేము కొన్ని ప్రయత్నాల్లో ఉత్తమమైనదాన్ని మానవుల తీర్పు ద్వారా ఎంపిక చేసి చూపిస్తాము. ఇది ఒక వేగవంతమైన స్ప్రింట్, మరియు సరిగ్గా నియంత్రిత మూల్యాంకనంలో మేము కోరుకున్నంత శుభ్రంగా మా ప్రక్రియ లేదు. భవిష్యత్తు పునరావృతాల కోసం మరింత కఠినమైన ప్రయోగం మరియు మూల్యాంకన ఫ్రేమ్‌వర్క్ గురించి First Proof నిర్వాహకులతో చర్చలు జరపడానికి మనం ఎదురుచూస్తున్నాం.

గణితం మరియు సైన్స్‌లో అత్యాధునిక రిజనింగ్ మోడల్స్ నుండి వచ్చిన పూర్వ ఫలితాలపై ఈ పని ఆధారపడి ఉంది. జూలై 2025లో, మేము సాధారణ ప్రయోజనాల రిజనింగ్ మోడల్‌తో (35/42 పాయింట్లు) ఇంటర్నేషనల్ మ్యాథమెటికల్ ఒలింపియాడ్‌లో బంగారు పతకం స్థాయి పనితీరు⁠(కొత్త విండోలో తెరుచుకుంటుంది) సాధించాము. 2025 నవంబర్‌లో, మేము “GPT‑5 తో శాస్త్రాన్ని వేగవంతం చేయడంలో ప్రారంభ ప్రయోగాలు” అనే కేస్ స్టడీల సమాహారాన్ని పంచుకున్నాం, ఇందులో GPT‑5 గణితం, భౌతిక శాస్త్రం, జీవశాస్త్రం మరియు ఇతర రంగాలలో పరిశోధకులకు స్పష్టమైన పురోగతి సాధించడంలో ఎలా సహాయపడిందో, అలాగే మేము గమనించిన పరిమితులను వివరించాము. మరియు ఇటీవల, మేము ఒక భౌతిక శాస్త్ర సహకారం గురించి నివేదించాము, ఇందులో GPT‑5.2 గ్లూయాన్-ఆంప్లిట్యూడ్ సూత్రానికి అభ్యర్థి వ్యక్తీకరణను ప్రతిపాదించింది, దానిని తర్వాత అంతర్గత మోడల్ అధికారికంగా నిరూపించింది మరియు రచయితలు ధృవీకరించారు.

మేం కమ్యూనిటీతో పరిశోధన-స్థాయి రిజనింగ్‌ను ఎలా మూల్యాంకనం చేయాలనేది మరింత లోతైన చర్చలు జరపాలని ఆశిస్తున్నాం, ఈ ప్రయత్నాలపై నిపుణుల అభిప్రాయాలను పొందాలని, భవిష్యత్తులో పబ్లిక్ మోడల్స్‌లో ఈ కొత్త సామర్థ్యాలను అందుబాటులోకి తీసుకురావడానికి ఉత్సాహంగా ఉన్నాం.

2026

రచయిత

OpenAI

చదవడం కొనసాగించండి

అన్నీ చూడండి

రెండు సెట్టింగ్‌లతో ARC-AGI-3 బెంచ్‌మార్క్‌లో మా స్కోర్లు మూడు రెట్లు ఎలా పెరిగాయి

రీసెర్చ్29 జులై, 2026

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Company29 జులై, 2026

Scientific computing agentic AI card image (1x1)

ఏజెంటిక్ AI యుగంలో శాస్త్రీయ కంప్యూటింగ్

ప్రచురణ28 జులై, 2026