Dorëzimet tona të First Proof
Po ndajmë përpjekjet tona për prova për First Proof, një sfidë matematike që teston nëse AI mund të prodhojë prova të verifikueshme për probleme specifike të domenit.
Ne ekzekutuam një model të brendshëm mbi të gjitha 10 problemet First Proof(hapet në një dritare të re), një sfidë matematikore në nivel kërkimor e krijuar për të testuar nëse sistemet e inteligjencës artificiale mund të prodhojnë përpjekje provash të sakta dhe të verifikueshme. Ndryshe nga matematika me përgjigje të shkurtra ose ajo e stilit të garave, këto probleme kërkojnë ndërtimin e argumenteve të plota në fusha të specializuara, dhe saktësia është e vështirë të përcaktohet pa rishikim nga ekspertët. Autorët e problemeve të First Proof janë ekspertë kryesorë në fushat e tyre përkatëse, dhe të paktën disa nga problemet mbetën të pazgjidhura për vite me radhë përpara se autorët të gjenin zgjidhje. Një departament akademik që ka mbivendosje të konsiderueshme me fushat e lëndës mund të zgjidhë shumë nga problemet brenda një jave.
Ne ndamë(hapet në një dritare të re) përpjekjet tona për prova të shtunën, më 14 shkurt 2026 në orën 00:00 PT. Bazuar në vlerësimet nga ekspertët, besojmë se të paktën pesë nga përpjekjet e provës së modelit (problemet 4, 5, 6, 9 dhe 10) kanë një mundësi të lartë për të qenë të sakta, ndërsa disa të tjera mbeten nën shqyrtim. Fillimisht besuam se përpjekja jonë për problemin 2 kishte shumë gjasa të ishte e saktë. Bazuar në komentin zyrtar të First Proof dhe analizën e mëtejshme të komunitetit, tani besojmë se është i pasaktë. Jemi mirënjohës për angazhimin dhe presim me padurim rishikime të vazhdueshme. Të gjitha përpjekjet tona të plota për prova mund të gjenden këtu(hapet në një dritare të re). Preprint përfshin të dhjetë përpjekjet për provë, plus një shtojcë të re me modele kërkesash dhe shembuj që synojnë të simulojnë ndërveprimet tona manuale me modelet gjatë procesit.
Ne besojmë se kërkimi avangardë është ndoshta mënyra më e rëndësishme për të vlerësuar aftësitë e modeleve të inteligjencës artificiale të gjeneratës së ardhshme. Standardet krahasuese janë të dobishme, por mund të mos përfshijnë disa nga aspektet më të vështira të kërkimit: mbajtjen e zinxhirëve të gjatë të arsyetimit, zgjedhjen e abstraksioneve të duhura, trajtimin e paqartësisë në deklaratat e problemit dhe krijimin e argumenteve që i mbijetojnë shqyrtimit nga ekspertët. Sfidat avangardë si First Proof na ndihmojnë të testojmë ato aftësi në mjedise ku saktësia është e vështirë për t'u verifikuar dhe mënyrat e dështimit ofrojnë informacion të vlefshëm.
“Aktualisht po trajnojmë një model të ri, për të cilin fokusi kryesor është rritja e rigorozitetit në të menduarit e tij, me synimin që modeli të mendojë vazhdimisht për shumë orë dhe të mbetet i sigurt në përfundimet e tij. Kur u njoftuan problemet e First Proof, dukej si terreni i përsosur për testim, kështu që gjatë fundjavës e provova. Tashmë ishte në gjendje të zgjidhte dy nga problemet (#9 dhe #10). Ndërsa trajnohej, u bë gjithnjë e më i aftë, duke zgjidhur përfundimisht – sipas vlerësimit tonë – të paktën edhe tre të tjera. Ishim veçanërisht të kënaqur kur u zgjidh #6 dhe pastaj, dy ditë më vonë, #4, pasi ato probleme ishin nga fusha të njohura për shumë prej nesh. "Është vërtet e pabesueshme të shohësh një model që bëhet dukshëm më i zgjuar ditë pas dite.”
– James R. Lee (Studiues në OpenAI, Reasoning)
Ne ekzekutuam modelin me mbikëqyrje të kufizuar njerëzore. Kur sugjeronim versione të modelit gjatë trajnimit, ndonjëherë rekomandonim strategji riprovimi që dukeshin të suksesshme në përpjekjet e mëparshme. Për disa përpjekje, i kërkuam modelit të zgjerojë ose sqarojë pjesë të një prove pasi morëm komente nga ekspertët, për ta bërë arsyetimin më të lehtë për t'u verifikuar. Ne gjithashtu lehtësuam një diskutim të dyanshëm midis këtij modeli dhe ChatGPT për verifikim, formatim dhe stil. Për disa probleme, ne paraqesim më të mirën nga disa përpjekje, të zgjedhura me gjykim njerëzor. Ky ishte një sprint i shpejtë dhe procesi ynë nuk ishte aq i pastër sa do të dëshironim në një vlerësim të kontrolluar siç duhet. Mezi presim diskutimet me organizatorët e First Proof për një eksperiment më rigoroz dhe një kuadër vlerësimi për iteracionet e ardhshme.
Kjo punë bazohet në rezultate të mëparshme nga modelet e avangardës së arsyetimit në matematikë dhe shkencë. Në korrik 2025, arritëm performancë të nivelit të medaljes së artë(hapet në një dritare të re) në Olimpiadën Ndërkombëtare të Matematikës me një model arsyetimi me përdorim të përgjithshëm (35/42 pikë). Në nëntor 2025, ne ndamë “Eksperimentet e hershme për përshpejtimin e shkencës me GPT‑5”, një grup studimesh rastesh ku GPT‑5 ndihmoi studiuesit të bënin përparim konkret në matematikë, fizikë, biologji dhe fusha të tjera, së bashku me kufizimet që vumë re. Dhe së fundmi, raportuam një bashkëpunim në fizikë ku GPT‑5.2 propozoi një shprehje kandidate për një formulë të amplitudës së gluonit, e cila më pas u provua zyrtarisht nga një model i brendshëm dhe u verifikua nga autorët.
Ne presim me padurim një angazhim më të thellë me komunitetin për mënyrën e vlerësimit të arsyetimit të nivelit kërkimor, duke përfshirë reagimet e ekspertëve për këto përpjekje, dhe jemi të entuziazmuar që t'i bëjmë këto aftësi të reja të disponueshme në modelet publike të ardhshme.


