20 ta’ Frar 2026

Is-sottomissjonijiet tagħna għal First Proof

Qed naqsmu t-tentattivi tagħna ta’ prova għal First Proof, sfida tal-matematika li tittestja jekk l-AI tistax tipproduċi provi verifikabbli fuq problemi speċifiċi għad-dominju.

Ara s-sett tagħna ta’ tentattivi ta’ prova

Qed jillowdja…

Mexxejna mudell intern fuq l-10 problemi kollha ta’ First Proof⁠(jinfetaħ f’tieqa ġdida), sfida matematika ta’ livell ta’ riċerka mfassla biex tittestja jekk sistemi ta’ AI jistgħux jipproduċu tentattivi ta’ prova korretti u verifikabbli. B’differenza minn matematika b’tweġiba qasira jew stil ta’ kompetizzjoni, dawn il-problemi jeħtieġu l-bini ta’ argumenti sħaħ minn tarf sa tarf f’oqsma speċjalizzati, u l-korrettezza hija diffiċli biex tiġi stabbilita mingħajr reviżjoni minn esperti. L-awturi tal-problemi ta’ First Proof huma esperti ewlenin fl-oqsma rispettivi tagħhom, u mill-inqas koppja mill-problemi kienu miftuħa għal snin qabel ma l-awturi sabu soluzzjonijiet. Dipartiment akkademiku b’koinċidenza sostanzjali mal-oqsma tas-suġġett jista’ konċepibbilment isolvi ħafna mill-problemi f’ġimgħa waħda.

Qsamna⁠(jinfetaħ f’tieqa ġdida) t-tentattivi tagħna ta’ prova nhar is-Sibt, 14 ta’ Frar 2026, f’nofsillejl PT. Abbażi tal-feedback mill-esperti, nemmnu li mill-inqas ħamsa mit-tentattivi ta’ prova tal-mudell (il-problemi 4, 5, 6, 9 u 10) għandhom ċans għoli li jkunu korretti, u diversi oħrajn għadhom taħt reviżjoni. Fil-bidu ħsibna li t-tentattiv tagħna għall-problema 2 x’aktarx kien korrett. Abbażi tal-kummentarju uffiċjali ta’ First Proof u analiżi ulterjuri mill-komunità, issa nemmnu li mhuwiex korrett. Aħna grati għall-involviment u nistennew bil-ħerqa reviżjoni kontinwa. Is-sett sħiħ tagħna ta’ tentattivi ta’ prova jinsab hawn⁠(jinfetaħ f’tieqa ġdida). Il-preprint jinkludi l-għaxar tentattivi kollha ta’ prova, flimkien ma’ appendiċi miżjud ġdid b’xejriet ta’ prompt u eżempji li għandhom l-għan li jissimulaw l-interazzjonijiet manwali tagħna mal-mudelli waqt il-proċess.

Nemmnu li riċerka ġdida fruntiera hija forsi l-aktar mod importanti biex nivvalutaw il-kapaċitajiet tal-mudelli AI tal-ġenerazzjoni li jmiss. Il-benchmarks huma utli, iżda jistgħu jitilfu xi wħud mill-aktar partijiet diffiċli tar-riċerka: iż-żamma ta’ ktajjen twal ta’ raġunament, l-għażla tal-astrazzjonijiet it-tajba, l-immaniġġjar tal-ambigwità fid-dikjarazzjonijiet tal-problemi, u l-produzzjoni ta’ argumenti li jifilħu għall-iskrutinju tal-esperti. Sfidi fruntiera bħal First Proof jgħinuna nittestjaw sew dawk il-kapaċitajiet f’ambjenti fejn il-korrettezza mhix trivjali biex tiġi vverifikata u fejn il-modi ta’ falliment huma informattivi.

“Bħalissa qed inħarrġu mudell ġdid li għalih fokus primarju huwa li nżidu l-livell ta’ rigorożità fil-ħsieb tiegħu, bil-għan li l-mudell ikun jista’ jaħseb kontinwament għal ħafna sigħat u jibqa’ kunfidenti ħafna fil-konklużjonijiet tiegħu. Meta tħabbru l-problemi ta’ First Proof, deherli li kien l-ambjent ta’ prova perfett, għalhekk matul tmiem il-ġimgħa ppruvajtu. Diġà kien kapaċi jsolvi tnejn mill-problemi (#9 u #10). Hekk kif tħarreġ, sar dejjem aktar kapaċi, u fl-aħħar solvejna—skont l-istima tagħna—mill-inqas tlieta oħra. Konna partikolarment kuntenti meta solva #6 u mbagħad, jumejn wara, #4, peress li dawk il-problemi kienu minn oqsma familjari għal ħafna minna. Huwa tassew inkredibbli tara mudell isir b’mod tanġibbli aktar intelliġenti jum wara jum.”

– James R. Lee (Riċerkatur ta’ OpenAI, Reasoning)

Mexxejna l-mudell b’superviżjoni umana limitata. Meta konna nagħtu prompts lil verżjonijiet tal-mudell tul it-taħriġ, xi drabi ssuġġerejna li jerġa’ jipprova strateġiji li dehru promettenti f’tentattivi preċedenti. Għal xi tentattivi, tlabna lill-mudell jespandi jew jiċċara partijiet minn prova wara li rċevejna feedback mingħand esperti, biex ir-raġunament ikun aktar faċli biex jiġi vverifikat. Aħna ffaċilitajna wkoll skambju bejn dan il-mudell u ChatGPT għall-verifika, l-ifformattjar u l-istil. Għal xi problemi, nippreżentaw l-aħjar minn ftit tentattivi, magħżula permezz ta’ ġudizzju uman. Dan kien sprint mgħaġġel, u l-proċess tagħna ma kienx nadif daqs kemm nixtiequ f’evalwazzjoni kkontrollata kif suppost. Nistennew bil-ħerqa diskussjonijiet mal-organizzaturi ta’ First Proof dwar qafas ta’ esperiment u evalwazzjoni aktar rigoruż għal iterazzjonijiet futuri.

Dan ix-xogħol jibni fuq riżultati preċedenti minn mudelli tar-raġunament fruntiera fil-matematika u x-xjenza. F’Lulju 2025, ksibna prestazzjoni ta’ livell ta’ midalja tad-deheb⁠(jinfetaħ f’tieqa ġdida) fl-Olimpjada Internazzjonali tal-Matematika b’mudell tar-raġunament għal użu ġenerali (35/42 punt). F’Novembru 2025, qsamna “Esperimenti bikrija fl-aċċellerazzjoni tax-xjenza b’GPT‑5”, sett ta’ studji ta’ każ fejn GPT‑5 għen lir-riċerkaturi jagħmlu progress konkret fil-matematika, il-fiżika, il-bijoloġija u oqsma oħra, flimkien mal-limitazzjonijiet li osservajna. U l-aktar reċenti, irrapportajna kollaborazzjoni fil-fiżika fejn GPT‑5.2 ippropona espressjoni kandidat għal formula ta’ amplitudni ta’ gluon li mbagħad ġiet ippruvata formalment minn mudell intern u vverifikata mill-awturi.

Nistennew bil-ħerqa impenn aktar profond mal-komunità dwar kif jiġi evalwat raġunament ta’ livell ta’ riċerka, inkluż feedback minn esperti fuq dawn it-tentattivi, u aħna eċċitati li nagħmlu dawn il-kapaċitajiet ġodda disponibbli f’mudelli pubbliċi futuri.

2026

Awtur

OpenAI

Kompli aqra

Ara kollox

How enabling two settings tripled our scores on the ARC-AGI-3 benchmark

Riċerka29 ta’ Lul, 2026

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Kumpanija29 ta’ Lul, 2026

Scientific computing agentic AI card image (1x1)

Scientific computing in the age of agentic AI

Pubblikazzjoni28 ta’ Lul, 2026