Aqbeż għall-kontenut prinċipali
OpenAI

20 ta’ Frar 2026

RiċerkaKonklużjoni

Is-sottomissjonijiet tagħna għal First Proof

Qed naqsmu t-tentattivi tagħna ta’ prova għal First Proof, sfida tal-matematika li tittestja jekk l-AI tistax tipproduċi provi verifikabbli fuq problemi speċifiċi għad-dominju.

Qed jillowdja…

Mexxejna mudell intern fuq l-10 problemi kollha ta’ First Proof(jinfetaħ f’tieqa ġdida), sfida matematika ta’ livell ta’ riċerka mfassla biex tittestja jekk sistemi ta’ AI jistgħux jipproduċu tentattivi ta’ prova korretti u verifikabbli. B’differenza minn matematika b’tweġiba qasira jew stil ta’ kompetizzjoni, dawn il-problemi jeħtieġu l-bini ta’ argumenti sħaħ minn tarf sa tarf f’oqsma speċjalizzati, u l-korrettezza hija diffiċli biex tiġi stabbilita mingħajr reviżjoni minn esperti. L-awturi tal-problemi ta’ First Proof huma esperti ewlenin fl-oqsma rispettivi tagħhom, u mill-inqas koppja mill-problemi kienu miftuħa għal snin qabel ma l-awturi sabu soluzzjonijiet. Dipartiment akkademiku b’koinċidenza sostanzjali mal-oqsma tas-suġġett jista’ konċepibbilment isolvi ħafna mill-problemi f’ġimgħa waħda.

Qsamna(jinfetaħ f’tieqa ġdida) t-tentattivi tagħna ta’ prova nhar is-Sibt, 14 ta’ Frar 2026, f’nofsillejl PT. Abbażi tal-feedback mill-esperti, nemmnu li mill-inqas ħamsa mit-tentattivi ta’ prova tal-mudell (il-problemi 4, 5, 6, 9 u 10) għandhom ċans għoli li jkunu korretti, u diversi oħrajn għadhom taħt reviżjoni. Fil-bidu ħsibna li t-tentattiv tagħna għall-problema 2 x’aktarx kien korrett. Abbażi tal-kummentarju uffiċjali ta’ First Proof u analiżi ulterjuri mill-komunità, issa nemmnu li mhuwiex korrett. Aħna grati għall-involviment u nistennew bil-ħerqa reviżjoni kontinwa. Is-sett sħiħ tagħna ta’ tentattivi ta’ prova jinsab hawn(jinfetaħ f’tieqa ġdida). Il-preprint jinkludi l-għaxar tentattivi kollha ta’ prova, flimkien ma’ appendiċi miżjud ġdid b’xejriet ta’ prompt u eżempji li għandhom l-għan li jissimulaw l-interazzjonijiet manwali tagħna mal-mudelli waqt il-proċess.

Nemmnu li riċerka ġdida fruntiera hija forsi l-aktar mod importanti biex nivvalutaw il-kapaċitajiet tal-mudelli AI tal-ġenerazzjoni li jmiss. Il-benchmarks huma utli, iżda jistgħu jitilfu xi wħud mill-aktar partijiet diffiċli tar-riċerka: iż-żamma ta’ ktajjen twal ta’ raġunament, l-għażla tal-astrazzjonijiet it-tajba, l-immaniġġjar tal-ambigwità fid-dikjarazzjonijiet tal-problemi, u l-produzzjoni ta’ argumenti li jifilħu għall-iskrutinju tal-esperti. Sfidi fruntiera bħal First Proof jgħinuna nittestjaw sew dawk il-kapaċitajiet f’ambjenti fejn il-korrettezza mhix trivjali biex tiġi vverifikata u fejn il-modi ta’ falliment huma informattivi.

“Bħalissa qed inħarrġu mudell ġdid li għalih fokus primarju huwa li nżidu l-livell ta’ rigorożità fil-ħsieb tiegħu, bil-għan li l-mudell ikun jista’ jaħseb kontinwament għal ħafna sigħat u jibqa’ kunfidenti ħafna fil-konklużjonijiet tiegħu. Meta tħabbru l-problemi ta’ First Proof, deherli li kien l-ambjent ta’ prova perfett, għalhekk matul tmiem il-ġimgħa ppruvajtu. Diġà kien kapaċi jsolvi tnejn mill-problemi (#9 u #10). Hekk kif tħarreġ, sar dejjem aktar kapaċi, u fl-aħħar solvejna—skont l-istima tagħna—mill-inqas tlieta oħra. Konna partikolarment kuntenti meta solva #6 u mbagħad, jumejn wara, #4, peress li dawk il-problemi kienu minn oqsma familjari għal ħafna minna. Huwa tassew inkredibbli tara mudell isir b’mod tanġibbli aktar intelliġenti jum wara jum.”

– James R. Lee (Riċerkatur ta’ OpenAI, Reasoning)

Mexxejna l-mudell b’superviżjoni umana limitata. Meta konna nagħtu prompts lil verżjonijiet tal-mudell tul it-taħriġ, xi drabi ssuġġerejna li jerġa’ jipprova strateġiji li dehru promettenti f’tentattivi preċedenti. Għal xi tentattivi, tlabna lill-mudell jespandi jew jiċċara partijiet minn prova wara li rċevejna feedback mingħand esperti, biex ir-raġunament ikun aktar faċli biex jiġi vverifikat. Aħna ffaċilitajna wkoll skambju bejn dan il-mudell u ChatGPT għall-verifika, l-ifformattjar u l-istil. Għal xi problemi, nippreżentaw l-aħjar minn ftit tentattivi, magħżula permezz ta’ ġudizzju uman. Dan kien sprint mgħaġġel, u l-proċess tagħna ma kienx nadif daqs kemm nixtiequ f’evalwazzjoni kkontrollata kif suppost. Nistennew bil-ħerqa diskussjonijiet mal-organizzaturi ta’ First Proof dwar qafas ta’ esperiment u evalwazzjoni aktar rigoruż għal iterazzjonijiet futuri.

Dan ix-xogħol jibni fuq riżultati preċedenti minn mudelli tar-raġunament fruntiera fil-matematika u x-xjenza. F’Lulju 2025, ksibna prestazzjoni ta’ livell ta’ midalja tad-deheb(jinfetaħ f’tieqa ġdida) fl-Olimpjada Internazzjonali tal-Matematika b’mudell tar-raġunament għal użu ġenerali (35/42 punt). F’Novembru 2025, qsamna “Esperimenti bikrija fl-aċċellerazzjoni tax-xjenza b’GPT‑5”, sett ta’ studji ta’ każ fejn GPT‑5 għen lir-riċerkaturi jagħmlu progress konkret fil-matematika, il-fiżika, il-bijoloġija u oqsma oħra, flimkien mal-limitazzjonijiet li osservajna. U l-aktar reċenti, irrapportajna kollaborazzjoni fil-fiżika fejn GPT‑5.2 ippropona espressjoni kandidat għal formula ta’ amplitudni ta’ gluon li mbagħad ġiet ippruvata formalment minn mudell intern u vverifikata mill-awturi.

Nistennew bil-ħerqa impenn aktar profond mal-komunità dwar kif jiġi evalwat raġunament ta’ livell ta’ riċerka, inkluż feedback minn esperti fuq dawn it-tentattivi, u aħna eċċitati li nagħmlu dawn il-kapaċitajiet ġodda disponibbli f’mudelli pubbliċi futuri.

Awtur

OpenAI