Mawasilisho yetu ya First Proof
Tunashiriki majaribio yetu ya uthibitisho wa First Proof, changamoto ya hisabati inayopima kama AI inaweza kutoa uthibitisho unaoweza kukaguliwa kwenye matatizo maalum ya kikoa.
Tuliendesha muundo wa ndani kwenye matatizo yote 10 ya First Proof(fungua katika dirisha jipya), changamoto ya hisabati ya kiwango cha utafiti iliyoundwa kupima kama mifumo ya AI inaweza kutoa majaribio sahihi ya uthibitisho yanayoweza kukaguliwa. Tofauti na hisabati ya majibu mafupi au ya mtindo wa ushindani, matatizo haya yanahitaji kuunda hoja za mwisho hadi mwisho katika vikoa maalum, na usahihi ni mgumu kuthibitisha bila mapitio ya mtaalamu. Waandishi wa matatizo ya First Proof ni wataalamu wakuu katika nyanja zao husika, na angalau matatizo mawili yalikuwa wazi kwa miaka kabla ya waandishi kupata suluhisho. Idara ya kitaaluma yenye mwingiliano mkubwa na maeneo ya masomo inaweza kutatua matatizo mengi kwa wiki moja.
Sisi tulishiriki(fungua katika dirisha jipya) majaribio yetu ya uthibitisho Jumamosi, Februari 14, 2026 saa 12:00 asubuhi PT. Kulingana na maoni kutoka kwa wataalamu, tunaamini angalau majaribio matano ya uthibitisho ya muundo (matatizo 4, 5, 6, 9, na 10) yana uwezekano mkubwa wa kuwa sahihi, na mengine kadhaa bado yanakaguliwa. Hapo awali tuliamini kwamba jaribio letu la tatizo la 2 lilikuwa sahihi. Kulingana na maoni rasmi ya First Proof na uchambuzi zaidi wa jamii, sasa tunaamini kuwa si sahihi. Tunashukuru kwa ushiriki na tunatarajia kuendelea na ukaguzi. Seti yetu kamili ya majaribio ya uthibitisho inaweza kupatikana hapa(fungua katika dirisha jipya). Chapisho la awali linajumuisha majaribio yote kumi ya uthibitisho, pamoja na kiambatisho kipya kilichoongezwa chenye mifumo ya dokeza na mifano inayolenga kuiga mwingiliano wetu wa mikono na miundo wakati wa mchakato.
Tunaamini kuwa utafiti wa kisasa wa kiwango cha juu huenda ndiyo njia muhimu zaidi ya kutathmini uwezo wa miundo ya AI ya kizazi kijacho. Vigezo vya utendaji ni muhimu, lakini vinaweza kukosa baadhi ya sehemu ngumu zaidi za utafiti: kudumisha misururu mirefu ya uwazaji, kuchagua dhana sahihi, kushughulikia utata katika taarifa za tatizo, na kutoa hoja zinazostahimili uchunguzi wa wataalamu. Changamoto za kiwango cha juu kama First Proof hutusaidia kupima uwezo huo kwa shinikizo katika mazingira ambapo usahihi si rahisi kuthibitisha na njia za kushindwa zinatoa taarifa muhimu.
“Kwa sasa tunafunza muundo mpya ambao lengo kuu ni kuongeza kiwango cha umakini katika kufikiri kwake, kwa lengo kwamba muundo uweze kufikiri mfululizo kwa saa nyingi na kubaki na uhakika wa juu katika hitimisho lake. Wakati matatizo ya First Proof yalipotangazwa, yalionekana kama mazingira bora ya majaribio, kwa hivyo mwishoni mwa wiki niliijaribu. Tayari iliweza kutatua matatizo mawili (#9 na #10). Ilipokuwa ikifundishwa, ilizidi kuwa na uwezo, na hatimaye ikatatua–kwa makadirio yetu–angalau tatu zaidi. Tulifurahi sana ilipotatua #6 na kisha, siku mbili baadaye, #4, kwani matatizo hayo yalikuwa kutoka katika nyanja zinazofahamika kwa wengi wetu. Inashangaza sana kuona muundo ukiboreka kwa njia dhahiri siku baada ya siku.
– James R. Lee (Mtafiti wa OpenAI, Utafiti wa Uwazaji)
Tuliendesha muundo kwa usimamizi mdogo wa kibinadamu. Tulipokuwa tukitoa dokezo kwa matoleo ya muundo wakati wa mafunzo, mara kwa mara tulipendekeza mikakati ya kujaribu tena ambayo ilionekana kuwa na mafanikio katika majaribio ya awali. Kwa baadhi ya majaribio, tuliomba muundo kupanua au kufafanua sehemu za uthibitisho baada ya kupokea maoni kutoka kwa wataalamu, ili kufanya uwazaji uwe rahisi kuthibitisha. Pia tuliwezesha mazungumzo ya kurudiarudia kati ya muundo huu na ChatGPT kwa ajili ya uthibitishaji, uumbizaji, na mtindo. Kwa baadhi ya matatizo, tunawasilisha bora zaidi kati ya majaribio machache, yaliyochaguliwa kwa uamuzi wa binadamu. Huu ulikuwa mwendo wa kasi, na mchakato wetu haukuwa safi kama tulivyotaka katika tathmini inayodhibitiwa ipasavyo. Tunatarajia majadiliano na waandaaji wa First Proof kuhusu mfumo madhubuti zaidi wa majaribio na tathmini kwa awamu zijazo.
Kazi hii inatokana na matokeo ya awali kutoka kwa miundo ya kiwango cha juu cha uwazaji katika hesabu na sayansi. Mnamo Julai 2025, tulifikia utendaji wa kiwango cha medali ya dhahabu(fungua katika dirisha jipya) katika Olimpiki ya Kimataifa ya Hisabati kwa muundo wa uwazaji wa matumizi ya jumla (35/42 pointi). Mnamo Novemba 2025, tulishiriki “Majaribio ya awali ya kuharakisha sayansi kwa kutumia GPT‑5”, seti ya masomo ya kesi ambapo GPT‑5 ilisaidia watafiti kufanya maendeleo thabiti katika hisabati, fizikia, biolojia, na nyanja nyingine, pamoja na vikwazo tulivyobaini. Na hivi karibuni zaidi, tuliripoti ushirikiano wa fizikia ambapo GPT‑5.2 ilipendekeza usemi kwa fomula ya amplitudi ya gluoni ambayo baadaye ilithibitishwa rasmi na muundo wa ndani na kuthibitishwa na waandishi.
Tunatarajia ushirikiano wa kina zaidi na jamii kuhusu jinsi ya kutathmini uwazaji wa kiwango cha utafiti, ikijumuisha maoni ya wataalam kuhusu majaribio haya, na tunafurahia kufanya uwezo huu mpya upatikane katika miundo ya umma ya siku zijazo.


