Kupima utendaji wa miundo yetu katika shughuli za ulimwengu halisi
Tunawaletea GDPval, tathmini mpya inayopima utendakazi wa muundo kwenye shughuli za kiuchumi zenye thamani katika taaluma 44.
Dhamira yetu ni kuhakikisha kwamba akili unde ya ujumla inanufaisha binadamu wote. Kama sehemu ya dhamira yetu, tunataka kuwasiliana kwa uwazi maendeleo kuhusu jinsi miundo ya AI inaweza kusaidia watu katika ulimwengu halisi. Ndio maana tunaleta GDPval: tathmini mpya iliyoundwa kusaidia kufuatilia jinsi miundo yetu na mingine inavyofanya kazi katika shughuli za ulimwengu halisi zenye thamani ya kiuchumi. Tunaipa tathmini hii jina la GDPval kwa sababu tulianza na dhana ya Pato la Taifa (GDP) kama kiashiria muhimu cha kiuchumi na tukachukua shughuli kutoka kwa kazi kuu katika sekta zinazochangia zaidi kwa GDP.
Watu mara nyingi hudhania kuhusu athari pana za AI kwenye jamii, lakini njia iliyo wazi zaidi ya kuelewa uwezo wake ni kwa kuangalia kile ambacho miundo tayari inaweza kufanya. Historia inaonyesha kwamba teknolojia kuu—kutoka intaneti hadi simu za mkononi—zilichukua zaidi ya muongo mmoja kutoka uvumbuzi hadi kupitishwa kwa upana. Tathmini kama GDPval husaidia kuweka mazungumzo kuhusu maboresho ya baadaye ya AI katika ushahidi badala ya kubahatisha, na zinaweza kutusaidia kufuatilia uboreshaji wa miundo kwa muda.
Tathmini za awali za AI kama mitihani migumu ya kitaaluma na changamoto za usimbaji wa mashindano zimekuwa muhimu katika kusukuma mipaka ya uwezo wa kufikiri wa miundo, lakini mara nyingi hazifikii aina ya shughuli ambazo watu wengi hushughulikia katika shughuli zao za kila siku.
Ili kuziba pengo hili, tumekuwa tukitengeneza tathmini zinazopima uwezo unaozidi kuwa halisi na muhimu kiuchumi. Maendeleo haya yamehamia kutoka kwa viwango vya kitaaluma vya kawaida kama MMLU (maswali ya mtihani katika masomo kadhaa), hadi tathmini zinazotumika zaidi kama SWE-Bench (shughuli za kurekebisha hitilafu katika uhandisi wa programu), MLE-Bench (shughuli za uhandisi wa kujifunza kwa mashine kama vile mafunzo ya muundo na uchambuzi), na Paper-Bench (ufahamu wa kisayansi na ukosoaji wa makala za utafiti), na hivi karibuni hadi tathmini zinazotegemea soko kama SWE-Lancer (miradi ya uhandisi wa programu ya kujitegemea inayotegemea malipo halisi).
GDPval ni hatua inayofuata katika mchakato huo. Inapima utendaji wa miundo kwenye shughuli zinazotokana moja kwa moja na kazi za maarifa za ulimwengu halisi za wataalamu wenye uzoefu katika taaluma na sekta mbalimbali, ikitoa picha wazi zaidi ya jinsi miundo zinavyofanya kazi kwenye shughuli zenye thamani ya kiuchumi. Kutathmini miundo katika shughuli halisi za kikazi hutusaidia kuelewa si tu jinsi zinavyofanya kazi maabara, bali pia jinsi zinaweza kutoa usaidizi kwa watu katika shughuli wanazofanya kila siku.
GDPval, toleo la kwanza la tathmini hii, linajumuisha kazi 44 zilizochaguliwa kutoka kwa sekta 9 za juu zinazochangia Pato la Taifa la Marekani. Seti kamili ya GDPval inajumuisha shughuli maalum 1,320 (220 katika seti ya dhahabu iliyo wazi), kila moja ikiwa imeundwa kwa umakini na kukaguliwa na wataalamu wenye uzoefu wa wastani wa zaidi ya miaka 14 kutoka katika nyanja hizi. Kila shughuli inategemea bidhaa halisi za kazi, kama vile muhtasari wa kisheria, mchoro wa uhandisi, mazungumzo ya usaidizi wa wateja au mpango wa huduma za uuguzi.
GDPval ni ya kipekee katika uhalisia wake na utofauti wa shughuli zinazotathminiwa. Tofauti na tathmini nyingine zinazohusishwa na thamani ya kiuchumi ambazo zinazingatia kikoa maalum (mfano, SWE-Lancer), GDPval inashughulikia shughuli na taaluma nyingi. Na tofauti na viwango ambavyo vinahusisha kuunda shughuli kwa mtindo wa mtihani wa kitaaluma au jaribio (kwa mfano, Humanity’s Last Exam au MMLU), GDPval inazingatia shughuli zinazotokana na bidhaa ambazo ni kazi halisi au bidhaa inayopatikana leo au ni shughuli zilizoundwa kwa njia sawa na bidhaa ya kazi.
Tofauti na vipimo vya jadi, shughuli za GDPval si dokeza rahisi vya maandishi. Wanakuja na faili za marejeo na muktadha, na vitu vinavyotarajiwa kutolewa vinajumuisha hati, slaidi, michoro, laha jedwali na vyombo vya habari vya multimedia. Uhalisia huu hufanya GDPval kuwa jaribio halisi zaidi la jinsi miundo inaweza kutoa usaidizi kwa wataalamu.
GDPval ni hatua ya awali isiyoweza kuonyesha kikamilifu nuances za shughuli nyingi za kiuchumi. Ingawa inajumuisha kazi 44 na mamia ya shughuli za kazi za maarifa, ni yenye kikomo kwa tathmini za mara moja, hivyo haikamatwi kesi ambapo muundo unahitaji kujenga muktadha au kuboresha kupitia rasimu nyingi. Matoleo yajayo yataongeza hadi kwenye mitiririko ya kazi shirikishi zaidi na shughuli zilizo na muktadha tajiri ili kuakisi vyema ugumu wa kazi za maarifa za ulimwengu halisi (tazama zaidi katika sehemu yetu ya Vikwazo hapa chini).
GDPval inashughulikia shughuli katika tasnia 9 na taaluma 44, na matoleo ya baadaye yataendelea kupanua wigo wa huduma. Sekta 9 za awali zilichaguliwa kulingana na zile zinazochangia zaidi ya 5% kwa Pato la Taifa la Marekani, kama ilivyobainishwa na data kutoka Benki ya Hifadhi ya Shirikisho la St. Louis. Kisha, tulichagua kazi 5 ndani ya kila sekta ambazo zinachangia zaidi kwenye jumla ya mishahara na fidia na ambazo ni kazi za maarifa, tukitumia data ya mishahara na ajira kutoka ripoti ya ajira ya Mei 2024 ya Ofisi ya Takwimu za Kazi ya Marekani (BLS)(fungua katika dirisha jipya). Ili kubaini kama kazi hizo zilikuwa za maarifa kwa kiasi kikubwa, tulitumia data ya shughuli kutoka O*NET(fungua katika dirisha jipya), hifadhidata ya taarifa za kazi za Marekani inayodhaminiwa na Idara ya Kazi ya Marekani. Tulibainisha ikiwa kila shughuli katika kila taaluma katika O*NET ilikuwa kazi ya maarifa au kazi ya kimwili/kazi ya mikono (inayohitaji vitendo kuchukuliwa katika ulimwengu wa kimwili). Kazi inastahili kuelezewa kama "kazi ya maarifa kwa kiasi kikubwa" ikiwa angalau asilimia 60 ya shughuli zake zimeainishwa kama zisizohusisha kazi ya kimwili au kazi ya mikono. Tulichagua kizingiti hiki cha asilimia 60 kama sehemu ya kuanzia kwa toleo la kwanza la GDPval, tukilenga kazi ambazo AI inaweza kuwa na athari kubwa zaidi kwenye tija ya ulimwengu halisi.
Mchakato huu ulitoa kazi 44 za kujumuishwa.
Mali isiyohamishika, ukodishaji na upangaji
Wahudumu wa mapokezi
Wasimamizi wa mali, mali isiyohamishika na usimamizi wa jumuiya.
Mawakala wa mauzo wa mali isiyohamishika
Wakala wa mali isiyohamishika
Wahudumu wa kaunta na wapangaji
Serikali
Wafanyakazi wa burudani
Maafisa wa Uzingatiaji
Wasimamizi wa mstari wa kwanza wa polisi na wapelelezi
Wasimamizi wa huduma za kiutawala
Wafanyakazi wa kijamii wa watoto, familia na shule
Uzalishaji
Wahandisi wa mitambo
Wahandisi wa viwanda
Wanunuzi na mawakala wa ununuzi
Wafanyakazi wa usafirishaji, upokeaji na uhifadhi wa hesabu
Wasimamizi wa mstari wa kwanza wa wafanyakazi wa uzalishaji na waendeshaji
Huduma za kitaalamu, kisayansi na kiufundi
Wasanidi programu wa programu
Mawakili
Wahasibu na wakaguzi
Wasimamizi wa mifumo ya kompyuta na mifumo ya habari
Wataalamu wa usimamizi wa miradi
Huduma za afya na usaidizi wa kijamii
Wauguzi waliosajiliwa
Wauguzi wataalamu
Wasimamizi wa huduma za matibabu na afya
Wasimamizi wa mstari wa kwanza wa wafanyakazi wa ofisi na usaidizi wa utawala
Makatibu wa matibabu na wasaidizi wa kiutawala
Fedha na bima
Wawakilishi wa huduma kwa wateja
Wachambuzi wa kifedha na uwekezaji
Wasimamizi wa kifedha
Washauri wa kifedha wa kibinafsi
Mawakala wa mauzo wa dhamana, bidhaa na huduma za kifedha
Biashara ya rejareja
Wafamasia
Wasimamizi wa mstari wa kwanza wa wafanyakazi wa mauzo ya rejareja
Wasimamizi wa Jumla na Shughuli
Wapelelezi binafsi na wachunguzi
Biashara ya jumla
Meneja wa mauzo
Waagize makarani
Wasimamizi wa mstari wa kwanza wa wafanyakazi wa mauzo wasio wa rejareja
Wawakilishi wa mauzo, jumla na utengenezaji, isipokuwa bidhaa za kiteknolojia na kisayansi
Wawakilishi wa mauzo, jumla na utengenezaji, bidhaa za kiufundi na za kisayansi
Taarifa
Wataalamu wa sauti na video
Wazalishaji na wakurugenzi
Wachambuzi wa habari, waandishi wa habari na wanahabari
Wahariri wa filamu na video
Wahariri
Kwa kila taaluma, tulifanya kazi na wataalamu wenye uzoefu kuunda shughuli zinazowakilisha kazi yao ya kila siku. Wataalamu hawa walikuwa na wastani wa miaka 14 ya uzoefu, wakiwa na rekodi nzuri za kupanda vyeo. Tulikusudia kuajiri wataalamu wa aina mbalimbali—kama vile mawakili kutoka maeneo tofauti ya mazoezi na kampuni za ukubwa tofauti—ili kuongeza uwakilishi.
Kila shughuli ilipitia mchakato wa mapitio wa hatua nyingi ili kuhakikisha kuwa inawakilisha kazi halisi, inawezekana kukamilishwa na mtaalamu mwingine na ni wazi kwa tathmini. Kwa wastani, kila shughuli ilipokea raundi 5 za ukaguzi wa kitaalamu, ikijumuisha ukaguzi kutoka kwa waandishi wengine wa shughuli, wakaguzi wa ziada wa kitaaluma na uthibitishaji unaotegemea muundo.
Seti ya data inayotokana inajumuisha shughuli 30 zilizokaguliwa kikamilifu kwa kila taaluma (seti kamili) na shughuli 5 kwa kila taaluma katika seti yetu ya dhahabu iliyo wazi, ikitoa msingi thabiti wa kutathmini utendaji wa muundo katika kazi za maarifa za ulimwengu halisi.
Mifano ya shughuli za GDPval
Dokeza + muktadha wa shughuli
Utoaji wa binadamu mwenye uzoefu

Ili kutathmini utendaji wa muundo kwenye shughuli za GDPval, tunategemea "watahini" wataalamu—kikundi cha wataalamu wenye uzoefu kutoka taaluma zile zile zinazowakilishwa kwenye seti ya data. Wapimaji hawa hulinganisha bila upendeleo utoaji wa kazi uliozalishwa na miundo ya AI na ule uliozalishwa na waandishi wa shughuli (bila kujua ni upi umetengenezwa na AI na upi na binadamu) na kutoa maoni na viwango. Wapimaji kisha hupanga utoaji wa binadamu na AI na kuainisha kila utoaji wa AI kama "bora", "sawa na" au "mbaya zaidi kuliko" mwingine.
Waandishi wa shughuli pia waliunda rubrics za kina za upangaji alama kwa shughuli zao, ambazo zinaongeza uthabiti na uwazi katika mchakato wa upangaji alama. Pia tulijenga "mpimaji wa kiotomatiki", mfumo wa AI uliofunzwa kukadiria jinsi wataalam wa kibinadamu wangekadiria kazi iliyotolewa. Kwa maneno mengine, badala ya kufanya mapitio kamili ya mtaalamu kila wakati, kipima alama cha kiotomatiki kinaweza kutabiri haraka ni matokeo gani ambayo watu wangependelea. Tunatoa zana hii kupitia evals.openai.com kama huduma ya utafiti wa majaribio, lakini bado si ya kuaminika kama wakadiriaji wataalamu, kwa hivyo hatuitumii kuwachukua nafasi yao.
Tuligundua kwamba miundo bora ya kisasa ya leo tayari inakaribia ubora wa kazi inayozalishwa na wataalamu wa sekta. Ili kujaribu hili, tuliendesha tathmini zisizo na upendeleo ambapo wataalamu wa tasnia walilinganisha kazi zilizotolewa kutoka kwa miundo kadhaa inayoongoza—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro na Grok 4—dhidi ya kazi iliyotolewa na binadamu. Katika shughuli 220 kwenye seti ya dhahabu ya GDPval, tulirekodi wakati matokeo ya miundo yalipokadiriwa kuwa bora kuliko (“ushindi”) au sawa na (“sare”) na utoaji kutoka kwa wataalamu wa sekta, kama inavyoonyeshwa kwenye chati ya nguzo hapa chini. Claude Opus 4.1 ulikuwa muundo bora zaidi katika seti, ukibobea hasa katika urembo (kwa mfano, upangaji wa hati, mpangilio wa slaidi), na GPT‑5 ilibobea hasa katika usahihi (kwa mfano, kupata maarifa maalum ya kikoa). Pia tunaona maendeleo dhahiri baada ya muda kwenye shughuli hizi. Utendaji umeongezeka zaidi ya mara mbili kutoka GPT‑4o (iliyotolewa katika msimu wa kuchipua 2024) hadi GPT‑5 (iliyotolewa katika msimu wa joto 2025), ikifuata mwenendo wa wazi wa mstari.
Zaidi ya hayo, tuligundua kuwa miundo ya kisasa inaweza kukamilisha shughuli za GDPval takriban mara 100 haraka zaidi na kwa gharama ya chini mara 100 kuliko wataalamu wa sekta. Hata hivyo, takwimu hizi zinaonyesha muda wa utambuzi wa muundo na viwango vya malipo vya API, na kwa hivyo hazijumuishi usimamizi wa kibinadamu, marudio, na hatua za ujumuishaji zinazohitajika katika mazingira halisi ya kazi ili kutumia miundo yetu. Hata hivyo, hasa kwenye sehemu ndogo ya shughuli ambapo miundo ni imara sana, tunatarajia kwamba kutoa shughuli kwa muundo kabla ya kuijaribu na binadamu kuhifadhi muda na pesa.
Wakadiriaji wataalamu walilinganisha matokeo kutoka kwa miundo inayoongoza na wataalamu wa kibinadamu. Miundo ya kisasa ya leo tayari inakaribia ubora wa kazi inayozalishwa na wataalamu wa sekta. Claude Opus 4.1 ilitoa matokeo yaliyokadiriwa kuwa sawa na au bora kuliko ya wanadamu katika chini ya nusu ya shughuli.
Kutoka GPT‑4o hadi GPT‑5, utendaji kwenye shughuli za GDPval uliongezeka zaidi ya mara tatu katika mwaka mmoja.
Hatimaye, tulifundisha kwa hatua kwa hatua toleo la ndani, la majaribio la GPT‑5 ili kutathmini kama tunaweza kuboresha utendakazi kwenye GDPval. Tuligundua kuwa mchakato huu umeboresha utendakazi, na unda njia kwa ajili ya maboresho zaidi yanayowezekana. Majaribio mengine yaliyodhibitiwa yanathibitisha hili: kuongeza ukubwa wa muundo, kuhimiza hatua zaidi za kuhoji na kutoa muktadha tajiri wa shughuli kila moja ilisababisha faida zinazoweza kupimika.
Unaweza kusoma matokeo kamili katika karatasi yetu. Pia tunatoa sehemu ya dhahabu ya shughuli za GDPval na huduma ya umma ya upimaji ili watafiti wengine waweze kujenga juu ya kazi hii.
Kadiri AI inavyozidi kuwa na uwezo, kuna uwezekano mkubwa wa kusababisha mabadiliko katika soko la ajira. Matokeo ya awali ya GDPval yanaonyesha kuwa miundo tayari inaweza kushughulikia baadhi ya shughuli zinazojirudia na zilizobainishwa vizuri kwa haraka na kwa gharama nafuu kuliko wataalamu. Hata hivyo, kazi nyingi ni zaidi ya mkusanyiko wa shughuli ambazo zinaweza kuandikwa chini. GDPval inaonyesha mahali ambapo AI inaweza kushughulikia shughuli za kawaida ili watu waweze kutumia muda zaidi kwenye sehemu za kazi zinazohitaji ubunifu na maamuzi mengi. Wakati AI inawasaidia wafanyakazi kwa njia hii, inaweza kuleta ukuaji mkubwa wa kiuchumi. Lengo letu ni kuweka kila mtu kwenye "lifti ya juu" ya AI kwa kudemokrasia upatikanaji wa zana hizi, kuwaunga mkono wafanyakazi kupitia mabadiliko, na kujenga mifumo inayothamini mchango mpana.
GDPval ni hatua ya awali. Ingawa inashughulikia kazi 44 na mamia ya shughuli, tunaendelea kuboresha mbinu yetu ili kupanua wigo wa majaribio yetu na kufanya matokeo kuwa ya maana zaidi. Toleo la sasa la tathmini pia ni la mara moja, kwa hivyo halikamata kesi ambapo muundo ungehitaji kujenga muktadha au kuboresha kupitia rasimu nyingi—kwa mfano, kurekebisha muhtasari wa kisheria baada ya majibu ya programu teja au kurudia uchambuzi wa data baada ya kugundua hitilafu. Zaidi ya hayo, katika ulimwengu halisi, shughuli hazijafafanuliwa wazi kila mara na dokeza na faili za marejeo; kwa mfano, wakili anaweza kulazimika kuzunguka katika hali ya kutokuwa na uhakika na kuzungumza na programu teja wao kabla ya kuamua kwamba kuunda muhtasari wa kisheria ni njia sahihi ya kuwasaidia. Tunapanga kupanua GDPval ili kujumuisha shughuli zaidi, viwanda, na aina za shughuli, na kuongezeka kwa mwingiliano, pamoja na shughuli zaidi zinazohusisha kushughulikia utata, kwa lengo la muda mrefu la kupima vyema maendeleo katika kazi za maarifa mbalimbali.
- Ikiwa wewe ni mtaalamu wa sekta anayevutiwa na kuchangia GDPval, tafadhali onyesha nia yako hapa.
- Ikiwa wewe ni mteja unayefanya kazi na OpenAI na ungependa kuchangia katika awamu ya baadaye ya GDPval, tafadhali eleza nia yako hapa.
Ushiriki wa jamii ni muhimu—tunafurahia kujenga GDPval pamoja na watafiti, wataalamu na mashirika yanayoshiriki lengo letu la kufanya AGI iwe na manufaa zaidi kwa watu kazini.


