Matja e performancës së modeleve tona në detyrat e botës reale
Ne po prezantojmë GDPval, një vlerësim të ri që mat performancën e modelit në detyra me vlerë ekonomike në botën reale në 44 profesione.
Misioni ynë është të sigurojmë që i gjithë njerëzimi të përfitojë nga inteligjenca e përgjithshme artificiale. Si pjesë e misionit tonë, duam të komunikojmë në mënyrë transparente progresin se si modelet e IA-së mund të ndihmojnë njerëzit në botën reale. Prandaj po prezantojmë GDPval: një vlerësim i ri i krijuar për të na ndihmuar të gjurmojmë se sa mirë performojnë modelet tona dhe të tjerët në detyra me vlerë ekonomike, në botën reale. Ne e quajmë këtë vlerësim GDPval sepse filluam me konceptin e Produktit të Brendshëm Bruto (GDP) si një tregues kryesor ekonomik dhe nxorëm detyra nga profesionet kryesore në industritë që kontribuojnë më shumë në GDP.
Njerëzit shpesh spekulojnë për ndikimin më të gjerë të IA-së në shoqëri, por mënyra më e qartë për të kuptuar potencialin e saj është duke parë se çfarë janë të afta të bëjnë modelet. Historia tregon se teknologjiveë kryesore – nga interneti te telefonat inteligjentë – i është dashur më shumë se një dekadë për të kaluar nga shpikja te përdorimi i gjerë. Vlerësimet si GDPval ndihmojnë që bisedat për përmirësimet e ardhshme të IA-së të bazohen në prova dhe jo në hamendësime, dhe mund të na ndihmojnë të ndjekim përmirësimin e modelit me kalimin e kohës.
Vlerësimet e mëparshme të IA-së, si testet akademike sfiduese dhe sfidat konkurruese të kodimit, kanë qenë thelbësore për të shtyrë kufijtë e aftësive të arsyetimit të modeleve, por shpesh nuk përputhen me llojin e detyrave që shumë njerëz trajtojnë në punën e tyre të përditshme.
Për të kapërcyer këtë hendek, kemi zhvilluar vlerësime që matin aftësi gjithnjë e më realiste dhe me rëndësi ekonomike. Ky përparim ka kaluar nga standardet klasike akademike si MMLU (pyetje në stilin e provimeve në dhjetëra lëndë), në vlerësime më të aplikuara si SWE-Bench (detyrat e rregullimit të gabimeve në inxhinierinë softuerike), MLE-Bench (detyrat e inxhinierisë së mësimit të makinerive si trajnimi dhe analiza e modeleve), dhe Paper-Bench (arsyetimi shkencor dhe kritika mbi punimet kërkimore), dhe më së fundmi në vlerësime të bazuara në treg si SWE-Lancer (projekte freelance të inxhinierisë softuerike të bazuara në pagesa reale).
GDPval është hapi i ardhshëm në atë përparim. Ai mat performancën e modelit në detyra të nxjerra drejtpërdrejt nga puna reale e njohurive të profesionistëve me përvojë në një gamë të gjerë profesionesh dhe sektorësh, duke ofruar një pamje më të qartë se si modelet performojnë në detyra me vlerë ekonomike. Vlerësimi i modeleve në detyra realiste profesionale na ndihmon të kuptojmë jo vetëm se sa mirë performojnë ato në laborator, por edhe se si mund të ofrojnë mbështetje njerëzve në punën që bëjnë çdo ditë.
GDPval, versioni i parë i këtij vlerësimi, përfshin 44 profesione të zgjedhura nga 9 industritë kryesore që kontribuojnë në PBB-në e SHBA-së. Seti i plotë GDPval përfshin 1,320 detyra të specializuara (220 në setin e artë me burim të hapur), secila e krijuar dhe e verifikuar me kujdes nga profesionistë me përvojë mesatare prej mbi 14 vjetësh në këto fusha. Çdo detyrë bazohet në produkte reale pune, si një përmbledhje ligjore, një plan inxhinierik, një bisedë me mbështetjen e klientit, ose një plan për kujdesin infermieror.
GDPval është i veçantë si për realizimin ashtu edhe për diversitetin e detyrave që vlerësohen. Ndryshe nga vlerësimet e tjera të lidhura me vlerën ekonomike që përqendrohen në domene specifike (p.sh., SWE-Lancer), GDPval mbulon shumë detyra dhe profesione. Dhe ndryshe nga standardet që përfshijnë krijimin sintetik të detyrave në stilin e një provimi akademik ose testi (p.sh., Humanity’s Last Exam ose MMLU), GDPval fokusohet në detyra të bazuara në produkte që janë ose një pjesë aktuale e punës ose produkt që ekziston sot, ose janë një pjesë e punës së ndërtuar në mënyrë të ngjashme.
Ndryshe nga standardet tradicionale, detyrat GDPval nuk janë kërkesa të thjeshta teksti. Ato vijnë me skedarë reference dhe kontekst, dhe dorëzimet e pritshme përfshijnë dokumente, slajde, diagrame, fletëllogaritëse dhe multimedia. Ky realizëm e bën GDPval një test më realist për mënyrën se si modelet mund të ofrojnë mbështetje për profesionistët.
GDPval është një hap i hershëm që nuk pasqyron të gjitha nuancat e shumë detyrave ekonomike. Ndërsa përfshin 44 profesione dhe qindra detyra të punës së njohurive, është i kufizuar në vlerësime një-herëshe, kështu që nuk përfshin rastet ku një model do të duhet të ndërtojë kontekst ose të përmirësohet përmes draftave të shumta. Versionet e ardhshme do të zgjerohen në procese pune më interaktive dhe detyra të pasura me kontekst për të pasqyruar më mirë kompleksitetin e punës me njohuri në botën reale (shiko më shumë në seksionin tonë të Kufizimeve më poshtë).
GDPval mbulon detyra në 9 industri dhe 44 profesione, dhe versionet e ardhshme do të vazhdojnë të zgjerojnë mbulimin. Industritë fillestare prej 9 sektorësh u zgjodhën bazuar në ato që kontribuojnë mbi 5% në PBB-në e SHBA-së, sipas të dhënave nga Federal Reserve Bank e St. Louis. Pastaj, zgjodhëm 5 profesionet brenda secilës industri që kontribuojnë më shumë në pagat dhe kompensimet totale dhe që janë kryesisht profesione të bazuara në njohuri, duke përdorur të dhëna për pagat dhe punësimin nga raporti i punësimit profesional të Byrosë së Statistikave të Punës të SHBA-së për maj 2024(hapet në një dritare të re). Për të përcaktuar nëse profesionet ishin kryesisht të bazuara në njohuri, ne përdorëm të dhëna nga O*NET(hapet në një dritare të re), një bazë të dhënash e informacionit profesional të SHBA-së e sponsorizuar nga Departamenti Amerikan i Punës. Ne klasifikuam nëse çdo detyrë për çdo profesion në O*NET ishte punë e bazuar në njohuri apo punë fizike/punë manuale (që kërkon që veprimet të ndërmerren në botën fizike). Një profesion kualifikohet në përgjithësi si "punë e bazuar në njohuri" nëse të paktën 60% e detyrave të tij përbërëse klasifikohen si të mos përfshijnë punë fizike ose punë manuale. Ne zgjodhëm këtë prag prej 60% si një pikënisje për versionin e parë të GDPval, duke u përqendruar në profesionet ku IA-ja mund të ketë ndikimin më të madh në produktivitetin e botës reale.
Ky proces rezultoi të përfshihej në 44 profesione.
Pasuri të paluajtshme dhe qiradhënie dhe dhënie me qira
Konciergë
Menaxherë të pronës, pasurive të paluajtshme dhe menaxherë të shoqatave të komunitetit
Agjentët e shitjeve të pasurive të patundshme
Agjentë të pasurive të patundshme
Nëpunës sporteli dhe qiraje
Qeveria
Punonjës të rekreacionit
Zyrtarë të pajtueshmërisë
Mbikëqyrësit e parë të policisë dhe detektivëve
Menaxherët e shërbimeve administrative
Punonjësit socialë për fëmijë, familje dhe shkollë
Prodhimi
Inxhinierë mekanikë
Inxhinierë industrialë
Blerësit dhe agjentët e blerjeve
Punonjësit e transportit, pranimit dhe inventarit
Mbikëqyrësit e linjës së parë të punëtorëve të prodhimit dhe operimit
Shërbime profesionale, shkencore dhe teknike
Zhvillues softuerësh
Avokatë
Kontabilistët dhe auditët
Menaxherët e sistemeve kompjuterike dhe të informacionit
Specialistë të menaxhimit të projekteve
Kujdesi shëndetësor dhe ndihma sociale
Infermierë të licencuar
Infermierë të avancuar
Menaxherët e shërbimeve mjekësore dhe shëndetësore
Mbikëqyrësit e linjës së parë të punonjësve të mbështetjes së zyrës dhe administrative
Sekretarë mjekësorë dhe asistentë administrativë
Financa dhe sigurime
Përfaqësuesit e shërbimit të klientëve
Analistë financiarë dhe të investimeve
Menaxherë financiarë
Këshilltarë financiarë personalë
Agjentët e shitjeve të titujve, mallrave dhe shërbimeve financiare
Tregtia me pakicë
Farmacistët
Mbikëqyrës të linjës së parë të punonjësve të shitjes me pakicë
Menaxherë të përgjithshëm dhe të operacioneve
Detektivë dhe hetues privatë
Tregtia me shumicë
Menaxherët e shitjeve
Nëpunës porosish
Mbikëqyrësit e linjës së parë të punonjësve të shitjeve jo me pakicë
Përfaqësuesit e shitjeve, me shumicë dhe prodhim, përveç produkteve teknike dhe shkencore
Përfaqësuesit e shitjeve, me shumicë dhe prodhim, produkte teknike dhe shkencore
Informacion
Teknikë audio dhe video
Prodhuesit dhe regjisorët
Analistë lajmesh, reporterë dhe gazetarë
Redaktorë filmash dhe videosh
Redaktorët
Për çdo profesion, ne punuam me profesionistë me përvojë për të krijuar detyra përfaqësuese që pasqyrojnë punën e tyre të përditshme. Këta profesionistë kishin mesatarisht 14 vjet përvojë, me ecuri të qëndrueshme përparimi. Ne rekrutuam qëllimisht një gamë të gjerë ekspertësh, si avokatë nga fusha të ndryshme praktike dhe firma të madhësive të ndryshme, për të maksimizuar përfaqësimin.
Çdo detyrë kaloi nëpër një proces rishikimi me shumë hapa për të siguruar që ishte përfaqësuese e punës reale, e realizueshme për një profesionist tjetër për ta përfunduar dhe e qartë për vlerësim. Mesatarisht, secila detyrë kaloi në 5 raunde rishikimi nga ekspertët, duke përfshirë kontrolle nga shkrues të tjerë detyrash, rishikues të tjerë profesionalë dhe validim të bazuar në model.
Të dhënat e përftuara përfshijnë 30 detyra të rishikuara plotësisht për çdo profesion (set i plotë) me 5 detyra për profesion në setin tonë të hapur të artë, duke ofruar një bazë të fortë për vlerësimin e performancës së modelit në punën e njohurive në botën reale.
Shembuj të detyrave të GDPval
Kërkesë + kontekst detyre
Rezultati final nga persona ekspertë

Për të vlerësuar performancën e modelit në detyrat GDPval, ne mbështetemi te “vlerësuesit” ekspertë – një grup profesionistësh me përvojë nga të njëjtat profesione të përfaqësuara në dataset. Këta vlerësues krahasojnë verbërisht dorëzimet e përftuara nga modelet me ato të prodhuara nga shkruesit e detyrave (pa e ditur cilat janë të përftuara nga IA dhe cilat nga njerëzit), dhe ofrojnë kritika dhe renditje. Vlerësuesit më pas rendisin dorëzimet e njerëzve dhe të IA-së dhe klasifikojnë secilën dorëzim të IA-së si "më i mirë", "po aq i mirë sa", ose "më i keqi se" tjetri.
Shkruesit e detyrave krijuan gjithashtu rubrika të detajuara të vlerësimit për profesionet e tyre, të cilat shtojnë konsistencë dhe transparencë në procesin e vlerësimit. Ne gjithashtu ndërtuam një “vlerësues të automatizuar”, një sistem IA-je i trajnuar për të vlerësuar se si ekspertët njerëzorë do të gjykonin një dorëzim të caktuar. Me fjalë të tjera, në vend që të bësh një rishikim të plotë nga ekspertët çdo herë, vlerësuesi i automatizuar mund të parashikojë shpejt se cilin rezultat do të preferonin njerëzit. Ne po e publikojmë këtë mjet përmes evals.openai.com si një shërbim kërkimor eksperimental, por ende nuk është aq i besueshëm sa vlerësuesit ekspertë, kështu që nuk e përdorim për t'i zëvendësuar ata.
Ne kemi zbuluar se modelet më të mira pararojë të sotme tashmë po afrohen me cilësinë e punës që prodhojnë ekspertët e industrisë. Për ta testuar këtë, ne kryem vlerësime anonime ku ekspertët e industrisë krahasuan rezultatet e disa modeleve kryesore – GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro dhe Grok 4 – me punën e prodhuar nga njerëzit. Në 220 detyra të setit të artë GDPval, ne regjistruam kur rezultatet e modelit u vlerësuan si më të mira se (“fitore”) ose të barabarta me (“barazime”) dorëzimet nga ekspertët e industrisë, siç tregohet në grafikun e mëposhtëm. Claude Opus 4.1 ishte modeli me performancën më të mirë në grup, duke shkëlqyer veçanërisht në estetikë (p.sh., formatimi i dokumentit, paraqitja e slajdeve), ndërsa GPT‑5 shkëlqeu veçanërisht në saktësi (p.sh., gjetja e njohurive specifike për domenin). Me kalimin e kohës ne gjithashtu shohim përparim të qartë në këto detyra. Performanca është më shumë se dyfishuar nga GPT‑4o (lançuar në pranverën e vitit 2024) në GPT‑5 (lançuar në verën e vitit 2025), duke ndjekur një trend të qartë linear.
Përveç kësaj, zbuluam se modelet pararojë mund të përfundojnë detyrat GDPval rreth 100 herë më shpejt dhe 100 herë më lirë se ekspertët e industrisë. Megjithatë, këto shifra pasqyrojnë vetëm kohën e inferencës së modelit dhe normat e faturimit të API-së, dhe për këtë arsye nuk përfshijnë mbikëqyrjen njerëzore, iteracionin dhe hapat e integrimit të nevojshëm në mjediset reale të punës për të përdorur modelet tona. Megjithatë, veçanërisht në nën-grupin e detyrave ku modelet janë veçanërisht të forta, ne presim që t'i japim një detyrë një modeli para se ta provojmë me një njeri do të ruaj kohë dhe para.
Vlerësuesit ekspertë krahasuan dorëzimet nga modelet kryesore me ato të ekspertëve njerëzorë. Modelet pararojë të sotme tashmë po afrohen me cilësinë e punës që prodhojnë ekspertët e industrisë. Claude Opus 4.1 prodhoi rezultate që u vlerësuan po aq mirë ose më mirë se ato të njerëzve në pak më pak se gjysmën e detyrave.
Nga GPT‑4o në GPT‑5, performanca në detyrat GDPval u trefishua më shumë se brenda një viti.
Së fundi, ne trajnuam gradualisht një version të brendshëm, eksperimental të GPT‑5 për të vlerësuar nëse mund të përmirësonim performancën në GDPval. Ne zbuluam se ky proces përmirësoi performancën, duke krijuar një rrugë për përmirësime të mëtejshme të mundshme. Eksperimente të tjera të kontrolluara e mbështesin këtë: rritja e madhësisë së modelit, inkurajimi i më shumë hapave të arsyetimit dhe ofrimi i një konteksti më të pasur të detyrës, secila çoi në përfitime të matshme.
Mund të lexosh rezultatet e plota në punimin tonë. Ne po publikojmë gjithashtu një nën-grup të artë të detyrave GDPval dhe një shërbim publik vlerësimi që studiuesit e tjerë të mund të ndërtojnë mbi këtë punë.
Ndërsa IA-ja bëhet më e aftë, ka të ngjarë të shkaktojë ndryshime në tregun e punës. Rezultatet e hershme të GDPval tregojnë se modelet tashmë mund të kryejnë disa detyra të përsëritura dhe të mirëpërcaktuara më shpejt dhe me kosto më të ulët se ekspertët. Megjithatë, shumica e punëve janë më shumë se thjesht një koleksion detyrash që mund të përshkruhen me shkrim. GDPval thekson se ku IA-ja mund të trajtojë detyrat rutinë në mënyrë që njerëzit të kalojnë më shumë kohë në pjesët krijuese dhe që kërkojnë gjykim në punë. Kur IA plotëson punëtorët në këtë mënyrë, mund të përkthehet në rritje të madhe ekonomike. Qëllimi ynë është të mbajmë të gjithë në progresin e IA-së duke demokratizuar aksesin në këto mjete, duke mbështetur punëtorët gjatë ndryshimeve dhe duke ndërtuar sisteme që shpërblejnë kontributin e gjerë.
GDPval është një hap i hershëm. Ndërsa mbulon 44 profesione dhe qindra detyra, ne po vazhdojmë të përmirësojmë qasjen tonë për të zgjeruar fushën e testimit dhe për t'i bërë rezultatet më kuptimplota. Versioni aktual i vlerësimit është gjithashtu një herë, kështu që nuk përfshin rastet kur një model do të kishte nevojë të ndërtojë kontekst ose të përmirësohet përmes disa draftesh – për shembull, rishikimi i një dokumenti ligjor pas përshtypjeve të klientit ose përsëritja e një analize të të dhënave pas zbulimit të një anomalie. Përveç kësaj, në botën reale, detyrat nuk janë gjithmonë të përcaktuara qartë me një kërkesë dhe skedarë referencë; për shembull, një avokat mund të duhet të navigojë nëpër paqartësi dhe të flasë me klientin e tij përpara se të vendosë që krijimi i një përmbledhjeje ligjore është qasja e duhur për t'i ndihmuar ata. Ne planifikojmë të zgjerojmë GDPval për të përfshirë më shumë profesione, industri dhe lloje detyrash, me interaktivitet të shtuar dhe më shumë detyra që përfshijnë navigimin e paqartësive, me qëllimin afatgjatë të matjes më të mirë të progresit në punën e njohurive të ndryshme.
- Nëse je ekspert i industrisë i interesuar për të kontribuar në GDPval, të lutem shprehe interesin tënd këtu.
- Nëse je një klient që punon me OpenAI dhe dëshiron të kontribuosh në një raund të ardhshëm të GDPval, ju lutem shprehni interesin këtu.
Pjesëmarrja e komunitetit është thelbësore – jemi të ngazëllyer të ndërtojmë GDPval së bashku me studiues, praktikues dhe organizata që ndajnë qëllimin tonë për ta bërë AGI më të dobishëm për njerëzit në punë.


