25 սեպտեմբերի, 2025 թ.

Մեր մոդելների կատարողականի չափումը իրական աշխարհի առաջադրանքներում

Մենք ներկայացնում ենք GDPval-ը՝ նոր գնահատում, որը չափում է մոդելի կատարողականությունը տնտեսապես արժեքավոր, իրական աշխարհի առաջադրանքների վրա՝ 44 մասնագիտությունների շրջանակներում։

Կարդացեք հոդվածը Այցելեք evals.openai.com

Մեր առաքելությունն է՝ ապահովել, որ արհեստական բանականությունն օգտակար լինի ողջ մարդկությանը: Մեր առաքելության շրջանակներում մենք ցանկանում ենք թափանցիկ կերպով հաղորդել, թե ինչպես կարող են ԱԲ մոդելները օգնել մարդկանց իրական աշխարհում։ Ահա թե ինչու մենք ներկայացնում ենք GDPval-ը՝ նոր գնահատում, որը նախատեսված է մեզ օգնելու հետևել, թե որքան լավ են մեր և այլ մոդելները կատարում տնտեսապես արժեքավոր, իրական աշխարհի առաջադրանքները։ Մենք այս գնահատումը կոչում ենք GDPval, քանի որ մենք սկսեցինք Համախառն ներքին արտադրանքի (ՀՆԱ) գաղափարից՝ որպես հիմնական տնտեսական ցուցանիշ, և առաջադրանքներ վերցրեցինք այն ոլորտների հիմնական մասնագիտություններից, որոնք առավելապես նպաստում են ՀՆԱ-ին։

Մարդիկ հաճախ են մտորում արհեստական բանականության հասարակության վրա ավելի լայն ազդեցության մասին, բայց դրա ներուժը հասկանալու ամենաճշգրիտ միջոցը մոդելների արդեն իսկ ընդունակություններին նայելն է։ Պատմությունը ցույց է տալիս, որ հիմնական տեխնոլոգիաները՝ համացանցից մինչև սմարթֆոններ, ավելի քան տասը տարի պահանջեցին գյուտից մինչև լայն ընդունում անցնելու համար։ Նման գնահատումները, ինչպիսիք են GDPval-ը, օգնում են ապագա ԱԲ բարելավումների մասին խոսակցությունները հիմնավորել ապացույցներով՝ այլ ոչ թե ենթադրություններով, և կարող են օգնել մեզ հետևել մոդելի բարելավմանը ժամանակի ընթացքում։

Նախորդ ԱԲ գնահատումները, ինչպիսիք են բարդ ակադեմիական թեստերը և մրցակցային կոդավորման մարտահրավերները, կարևոր են եղել մոդելների հիմնավորման կարողությունների սահմանները ընդլայնելու համար, բայց հաճախ չեն համապատասխանում այնպիսի առաջադրանքներին, որոնք շատ մարդիկ կատարում են իրենց ամենօրյա աշխատանքում։

Այս բացը լրացնելու համար մենք մշակում ենք գնահատականներ, որոնք չափում են ավելի ու ավելի իրատեսական և տնտեսական առումով կարևոր կարողությունները։ Այս առաջընթացը շարժվել է դասական ակադեմիական չափանիշներից, ինչպիսիք են MMLU-ն (քննական ոճի հարցեր տասնյակ առարկաների շուրջ), դեպի ավելի կիրառական գնահատումներ, ինչպիսիք են SWE-Bench (ծրագրային ապահովման սխալների շտկման առաջադրանքներ), MLE-Bench (մեքենայական ուսուցման առաջադրանքներ, ինչպիսիք են մոդելի ուսուցումն ու վերլուծությունը), Paper-Bench (գիտական դատողություն և հետազոտական հոդվածների վերլուծություն), և վերջերս դեպի շուկայի վրա հիմնված գնահատումներ, ինչպիսիք են SWE-Lancer (ֆրիլանս ծրագրային ապահովման նախագծեր իրական վճարումների հիման վրա):

GDPval-ը հաջորդ քայլն է այդ առաջընթացի մեջ։ Այն չափում է մոդելի կատարողականությունը այն առաջադրանքների վրա, որոնք ուղղակիորեն վերցված են փորձառու մասնագետների իրական աշխարհի տեղեկությունների աշխատանքից՝ ընդգրկելով մասնագիտությունների և ոլորտների լայն շրջանակ, ապահովելով ավելի հստակ պատկերացում, թե ինչպես են մոդելները կատարում տնտեսապես արժեքավոր առաջադրանքների վրա: Իրատեսական մասնագիտական առաջադրանքների վրա մոդելների գնահատումը օգնում է մեզ հասկանալ ոչ միայն, թե որքան լավ են դրանք աշխատում լաբորատորիայում, այլև ինչպես կարող են աջակցում լինել մարդկանց իրենց ամենօրյա աշխատանքում։

Ինչ է չափում GDPval-ը

GDPval-ը, այս գնահատման առաջին տարբերակը, ընդգրկում է 44 մասնագիտություն, որոնք ընտրված են ԱՄՆ-ի ՀՆԱ-ին նպաստող 9 առաջատար արդյունաբերություններից։ GDPval-ի ամբողջական հավաքածուն ներառում է 1320 մասնագիտացված առաջադրանք (220-ը՝ ոսկե բաց կոդով հավաքածուում), որոնք մանրակրկիտ մշակված և ստուգված են միջինում 14 տարվա փորձ ունեցող փորձառու մասնագետների կողմից այս ոլորտներից: Յուրաքանչյուր առաջադրանք հիմնված է իրական աշխատանքային արդյունքների վրա, ինչպիսիք են իրավաբանական համառոտագիրը, ինժեներական նախագիծը, հաճախորդների սպասարկման հետ զրույցը կամ բուժքույրական խնամքի ծրագիրը։

GDPval-ը առանձնանում է իր իրատեսությամբ և գնահատվող առաջադրանքների բազմազանությամբ։ Ի տարբերություն տնտեսական արժեքին առնչվող այլ գնահատումների, որոնք կենտրոնանում են որոշակի տիրույթների վրա (օրինակ՝ SWE-Lancer), GDPval-ը ընդգրկում է բազմաթիվ առաջադրանքներ և մասնագիտություններ: Ի տարբերություն չափանիշների, որոնք ներառում են ակադեմիական քննության կամ թեստի ոճով սինթետիկ առաջադրանքների ստեղծում (օրինակ՝ Humanity’s Last Exam կամ MMLU), GDPval-ը կենտրոնանում է առաջադրանքների վրա, որոնք հիմնված են արդյունքների վրա, որոնք կամ իրական աշխատանք կամ ապրանք են, որը գոյություն ունի այսօր, կամ նմանապես կառուցված աշխատանքային արդյունք են։

Ի տարբերություն ավանդական չափանիշների, GDPval առաջադրանքները պարզ տեքստային հարցումներ չեն: Նրանք գալիս են հղման ֆայլերով և համատեքստով, իսկ սպասվող արդյունքները ներառում են փաստաթղթեր, սլայդներ, դիագրամներ, աղյուսակաթերթեր և մուլտիմեդիա նյութեր: Այս իրատեսությունը GDPval-ը դարձնում է ավելի իրատեսական թեստ այն մասին, թե ինչպես մոդելները կարող են աջակցել մասնագետներին:

GDPval-ը նախնական քայլ է, որը չի արտացոլում բազմաթիվ տնտեսական առաջադրանքների բոլոր նրբերանգները։ Չնայած այն ընդգրկում է 44 մասնագիտություն և հարյուրավոր տեղեկություններ պարունակող աշխատանքային առաջադրանքներ, այն սահմանափակվում է մեկանգամյա գնահատումներով, ուստի չի ընդգրկում այն դեպքերը, երբ մոդելը պետք է կառուցի համատեքստ կամ բարելավվի բազմաթիվ նախագծերի միջոցով։ Ապագա տարբերակները կզարգանան դեպի ավելի ինտերակտիվ աշխատանքային հոսքեր և համատեքստով հարուստ առաջադրանքներ՝ ավելի լավ արտացոլելու իրական աշխարհի տեղեկությունների աշխատանքի բարդությունը (տես ավելին մեր Սահմանափակումներ բաժնում ստորև):

Ինչպես ենք մենք ընտրում մասնագիտությունները։

GDPval-ը ընդգրկում է առաջադրանքներ 9 ոլորտներում և 44 մասնագիտություններում, և ապագա տարբերակները կշարունակեն ընդլայնել ընդգրկումը: Սկզբնական 9 ոլորտներն ընտրվել են ԱՄՆ ՀՆԱ-ում 5%-ից ավելի ներդրում ունեցող ոլորտների հիման վրա, ինչպես որոշվել է Սենթ Լուիսի Դաշնային պահուստային բանկի տվյալներով։ Այնուհետև, մենք ընտրեցինք յուրաքանչյուր ոլորտում 5 զբաղմունք, որոնք առավելապես նպաստում են ընդհանուր աշխատավարձերին և փոխհատուցումներին և հիմնականում տեղեկություններ վրա հիմնված աշխատանք են, օգտագործելով աշխատավարձի և զբաղվածության տվյալները 2024 թվականի մայիսի ԱՄՆ Աշխատանքի վիճակագրության բյուրոյի (BLS) զբաղվածության հաշվետվությունից⁠(բացվում է նոր պատուհանում)։ Որպեսզի որոշենք, արդյոք մասնագիտությունները հիմնականում տեղեկություններով աշխատանք էին, մենք օգտագործեցինք առաջադրանքների տվյալները O*NET⁠(բացվում է նոր պատուհանում)-ից, որը ԱՄՆ Աշխատանքի դեպարտամենտի հովանավորած ԱՄՆ մասնագիտական տեղեկատվության բազա է: Մենք դասակարգեցինք՝ արդյոք O*NET-ի յուրաքանչյուր մասնագիտության համար յուրաքանչյուր առաջադրանքը տեղեկությունների աշխատանք էր, թե ֆիզիկական աշխատանք/ձեռքի աշխատանք (պահանջում է գործողություններ իրականացնել ֆիզիկական աշխարհում): Զբաղվածությունը ընդհանուր առմամբ որակվում է որպես «հիմնականում տեղեկությունների աշխատանք», եթե դրա բաղկացուցիչ առաջադրանքների առնվազն 60%-ը դասակարգվում են որպես ֆիզիկական աշխատանք կամ ձեռքի աշխատանք չներառող։ Մենք ընտրեցինք այս 60% շեմը որպես մեկնարկային կետ GDPval-ի առաջին տարբերակի համար՝ կենտրոնանալով այն մասնագիտությունների վրա, որտեղ արհեստական բանականությունը կարող է ունենալ ամենաբարձր ազդեցությունը իրական աշխարհի արտադրողականության վրա։

Այս գործընթացի արդյունքում ներառման համար ընդգրկվեց 44 մասնագիտություն։

Անշարժ գույք, վարձակալություն և վարձակալությամբ տրամադրում

Կոնսիերժներ
Գույքի, անշարժ գույքի և համայնքային ասոցիացիաների կառավարիչներ
Անշարժ գույքի վաճառքի գործակալներ
Անշարժ գույքի բրոքերներ
Հաշվիչ և վարձակալության գրասենյակային աշխատակիցներ

Կառավարություն

Վերականգնողական աշխատակիցներ
Համապատասխանության պատասխանատուներ
Ոստիկանության և դետեկտիվների առաջին գծի ղեկավարներ
Վարչական ծառայությունների կառավարիչներ
Երեխաների, ընտանիքների և դպրոցական սոցիալական աշխատողներ

Արտադրություն

Մեխանիկական ինժեներներ
Արդյունաբերական ինժեներներ
Գնորդներ և գնումների գործակալներ
Առաքման, ստացման և գույքագրման գրասենյակային աշխատակիցներ
Արտադրության և շահագործման աշխատողների առաջին գծի ղեկավարներ

Մասնագիտական, գիտական և տեխնիկական ծառայություններ

Ծրագրային ապահովման ծրագրավորողներ
Փաստաբաններ
Հաշվապահներ և աուդիտորներ
Համակարգչային և տեղեկատվական համակարգերի ղեկավարներ
Նախագծերի կառավարման մասնագետներ

Առողջապահություն և սոցիալական աջակցություն

Գրանցված բուժքույրեր
Բուժքույրներ
Բժշկական և առողջապահական ծառայությունների կառավարիչներ
Գրասենյակային և վարչական աջակցման աշխատողների առաջին գծի ղեկավարներ
Բժշկական քարտուղարներ և վարչական օգնականներ

Ֆինանսներ և ապահովագրություն

Հաճախորդների սպասարկման ներկայացուցիչներ
Ֆինանսական և ներդրումային վերլուծաբաններ
Ֆինանսական կառավարիչներ
Անհատական ֆինանսական խորհրդատուներ
Արժեթղթերի, ապրանքների և ֆինանսական ծառայությունների վաճառքի ագենտներ

Մանրածախ առևտուր

Դեղագործներ
Մանրածախ վաճառքի աշխատակիցների առաջին գծի ղեկավարներ
Ընդհանուր և գործառնական մենեջերներ
Մասնավոր դետեկտիվներ և հետաքննիչներ

Մեծածախ առևտուր

Վաճառքի մենեջերներ
Պատվերների գրասենյակային աշխատակիցներ
Ոչ մանրածախ վաճառքի աշխատողների առաջին գծի ղեկավարներ
Վաճառքի ներկայացուցիչներ, մեծածախ և արտադրական ոլորտներում, բացառությամբ տեխնիկական և գիտական ապրանքների
Վաճառքի ներկայացուցիչներ, մեծածախ և արտադրական ոլորտներում, տեխնիկական և գիտական ապրանքների համար

Տեղեկատվություն

Աուդիո և վիդեո տեխնիկներ
Արտադրողներ և ռեժիսորներ
Լրատվական վերլուծաբաններ, թղթակիցներ և լրագրողներ
Ֆիլմերի և տեսանյութերի խմբագիրներ
Խմբագիրներ

GDPval-ը ընդգրկում է 44 տեղեկություններ պարունակող աշխատանքային զբաղմունքներ 9 ոլորտներում՝ սկսած ծրագրավորողներից և իրավաբաններից մինչև գրանցված բուժքույրեր և մեխանիկական ինժեներներ: Այս մասնագիտությունները ընտրվել են իրենց տնտեսական նշանակության համար և ներկայացնում են այնպիսի առօրյա աշխատանքներ, որտեղ ԱԲ-ն կարող է էականորեն աջակցել մասնագետներին։

Ինչպես մենք կառուցեցինք տվյալների հավաքածուն

Յուրաքանչյուր մասնագիտության համար մենք համագործակցել ենք փորձառու մասնագետների հետ՝ ստեղծելու ներկայացուցչական առաջադրանքներ, որոնք արտացոլում են նրանց ամենօրյա աշխատանքը: Այս մասնագետները միջինում ունեն 14 տարվա փորձ, առաջընթացի ուժեղ ցուցանիշներով: Մենք միտումնավոր ներգրավել ենք փորձագետների լայն շրջանակ, ինչպիսիք են տարբեր ոլորտների փաստաբանները և տարբեր չափերի ընկերությունները՝ ներկայացուցչականությունը մեծացնելու համար։

Յուրաքանչյուր առաջադրանք անցել է բազմափուլ վերանայման գործընթաց՝ համոզվելու համար, որ այն ներկայացնում է իրական աշխատանքը, հնարավոր է կատարել մեկ այլ մասնագետի կողմից և հասանելի է գնահատման համար։ Միջինում, յուրաքանչյուր առաջադրանք ստացել է 5 փուլ փորձագիտական վերանայում, ներառյալ ստուգումներ այլ առաջադրանքների հեղինակների, լրացուցիչ մասնագիտական վերանայողների և մոդելային վավերացում։

Արդյունքում ստացված տվյալների հավաքածուն ներառում է 30 ամբողջությամբ վերանայված առաջադրանք յուրաքանչյուր մասնագիտության համար (ամբողջական հավաքածու)՝ 5 առաջադրանք յուրաքանչյուր մասնագիտության համար մեր բաց աղբյուրի ոսկե հավաքածուում, որը ապահովում է ամուր հիմք մոդելի կատարողականությունը իրական աշխարհի տեղեկությունների աշխատանքի վրա գնահատելու համար:

GDPval առաջադրանքների օրինակներ

Հարցում + առաջադրանքի համատեքստ

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

Փորձառու մարդու արդյունքը

GDPval-ի յուրաքանչյուր առաջադրանքը նախագծված է փորձառու մասնագետի կողմից և արտացոլում է նրանց մասնագիտության իրական տեղեկություններով աշխատանքը։ Հարցումը իրատեսական աշխատանքային առաջադրանք է, որը ստեղծվել է տիրույթի փորձագետի կողմից, իսկ ոսկե արդյունքը փորձագետի սեփական լուծումն է:

Ինչպես ենք գնահատում մոդելի արդյունավետությունը

GDPval առաջադրանքների վրա մոդելի կատարողականությունը գնահատելու համար մենք ապավինում ենք փորձագետ «գնահատողներին»՝ տվյալների հավաքածուում ներկայացված նույն մասնագիտությունների փորձառու մասնագետների խմբին: Այս գնահատողները կույր կերպով համեմատում են մոդելի գեներացրած արդյունքները առաջադրանքի հեղինակների կողմից ստեղծվածների հետ (առանց իմանալու, թե որն է ԱԲ-ի և որը՝ մարդու կողմից գեներացված), և առաջարկում են քննադատություններ և դասակարգումներ։ Այնուհետև գնահատողները դասակարգում են մարդկային և ԱԲ արդյունքները և յուրաքանչյուր ԱԲ արդյունքը դասակարգում են որպես «ավելի լավ», «նույնքան լավ, որքան» կամ «ավելի վատ, քան» մյուսները։

Առաջադրանքների հեղինակները նաև ստեղծել են իրենց մասնագիտությունների համար մանրամասն գնահատման սանդղակներ, որոնք ապահովում են գնահատման գործընթացի հետևողականությունն ու թափանցիկությունը: Մենք նաև ստեղծել ենք «ավտոմատացված գնահատող», արհեստական բանականության համակարգ, որը պատրաստված է գնահատելու, թե ինչպես մարդկային փորձագետները կգնահատեն տրված արդյունքը։ Այլ կերպ ասած, փոխարենը ամեն անգամ ամբողջական փորձագիտական վերանայում անցկացնելու, ավտոմատացված գնահատողը կարող է արագ կանխատեսել, թե որ արդյունքը մարդիկ հավանաբար կնախընտրեն։ Մենք այս գործիքը թողարկում ենք evals.openai.com կայքում որպես փորձարարական հետազոտական ծառայություն, սակայն այն դեռևս այնքան հուսալի չէ, որքան փորձագետ գնահատողները, ուստի մենք այն չենք օգտագործում նրանց փոխարինելու համար։

Վաղ փուլի արդյունքներ

Մենք պարզեցինք, որ այսօրվա լավագույն առաջատար մոդելները արդեն մոտենում են արդյունաբերության փորձագետների կողմից ստեղծված աշխատանքի որակին։ Սա ստուգելու համար մենք անցկացրեցինք կույր գնահատումներ, որտեղ ոլորտի փորձագետները համեմատեցին մի քանի առաջատար մոդելների՝ GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro և Grok 4-ի արդյունքները մարդու կողմից ստեղծված աշխատանքի հետ։ GDPval-ի ոսկե հավաքածուի 220 առաջադրանքների ընթացքում մենք գրանցեցինք, երբ մոդելի արդյունքները գնահատվեցին որպես ավելի լավ («հաղթանակներ») կամ համարժեք («հավասարություններ») արդյունաբերության փորձագետների կողմից տրամադրված արդյունքների հետ, ինչպես ցույց է տրված ստորև բերված գծապատկերում։ Claude Opus 4.1-ը հավաքածուի լավագույն կատարողական մոդելն էր՝ հատկապես գերազանցելով էսթետիկայի ոլորտում (օրինակ՝ փաստաթղթերի ձևավորում, սլայդների դասավորություն), իսկ GPT‑5‑ը հատկապես գերազանցում էր ճշգրտության ոլորտում (օրինակ՝ տիրույթային տեղեկությունների հայտնաբերում): Մենք նաև տեսնում ենք հստակ առաջընթաց ժամանակի ընթացքում այս առաջադրանքների վրա։ Արդյունավետությունը ավելի քան կրկնապատկվել է GPT‑4o‑ից (թողարկվել է 2024 թվականի գարնանը) մինչև GPT‑5 (թողարկվել է 2025 թվականի ամռանը), հետևելով հստակ գծային միտումին:

Բացի այդ, մենք հայտնաբերեցինք, որ առաջատար մոդելները կարող են մոտավորապես 100 անգամ ավելի արագ և 100 անգամ ավելի էժան կատարել GDPval առաջադրանքները, քան ոլորտի փորձագետները։ Այնուամենայնիվ, այս թվերը արտացոլում են մաքուր մոդելի եզրակացության ժամանակը և API-ի գանձման դրույքաչափերը, ուստի չեն ընդգրկում իրական աշխատանքային միջավայրերում մեր մոդելների օգտագործման համար պահանջվող մարդկային վերահսկողությունը, կրկնությունը և ինտեգրման քայլերը: Այնուամենայնիվ, հատկապես այն առաջադրանքների ենթաբազմության վրա, որտեղ մոդելները հատկապես ուժեղ են, մենք ակնկալում ենք, որ առաջադրանքը մոդելին տալը, նախքան այն մարդու հետ փորձելը, կպահի ժամանակն ու գումարը:

Փորձառու գնահատողները համեմատել են առաջատար մոդելների արդյունքները փորձագետների հետ։ Այսօրվա առաջատար մոդելները արդեն մոտենում են արդյունաբերության փորձագետների կողմից ստեղծված աշխատանքի որակին։ Claude Opus 4.1-ը արտադրել է արդյունքներ, որոնք գնահատվել են նույնքան լավ կամ ավելի լավ, քան մարդիկ, ընդամենը կեսից քիչ առաջադրանքներում:

GPT‑4o‑ից մինչև GPT‑5, GDPval առաջադրանքների վրա կատարողականությունը մեկ տարվա ընթացքում ավելի քան եռապատկվեց:

Վերջապես, մենք աստիճանաբար վերապատրաստեցինք GPT‑5‑ի ներքին, փորձարարական տարբերակը՝ գնահատելու համար, թե արդյոք կարող ենք բարելավել կատարողականությունը GDPval-ի վրա։ Մենք հայտնաբերեցինք, որ այս գործընթացը բարելավեց կատարողականությունը՝ ստեղծելով հետագա հնարավոր կատարելագործման ուղի: Այլ վերահսկվող փորձեր նույնպես հաստատում են սա. մոդելի չափի մեծացումը, ավելի շատ դատողական քայլերի խրախուսումը և առաջադրանքին ավելի հարուստ համատեքստ տալը հանգեցրին չափելի արդյունքների։

Կարդացեք մեր հոդվածում ամբողջական արդյունքները։ Մենք նաև թողարկում ենք GDPval առաջադրանքների ոսկե ենթաբազմությունը և հանրային գնահատման ծառայություն, որպեսզի այլ հետազոտողներ կարողանան այս աշխատանքի վրա հիմնվել։

Աշխատանքի և արհեստական բանականության ապագան

Քանի որ արհեստական բանականությունը դառնում է ավելի կարողունակ, այն հավանաբար կպատճառի փոփոխություններ աշխատաշուկայում։ Վաղ GDPval արդյունքները ցույց են տալիս, որ մոդելները արդեն կարող են որոշ կրկնվող, լավ սահմանված առաջադրանքներ կատարել ավելի արագ և ավելի ցածր արժեքով, քան մասնագետները: Այնուամենայնիվ, աշխատանքների մեծ մասը ավելին են, քան պարզապես առաջադրանքների հավաքածու, որը հնարավոր է գրի առնել։ GDPval-ը ընդգծում է, թե որտեղ արհեստական բանականությունը կարող է զբաղվել ռուտինային առաջադրանքներով, որպեսզի մարդիկ կարողանան ավելի շատ ժամանակ հատկացնել ստեղծագործական և դատողություն պահանջող աշխատանքի մասերին։ Երբ արհեստական բանականությունը այս կերպ լրացնում է աշխատողներին, դա կարող է հանգեցնել զգալի տնտեսական աճի։ Մեր նպատակն է բոլորին պահել արհեստական բանականության «վերելակի» վրա՝ ժողովրդավարացնելով այս գործիքներին հասանելիությունը, աջակցելով աշխատողներին փոփոխությունների միջոցով և կառուցելով համակարգեր, որոնք խրախուսում են լայն ներդրումը։

Սահմանափակումները և ինչ է սպասվում ապագայում

GDPval-ը նախնական քայլ է։ Չնայած այն ընդգրկում է 44 մասնագիտություններ և հարյուրավոր առաջադրանքներ, մենք շարունակում ենք կատարելագործել մեր մոտեցումը՝ ընդլայնելու մեր թեստավորման շրջանակը և արդյունքները դարձնելու ավելի իմաստալից։ Գնահատման ընթացիկ տարբերակը նույնպես մեկանգամյա է, ուստի այն չի ընդգրկում այն դեպքերը, երբ մոդելը պետք է կառուցի համատեքստ կամ բարելավվի բազմաթիվ նախագծերի միջոցով՝ օրինակ, իրավական փաստաթղթի վերանայում սպասառուի կարծիքից հետո կամ տվյալների վերլուծության կրկնություն՝ անոմալիա նկատելուց հետո: Բացի այդ, իրական աշխարհում առաջադրանքները միշտ չէ, որ հստակ սահմանված են հարցումով և հղման ֆայլերով. օրինակ՝ իրավաբանը կարող է ստիպված լինել նավարկելու անորոշության մեջ և խոսել իր սպասառուի հետ, նախքան որոշելու, որ իրավական փաստաթուղթ ստեղծելը ճիշտ մոտեցումն է նրանց օգնելու համար: Մենք պլանավորում ենք ընդլայնել GDPval-ը՝ ներառելով ավելի շատ մասնագիտություններ, արդյունաբերություններ և առաջադրանքների տեսակներ՝ ավելացված ինտերակտիվությամբ և ավելի շատ առաջադրանքներով, որոնք ներառում են անորոշության նավարկում, երկարաժամկետ նպատակ ունենալով ավելի լավ չափել առաջընթացը բազմազան տեղեկությունների աշխատանքի վրա։

Մասնակցեք

Եթե դուք ոլորտի փորձագետ եք և հետաքրքրված եք ներդրում ունենալ GDPval-ում, խնդրում ենք ցույց տալ ձեր հետաքրքրությունը այստեղ։
Եթե դուք OpenAI-ի հաճախորդ եք և ցանկանում եք մասնակցել GDPval-ի ապագա փուլին, խնդրում ենք հետաքրքրություն հայտնել այստեղ։

Համայնքի մասնակցությունը կարևոր է՝ մենք ոգևորված ենք GDPval-ը կառուցել հետազոտողների, մասնագետների և կազմակերպությունների հետ, ովքեր կիսում են մեր նպատակը՝ AGI-ն ավելի օգտակար դարձնել մարդկանց աշխատանքի վայրում:

Հեղինակ

OpenAI

Շարունակել կարդալ

Դիտել բոլորը

GPT-Red. ինքնաբարելավում՝ դիմադրողականության համար

Անվտանգություն15 հլս, 2026 թ.

Կոդավորման գնահատումներում ազդանշանն աղմուկից զատելը

Հետազոտություններ8 հլս, 2026 թ.

Ներկայացնում ենք GeneBench-Pro-ն

Հետազոտություններ30 հնս, 2026 թ.