2025 ж. 25 қыркүйек

Модельдеріміздің шынайы өмірдегі тапсырмалардағы өнімділігін өлшеу

Біз GDPval-ды ұсынамыз — бұл 44 мамандықтағы экономикалық құнды, шынайы өмірдегі тапсырмаларда модель өнімділігін өлшейтін жаңа бағалау.

Мақаланы оқу evals.openai.com сайтына өтіңіз

Біздің миссиямыз — жалпы жасанды интеллект бүкіл адамзат игілігіне қызмет етуін қамтамасыз ету. Миссиямыздың бір бөлігі ретінде, ЖИ модельдерінің адамдарға шынайы өмірде қалай көмектесе алатыны жөніндегі ілгерілеуді ашық түрде жеткізгіміз келеді. Сондықтан біз GDPval-ды ұсынамыз: бұл біздің және басқа модельдердің экономикалық құнды, шынайы өмірдегі тапсырмаларда қаншалықты жақсы жұмыс істейтінін бақылауға көмектесетін жаңа бағалау. Біз бұл бағалауды GDPval деп атаймыз, себебі негізгі экономикалық көрсеткіш ретінде Жалпы ішкі өнім (GDP) ұғымынан бастадық және GDP-ге ең көп үлес қосатын салалардағы негізгі мамандықтардан тапсырмалар алдық.

Адамдар ЖИ-дің қоғамға кеңірек әсері туралы жиі жорамал жасайды, бірақ оның әлеуетін түсінудің ең айқын жолы — модельдердің қазірдің өзінде не істей алатынына қарау. Тарих көрсеткендей, интернеттен смартфондарға дейінгі ірі технологиялар ойлап табылғаннан кейін кең таралуға жету үшін он жылдан астам уақытты қажет етті. GDPval сияқты бағалаулар болашақтағы ЖИ жетілдірулері туралы әңгімелерді жорамалға емес, дәлелге негіздеуге көмектеседі және модельдердің уақыт өте қалай жақсарғанын бақылауға мүмкіндік береді.

Күрделі академиялық тестер мен жарыстық кодтау тапсырмалары сияқты алдыңғы ЖИ бағалаулары модельдердің ой қорыту қабілеттерінің шегін кеңейтуде маңызды болды, бірақ олар көп адамның күнделікті жұмысында орындайтын тапсырмаларына жиі толық сәйкес келмейді.

Осы алшақтықты жабу үшін біз барған сайын шынайы әрі экономикалық тұрғыдан маңызды қабілеттерді өлшейтін бағалауларды әзірлеп келеміз. Бұл даму MMLU сияқты классикалық академиялық бенчмарктардан (ондаған тақырып бойынша емтихан үлгісіндегі сұрақтар), SWE-Bench (бағдарламалық инженериядағы қателерді түзету тапсырмалары), MLE-Bench (модельді жаттықтыру мен талдауды қоса алғанда, машиналық оқыту инженериясы тапсырмалары), Paper-Bench (ғылыми мақалалар бойынша ғылыми ой қорыту және сын) сияқты көбірек қолданбалы бағалауларға, ал жуырда SWE-Lancer (нақты төлемдерге негізделген фриланс бағдарламалық инженерия жобалары) сияқты нарыққа негізделген бағалауларға ауысты.

GDPval — осы дамудағы келесі қадам. Ол модель өнімділігін түрлі мамандықтар мен секторлардағы тәжірибелі мамандардың шынайы білім еңбегінен тікелей алынған тапсырмалар бойынша өлшейді, сөйтіп модельдердің экономикалық құнды тапсырмаларда қалай жұмыс істейтіні туралы анығырақ көрініс береді. Модельдерді шынайы кәсіби тапсырмалар бойынша бағалау олардың зертханада қаншалықты жақсы жұмыс істейтінін ғана емес, адамдардың күн сайын атқаратын жұмысында қалай қолдау көрсете алатынын түсінуге көмектеседі.

GDPval нені өлшейді

GDPval-дың осы бағалаудағы алғашқы нұсқасы АҚШ GDP-іне ең көп үлес қосатын 9 саладан таңдалған 44 мамандықты қамтиды. GDPval-дың толық жиынына 1 320 мамандандырылған тапсырма кіреді (оның 220-сы ашық ұсынылған gold жиынтығында), олардың әрқайсысын осы салалардағы орта есеппен 14 жылдан астам тәжірибесі бар мамандар мұқият дайындап, тексерген. Әр тапсырма заңдық анықтама, инженерлік сызба, клиентті қолдау әңгімесі немесе мейіргерлік күтім жоспары сияқты нақты жұмыс нәтижесіне негізделген.

GDPval бағаланатын тапсырмалардың шынайылығы және әртүрлілігі жағынан ерекше. Экономикалық құнға байланысты өзге бағалаулар нақты бір доменге шоғырланса (мысалы, SWE-Lancer), GDPval көптеген тапсырмалар мен мамандықтарды қамтиды. Ал академиялық емтихан не тест стилінде синтетикалық түрде жасалған тапсырмаларды қамтитын бенчмарктардан (мысалы, Humanity’s Last Exam немесе MMLU) айырмашылығы, GDPval бүгін бар нақты жұмыс не өнім бөлігіне негізделген немесе соған ұқсас құрастырылған жұмыс нәтижелеріне сүйенеді.

Дәстүрлі бенчмарктардан айырмашылығы, GDPval тапсырмалары жай мәтіндік көмексөздер емес. Оларда анықтамалық файлдар мен контекст бар, ал күтілетін нәтижелерге құжаттар, слайдтар, диаграммалар, электрондық кестелер және мультимедиа кіреді. Осындай шынайылық GDPval-ды модельдердің мамандарға қалай көмектесе алатынын сынайтын анағұрлым шынайы тест етеді.

GDPval — көптеген экономикалық тапсырмалардың барлық қырын толық қамтымайтын ерте қадам. Ол 44 мамандық пен жүздеген білім еңбегі тапсырмаларын қамтығанымен, тек бір мысалмен бағалаулармен шектеледі, сондықтан модельге контекст құру немесе бірнеше нобай арқылы жақсару қажет болатын жағдайларды қамтымайды. Болашақ нұсқалар интерактивтірек жұмыс ағындары мен контекстке бай тапсырмаларды қамтып, шынайы білім еңбегінің күрделілігін жақсырақ көрсетуге бағытталады (толығырақ төмендегі «Шектеулер» бөлімінде).

Мамандықтарды қалай таңдадық

GDPval 9 сала мен 44 мамандықтағы тапсырмаларды қамтиды, ал болашақ нұсқалар қамтуды кеңейте береді. Бастапқы 9 сала Сент-Луис Федералдық резерв банкі деректері бойынша АҚШ GDP-іне 5%-дан астам үлес қосатын салаларға сүйеніп таңдалды. Содан кейін біз 2024 жылғы мамырдағы АҚШ Еңбек статистикасы бюросының (BLS) мамандықтар бойынша жұмыспен қамту есебінің⁠(жаңа терезеде ашылады) жалақы және жұмыспен қамту деректерін пайдаланып, әр сала ішіндегі жалпы жалақы мен өтемақыға ең көп үлес қосатын әрі басым түрде білім еңбегі болып саналатын 5 мамандықты таңдадық. Мамандықтардың басым түрде білім еңбегі екенін анықтау үшін біз АҚШ Еңбек министрлігі қолдайтын АҚШ мамандықтары туралы дерекқор — O*NET⁠(жаңа терезеде ашылады) тапсырма деректерін қолдандық. O*NET-тегі әр мамандық бойынша әр тапсырманы біз білім еңбегі немесе физикалық жұмыс/қол еңбегі (физикалық әлемде әрекет жасауды талап ететін) деп жіктедік. Егер оның құрамындағы тапсырмалардың кемінде 60%-ы физикалық жұмысқа не қол еңбегіне жатпайды деп жіктелсе, мамандық жалпы алғанда «басым түрде білім еңбегі» деп танылды. GDPval-дың алғашқы нұсқасы үшін бұл 60% шегін бастапқы нүкте ретінде алдық және ЖИ шынайы өнімділікке ең үлкен әсер ете алатын мамандықтарға назар аудардық.

Осы үдеріс нәтижесінде 44 мамандық іріктелді.

Жылжымайтын мүлік және жалға беру мен лизинг

Консьерждер
Мүлік, жылжымайтын мүлік және тұрғындар қауымдастығы менеджерлері
Жылжымайтын мүлік сату агенттері
Жылжымайтын мүлік брокерлері
Қабылдау және жалға беру клерктері

Мемлекеттік басқару

Демалыс және бос уақыт қызметкерлері
Сәйкестік жөніндегі мамандар
Полиция мен детективтердің бірінші желілік жетекшілері
Әкімшілік қызметтер менеджерлері
Балалар, отбасы және мектеп бойынша әлеуметтік қызметкерлер

Өңдеу өнеркәсібі

Механик-инженерлер
Өнеркәсіп инженерлері
Сатып алушылар және сатып алу агенттері
Жөнелту, қабылдау және қор есебінің клерктері
Өндіріс және пайдалану қызметкерлерінің бірінші желілік жетекшілері

Кәсіби, ғылыми және техникалық қызметтер

Бағдарламалық жасақтама әзірлеушілері
Заңгерлер
Бухгалтерлер мен аудиторлар
Компьютерлік және ақпараттық жүйелер менеджерлері
Жоба басқару мамандары

Денсаулық сақтау және әлеуметтік көмек

Тіркелген мейіргерлер
Кеңейтілген практикадағы мейіргерлер
Медициналық және денсаулық сақтау қызметтері менеджерлері
Кеңсе және әкімшілік қолдау қызметкерлерінің бірінші желілік жетекшілері
Медициналық хатшылар мен әкімшілік ассистенттер

Қаржы және сақтандыру

Клиенттерге қызмет көрсету өкілдері
Қаржы және инвестиция талдаушылары
Қаржы менеджерлері
Жеке қаржылық кеңесшілер
Бағалы қағаздар, тауарлар және қаржылық қызметтер бойынша сату агенттері

Бөлшек сауда

Фармацевтер
Бөлшек сауда сатушыларының бірінші желілік жетекшілері
Жалпы және операциялық менеджерлер
Жеке детективтер мен тергеушілер

Көтерме сауда

Сату менеджерлері
Тапсырыс клерктері
Бөлшек емес сауда сатушыларының бірінші желілік жетекшілері
Техникалық және ғылыми өнімдерден басқа, көтерме сауда мен өндірістегі сату өкілдері
Техникалық және ғылыми өнімдер бойынша көтерме сауда мен өндірістегі сату өкілдері

Ақпарат

Аудио және бейне техниктері
Продюсерлер мен режиссерлер
Жаңалық талдаушылары, репортерлер және журналистер
Фильм және бейне монтажерлері
Редакторлар

GDPval 9 сектордағы 44 білім еңбегі мамандығын қамтиды — бағдарламалық жасақтама әзірлеушілерінен және заңгерлерден бастап тіркелген мейіргерлер мен механик-инженерлерге дейін. Бұл мамандықтар экономикалық маңыздылығына қарай таңдалды және ЖИ мамандарға мәнді түрде көмектесе алатын күнделікті жұмыс түрлерін көрсетеді.

Деректер жиынын қалай құрдық

Әр мамандық үшін біз тәжірибелі мамандармен бірге олардың күнделікті жұмысын көрсететін репрезентативті тапсырмалар жасадық. Бұл мамандардың орташа тәжірибесі 14 жыл болды және олардың кәсіби өсу тарихы мықты еді. Репрезентативтілікті арттыру үшін біз әртүрлі сарапшыларды әдейі тарттық — мысалы, түрлі тәжірибе салаларындағы және әртүрлі көлемдегі фирмалардағы заңгерлерді.

Әр тапсырма оның шынайы жұмысты көрсетуін, басқа маманның орындай алуын және бағалауға түсінікті болуын қамтамасыз ету үшін көпсатылы шолу үдерісінен өтті. Орта есеппен әр тапсырма 5 кезеңдік сарапшылық шолудан өтті, оның ішінде басқа тапсырма авторларының тексерістері, қосымша кәсіби шолушылар және модельге негізделген валидация болды.

Нәтижесінде алынған деректер жиыны әр мамандыққа толық тексерілген 30 тапсырманы (full-set) және ашық ұсынылған gold жиынтығымызда әр мамандыққа 5 тапсырманы қамтиды, бұл модель өнімділігін шынайы білім еңбегі бойынша бағалауға берік негіз береді.

GDPval тапсырмаларының мысалдары

Көмексөз + тапсырма контексті

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

Тәжірибелі адам дайындаған нәтиже

Кабель катушкасы дизайнының жарылған көрінісі

GDPval-дағы әр тапсырманы тәжірибелі маман әзірлейді және ол сол мамандықтағы шынайы білім еңбегін көрсетеді. Көмексөз — сала сарапшысы жасаған шынайы жұмыс тапсырмасы, ал gold нәтиже — сарапшының өз шешімі.

Модель өнімділігін қалай бағалаймыз

GDPval тапсырмаларындағы модель өнімділігін бағалау үшін біз сарапшы «бағалаушыларға» — деректер жиынында көрсетілген сол мамандықтардан шыққан тәжірибелі мамандар тобына сүйенеміз. Бұл бағалаушылар модель жасаған нәтижелерді тапсырма авторлары дайындаған нәтижелермен жасырын түрде салыстырады (қайсысы ЖИ, қайсысы адам жасағанын білмей), сын-пікір мен рейтинг береді. Содан кейін бағалаушылар адам мен ЖИ нәтижелерін реттеп, әр ЖИ нәтижесін бір-біріне қатысты «жақсырақ», «сондай жақсы» немесе «нашар» деп жіктейді.

Тапсырма авторлары сондай-ақ өз мамандықтары үшін егжей-тегжейлі бағалау рубрикаларын жасады, бұл бағалау үдерісіне бірізділік пен ашықтық қосады. Біз бұған қоса «автоматтандырылған бағалаушыны» жасадық — бұл адам сарапшылары белгілі бір нәтижені қалай бағалайтынын болжауға жаттықтырылған ЖИ жүйесі. Басқаша айтқанда, әр жолы толық сарапшылық шолу өткізудің орнына, автоматтандырылған бағалаушы адамдар қай нәтижені ықтимал қалайтынын жылдам болжай алады. Біз бұл құралды evals.openai.com сайтында эксперименттік зерттеу қызметі ретінде ұсынып жатырмыз, бірақ ол әзірге сарапшы бағалаушылардай сенімді емес, сондықтан оларды алмастыру үшін қолданбаймыз.

Алғашқы нәтижелер

Біз бүгінгі ең үздік озық модельдер қазірдің өзінде сала мамандары өндіретін жұмыстың сапасына жақындап қалғанын анықтадық. Мұны тексеру үшін сала мамандары бірнеше жетекші модельдің — GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro және Grok 4 — нәтижелерін адам жасаған жұмыстармен салыстырған жасырын бағалаулар жүргіздік. GDPval gold жиынтығындағы 220 тапсырма бойынша төмендегі бағанды диаграммада көрсетілгендей, модель нәтижелері сала мамандарының жұмыстарынан жақсырақ («жеңістер») немесе сол деңгейде («тең нәтижелер») деп бағаланған сәттерді тіркедік. Claude Opus 4.1 осы жиындағы ең жақсы нәтиже көрсеткен модель болды, әсіресе эстетика жағынан (мысалы, құжат пішімдеуі, слайд макеті) озық шықты, ал GPT‑5 нақты дәлдік жағынан (мысалы, доменге тән білімді табу) ерекше болды. Сонымен қатар бұл тапсырмаларда уақыт өте айқын ілгерілеуді байқаймыз. GPT‑4o‑дан (2024 жылдың көктемінде шыққан) GPT‑5‑ке дейін (2025 жылдың жазында шыққан) өнімділік анық сызықтық үрдісті ұстана отырып, екі еседен астам артты.

Бұған қоса, озық модельдер GDPval тапсырмаларын сала мамандарынан шамамен 100 есе жылдам әрі 100 есе арзан орындай алатынын анықтадық. Алайда бұл көрсеткіштер тек модель инференциясының уақыты мен API төлем мөлшерлемелерін көрсетеді, сондықтан жұмыс орнында модельдерімізді пайдалану үшін қажет адам бақылауын, итерацияны және біріктіру қадамдарын қамтымайды. Соған қарамастан, әсіресе модельдер ерекше мықты болатын тапсырмалар ішкі жиынында, адамға бермес бұрын тапсырманы модельге беру уақыт пен ақшаны үнемдейді деп күтеміз.

Сарапшы бағалаушылар жетекші модельдердің нәтижелерін адам сарапшылардың жұмыстарымен салыстырды. Бүгінгі озық модельдер қазірдің өзінде сала мамандары орындайтын жұмыстың сапасына жақындап қалды. Claude Opus 4.1 тапсырмалардың жартысына жуығында адамнан кем емес не одан жақсы бағаланған нәтижелер берді.

GPT‑4o‑дан GPT‑5‑ке дейін GDPval тапсырмаларындағы көрсеткіштер бір жылда үш еседен астам өсті.

Соңында, GDPval бойынша көрсеткішті жақсарта аламыз ба дегенді бағалау үшін GPT‑5‑тің ішкі эксперименттік нұсқасын біртіндеп жаттықтырдық. Бұл үдеріс өнімділікті жақсартқанын байқадық, демек әрі қарай ықтимал жақсартуға жол ашылды. Басқа бақыланатын эксперименттер де мұны растайды: модель көлемін ұлғайту, көбірек ой қорыту қадамдарын ынталандыру және тапсырмаға бай контекст беру — бәрі де өлшенетін өсімге әкелді.

Толық нәтижелерді біздің мақалада оқи аласыз. Сондай-ақ GDPval тапсырмаларының gold ішкі жиынтығын және өзге зерттеушілер осы жұмысқа сүйене алуы үшін ашық бағалау қызметін ұсынып отырмыз.

Жұмыстың болашағы және ЖИ

ЖИ мүмкіндігі артқан сайын, ол еңбек нарығында өзгерістер туғызуы ықтимал. GDPval-дың алғашқы нәтижелері модельдердің кейбір қайталанатын, нақты сипатталған тапсырмаларды қазірдің өзінде сарапшыларға қарағанда жылдамырақ әрі арзанырақ орындай алатынын көрсетеді. Алайда көптеген жұмыс орындары жай ғана жазып қоюға болатын тапсырмалар жиынтығынан тұрмайды. GDPval ЖИ қай жерде күнделікті тапсырмаларды атқара алатынын көрсетіп, адамдарға жұмыстың шығармашылық пен пайымдауды көбірек қажет ететін бөліктеріне уақыт бөлуге мүмкіндік береді. ЖИ қызметкерлерді осылай толықтырғанда, бұл елеулі экономикалық өсімге айналуы мүмкін. Біздің мақсатымыз — осы құралдарға қолжетімділікті демократияландыру, жұмысшыларды өзгеріс кезеңінде қолдау және кең ауқымды үлесті марапаттайтын жүйелер құру арқылы барлығын ЖИ-дің «жоғары көтерілетін лифтінде» ұстау.

Шектеулер және келесі қадамдар

GDPval — ерте қадам. Ол 44 мамандық пен жүздеген тапсырманы қамтығанымен, біз тестілеу ауқымын кеңейтіп, нәтижелерді мағыналырақ ету үшін тәсілімізді жетілдіруді жалғастырып жатырмыз. Бағалаудың қазіргі нұсқасы да бір мысалмен жасалады, сондықтан модельге контекст құру немесе бірнеше нобай арқылы жақсару қажет болатын жағдайларды қамтымайды — мысалы, клиент пікірінен кейін заңдық анықтаманы қайта қарау немесе аномалия байқалғаннан кейін дерек талдауын қайталап жетілдіру. Бұған қоса, шынайы өмірде тапсырмалар әрдайым көмексөз бен анықтамалық файлдар арқылы нақты анықтала бермейді; мысалы, заңгер клиентіне көмектесудің дұрыс жолы заңдық анықтама жасау екенін шешпес бұрын, белгісіздікпен жұмыс істеп, клиентімен сөйлесуі мүмкін. Біз GDPval-ды көбірек мамандықтарды, салаларды және тапсырма түрлерін қамтитындай, интерактивтілігі жоғарырақ, белгісіздікпен жұмыс істеуді қажет ететін тапсырмалары көбірек болатындай етіп кеңейтуді жоспарлап отырмыз, ал ұзақ мерзімді мақсат — әртүрлі білім еңбегіндегі ілгерілеуді жақсырақ өлшеу.

Қатысыңыз

Егер сіз GDPval-ға үлес қосуға қызығатын сала маманы болсаңыз, қызығушылығыңызды осында білдіріңіз.
Егер сіз OpenAI-пен жұмыс істейтін клиент болсаңыз және GDPval-дың болашақ кезеңіне үлес қосқыңыз келсе, қызығушылығыңызды осында білдіріңіз.

Қауымдастықтың қатысуы аса маңызды — біз GDPval-ды жұмыста адамдарға AGI-ді пайдалырақ етуді ортақ мақсат ететін зерттеушілермен, практиктермен және ұйымдармен бірге құруға қуаныштымыз.

Автор

OpenAI

Оқуды жалғастырыңыз

Барлығын қарау

GPT-Red: Unlocking Self-Improvement for Robustness

Қауіпсіздік2026 ж. 15 шіл.

Бағдарламалау бағалауларында сигналды шудан ажырату

Зерттеу2026 ж. 8 шіл.

GeneBench-Pro-ны таныстырамыз

Зерттеу2026 ж. 30 мау.