2025. szeptember 25.

A modelljeink teljesítményének mérése valós világban végzett feladatok során

Bemutatjuk a GDPval-t, egy új értékelést, amely 44 foglalkozásban méri a modellek teljesítményét, gazdaságilag értékes, valós feladatokon.

Olvasd el a tanulmányt Látogass el az evals.openai.com oldalra

Küldetésünk annak biztosítása, hogy a mesterséges általános intelligencia az egész emberiség javát szolgálja. Küldetésünk részeként átláthatóan kívánjuk azt kommunikálni, hogy az AI-modellek fejlődése miként segítheti az embereket a való életben. Ezért vezetjük be a GDPval-t: egy új értékelést, amely segít nyomon követni, hogy a modelljeink és mások mennyire teljesítenek gazdaságilag értékes, valós feladatok során. Ezt az értékelést GDPval-nak hívjuk, mivel kiindulópontként a bruttó hazai termék (GDP) fogalmát (mint kulcsfontosságú gazdasági mutatót) vettük alapul, és azokat a feladatokat válogattuk össze, amelyek a GDP-hez legnagyobb mértékben hozzájáruló iparágak kulcsfoglalkozásaiból származnak.

Az emberek gyakran találgatnak a mesterséges intelligencia társadalomra gyakorolt szélesebb hatásáról, de a legvilágosabb módja annak megértésére, hogy milyen potenciállal bír, az, ha megnézzük, mire képesek már most a modellek. Az előzmények azt mutatják, hogy a főbb technológiáknak—az internettől az okostelefonokig—több mint egy évtizedig tartott, hogy a feltalálástól a széles körű elterjedésig eljussanak. Az olyan értékelések, mint a GDPval, abban segítenek, hogy a jövőbeli AI fejlesztésekről szóló beszélgetéseket bizonyítékokra alapozzuk a találgatások helyett, és segíthetnek a modell fejlesztésének nyomon követésében az idő múlásával.

A korábbi AI értékelések, mint a kihívást jelentő akadémiai tesztek és a kódolási versenyek, alapvető fontosságúak voltak a modell érvelési képességeinek határainak kitolásában, de gyakran elmaradnak azoktól a feladatoktól, amelyeket sokan a mindennapi munkájuk során végeznek.

Ennek a szakadéknak az áthidalására olyan értékeléseket fejlesztettünk, amelyek egyre valósághűbb és gazdaságilag releváns képességeket mérnek. Ez a fejlődés a klasszikus akadémiai mérföldkövektől, mint például az MMLU (vizsga-stílusú kérdések több tucat tantárgyban), a gyakorlatiasabb értékelések felé mozdult el, mint például a SWE-Bench (szoftvermérnöki hibajavító feladatok), a MLE-Bench (gépi tanulási mérnöki feladatok, mint például modell betanítás és elemzés), a Paper-Bench (tudományos érvelés és kutatási cikkek kritikája), és legutóbb a piaci alapú értékelések felé, mint például a SWE-Lancer (szabadúszó szoftvermérnöki projektek valós kifizetések alapján).

A GDPval a következő lépést képviseli ebben a fejlődésben. Ez az értékelés a modellek teljesítményét méri olyan feladatokon, amelyek közvetlenül tapasztalt szakemberek valós, tudásalapú munkájából származnak, számos foglalkozás és ágazat kapcsán, így világosabb képet ad arról, hogyan teljesítenek a modellek a gazdaságilag értékes feladatok során. A modellek valóságos foglalkozási feladatokban történő értékelése segít megérteni nemcsak azt, hogy mennyire jól teljesítenek a laboratóriumban, hanem azt is, hogyan nyújthatnak támogatást az embereknek a mindennapi munkájuk során.

Mit mér a GDPval

A GDPval, ennek az értékelésnek az első verziója, 44 foglalkozást ölel fel, az USA GDP-jéhez leginkább hozzájáruló 9 iparág közül kiválasztva. A GDPval teljes készlet 1 320 speciális feladatot tartalmaz (ebből 220 a nyílt forráskódú, aranyszintű készletben), melyeket gondosan dolgoztak ki és ellenőriztek olyan tapasztalt szakemberek, akik átlagosan több mint 14 éves tapasztalattal rendelkeznek az adott területen. Minden feladat valós munkatermékeken alapul, mint például egy jogi beadvány, egy mérnöki tervrajz, egy ügyfélszolgálati beszélgetés vagy egy ápolási terv.

A GDPval egyedülálló mind a realizmusában, mind az értékelt feladatok sokféleségében. Ellentétben más, gazdasági értékhez kötött értékelésekkel, amelyek meghatározott domainokra koncentrálnak (pl. SWE-Lancer), a GDPval sokféle feladatot és foglalkozást fed le. Ellentétben azokkal a mércékkel, amelyek szintetikus feladatok létrehozását foglalják magukban egy akadémiai vizsga vagy teszt stílusában (pl. Humanity’s Last Exam vagy MMLU), A GDPval olyan feladatokra összpontosít, amelyek kézzelfogható eredményeken alapulnak, legyen az egy valós, ma is létező munkadarab vagy termék, vagy egy ehhez hasonlóan megalkotott munkatermék.

A hagyományos referenciaértékekkel ellentétben a GDPval feladatok nem egyszerű utasítások. Ezek referenciafájlokkal és kontextussal érkeznek, és a várható eredmények dokumentumokat, diákat, diagramokat, táblázatokat és multimédiát tartalmaznak. Ez a realizmus teszi a GDPval-t valósághűbbé annak tesztelésében, hogy a modellek hogyan nyújthatnak támogatást a szakembereknek.

A GDPval egy korai lépés, amely nem tükrözi számos gazdasági feladat teljes árnyaltságát. Bár 44 foglalkozást és több száz tudásalapú munkafeladatot ölel fel, csak egyszeri értékelésekre korlátozódik, így nem rögzíti azokat az eseteket, amikor a modellnek kontextust kellene építenie vagy több vázlaton keresztül javulnia kellene. A jövőbeli verziók interaktívabb munkafolyamatokra és kontextusban gazdagabb feladatokra terjednek majd ki, hogy jobban tükrözzék a valós tudásalapú munka összetettségét (lásd alább a Korlátozások szakaszban).

Hogyan választottuk ki a foglalkozásokat

A GDPval 9 iparág és 44 foglalkozás feladatait fedi le, és a jövőbeli verziók tovább bővítik a lefedettséget. Az első 9 iparágat azok közül választottuk ki, amelyek több mint 5%-kal járulnak hozzá az Egyesült Államok GDP-jéhez, a St. Louis-i Federal Reserve Bank adatai alapján. Ezután kiválasztottuk az egyes iparágakban azt az 5 foglalkozást, amelyek a legnagyobb mértékben járulnak hozzá az összes bérhez és juttatáshoz, és amelyek túlnyomórészt tudásalapú munkát képviselnek, a 2024. májusi amerikai Munkaügyi Statisztikai Hivatal (BLS) foglalkozási foglalkoztatási jelentéséből⁠(új ablakban nyílik meg) származó bér- és foglalkoztatási adatok felhasználásával. Annak meghatározásához, hogy a foglalkozások túlnyomórészt tudásalapú munkák-e, az O*NET⁠(új ablakban nyílik meg) adatbázis feladatait használtuk, amelyet az Egyesült Államok Munkaügyi Minisztériuma támogat. Osztályoztuk, hogy az O*NET minden foglalkozásához tartozó feladat tudásalapú munkának vagy fizikai munkának/kézi munkának minősül-e (amely a fizikai világban végrehajtandó műveleteket igényel). Egy foglalkozás akkor minősül összességében „túlnyomórészt tudásalapú munkának”, ha összetevő feladatainak legalább 60%-a nem igényel fizikai munkát vagy kézi munkát. Ezt a 60%-os küszöböt választottuk kiindulópontként a GDPval első verziójához, azokra a foglalkozásokra összpontosítva, ahol az AI a legnagyobb hatást gyakorolhatja a valós termelékenységre.

A folyamat eredményeképpen 44 foglalkozást vettünk fel az értékelésbe.

Ingatlan, bérbeadás és lízing

Concierge-ek
Ingatlan-, ingatlanfejlesztési és társasházi közösségi menedzserek
Ingatlanértékesítési ügynökök
Ingatlanügynökök
Pultos és kölcsönzési ügyintézők

Kormányzat

Szabadidős tevékenységek szervezői
Megfelelőségi tisztviselők
Rendőrök és nyomozók első vonalbeli vezetői
Adminisztratív szolgáltatások menedzserei
Gyermek-, család- és iskolai szociális munkások

Gyártás

Gépészmérnökök
Ipari mérnökök
Beszerzők és ügynökök
Szállítási, áruátvételi és raktározási ügyintézők
A termelési és üzemeltetési munkások első vonalbeli felügyelői

Szakmai, tudományos és műszaki szolgáltatások

Szoftverfejlesztők
Ügyvédek
Könyvelők és könyvvizsgálók
Számítógépes és információs rendszerek menedzserei
Projektmenedzsment szakemberek

Egészségügyi ellátás és szociális segítségnyújtás

Regisztrált ápolók
Nővérerek
Egészségügyi és orvosi szolgáltatások vezetői
Irodai és adminisztratív ügyfélszolgálati munkatársak első vonalbeli felügyelői
Orvosi titkárok és adminisztratív asszisztensek

Pénzügy és biztosítás

Ügyfélszolgálati képviselők
Pénzügyi és befektetési elemzők
Pénzügyi menedzserek
Pénzügyi tanácsadók
Értékpapírok, árucikkek és pénzügyi szolgáltatások értékesítési ügynökei

Kiskereskedelmi kereskedelem

Gyógyszerészek
Első vonalbeli vezetők a kiskereskedelmi értékesítési munkatársak felett
Általános és operatív vezetők
Magánnyomozók és nyomozók

Nagykereskedelem

Értékesítési vezetők
Rendelési ügyintézők
Nem kiskereskedelmi értékesítési dolgozók első vonalbeli vezetői
Értékesítési képviselők, nagykereskedelem és gyártás, kivéve a műszaki és tudományos termékeket
Értékesítési képviselők, nagykereskedelem és gyártás, műszaki és tudományos termékek

Információ

Hang- és videótechnikusok
Producerek és rendezők
Hírelemzők, riporterek és újságírók
Film- és videószerkesztők
Szerkesztők

A GDPval 9 iparág és 44 foglalkozás feladatait fedi le, és a jövőbeli verziók tovább bővítik a lefedettséget. Ezeket a foglalkozásokat gazdasági jelentőségük miatt választottuk ki, és azokat a mindennapi munkatípusokat képviselik, ahol az AI érdemben segítheti a szakembereket.

Hogyan hoztuk létre az adathalmazt

Minden egyes foglalkozásnál tapasztalt szakemberekkel dolgoztunk együtt, hogy olyan reprezentatív feladatok létrehozását biztosítsuk, amelyek tükrözik a mindennapi munkájukat. Ezek a szakemberek átlagosan 14 év tapasztalattal rendelkeznek, meggyőző előmenetellel. Szándékosan toboroztunk széles körű szakértői csoportot—például különböző szakterületeken dolgozó ügyvédeket és különböző méretű cégeket—hogy maximalizáljuk a reprezentativitást.

Minden feladat egy többlépcsős felülvizsgálati folyamaton ment keresztül, hogy biztosan a valós munkát tükrözze, más szakember számára megvalósítható és az értékeléshez egyértelmű legyen. Minden feladat átlagosan 5 kör szakértői felülvizsgálaton esett át, beleértve más feladatírók általi ellenőrzést, további szakmai felülvizsgálókat és modellalapú érvényesítést.

A kapott adathalmaz 30 teljes mértékben ellenőrzött feladatot tartalmaz foglalkozásonként (teljes készlet), és 5 feladatot foglalkozásonként az arany szintű nyílt forráskódú készletünkben, amely szilárd alapot nyújt a modell teljesítményének értékeléséhez a valós, tudásalapú munkák során.

Példák a GDPval feladatokra

Utasítás + feladat kontextus

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.

Cable reel project requirements.pdf

Tapasztalt humán eredmény

A GDPval minden egyes feladatát tapasztalt szakember tervezi, és a saját foglalkozásából származó, valós szellemi munkát tükröz. Az utasítás egy valósághű munkafeladat, amelyet egy domain szakértő létrehozásával hoztak létre, és az aranyszínvonalú megoldás a szakértő saját megoldása.

Hogyan értékeljük a modell teljesítményét

A GDPval feladatokon nyújtott modell-teljesítmény értékeléséhez szakértő „értékelőkre” támaszkodunk—olyan tapasztalt szakemberek csoportjára, akik ugyanazokat a foglalkozásokat képviselik, mint amelyek az adathalmazban szerepelnek. Ezek az értékelők vakon hasonlítják össze a modell által generált eredményeket a feladatírók által készített eredményekkel (anélkül, hogy tudnák, melyik az AIés melyik az ember által generált), és elkészítik a kritikákat valamint rangsorolnak. A bírálók ezután rangsorolják az emberi és AI teljesítményeket, és minden AI teljesítményt „jobbnak”, „ugyanolyan jónak” vagy „rosszabbnak” minősítenek egymáshoz képest.

A feladatírók részletes értékelési útmutatókat is létrehoztak a munkaköreikhez, amelyek következetességet és átláthatóságot biztosítanak az értékelési folyamathoz. Egy „automatikus osztályozót” is építettünk, egy AI rendszert, amelyet arra képeztek ki, hogy megbecsülje, hogyan ítélnék meg az emberi szakértők egy adott munkát. Más szavakkal, ahelyett, hogy minden alkalommal teljes szakértői értékelést végeznénk, az automatikus osztályozó gyorsan meg tudja jósolni, melyik kimenetet részesítenék előnyben az emberek. Ezt az eszközt az evals.openai.com oldalon keresztül tesszük közzé kísérleti kutatási szolgáltatásként, de még nem olyan megbízható, mint a szakértői értékelők, ezért nem használjuk őket a helyettesítésükre.

Korai eredmények

Megállapítottuk, hogy a mai legjobb élvonalbeli modellek már megközelítik az iparági szakértők által végzett munka minőségét. Ennek tesztelésére vak értékeléseket végeztünk, ahol iparági szakértők hasonlították össze a GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro és Grok 4 modellek által készített anyagokat az emberi munkával. A GDPval aranykészletben szereplő 220 feladaton feljegyeztük, hogy a modell kimenetét milyen esetekben értékelték az iparági szakértők eredményeinél jobbnak („győzelmek”), illetve velük egyenértékűnek („döntetlenek”), ahogy az alábbi oszlopdiagramon is látható. A Claude Opus 4.1 modell teljesített a legjobban a készletben, különösen az esztétika terén (pl. dokumentumformázás, diák elrendezése), míg a GPT‑5 különösen a pontosság terén tűnt ki (pl. szakterület-specifikus tudás megkeresése). Idővel egyértelmű előrehaladást látunk ezeken a feladatokon is. A teljesítmény több mint megduplázódott a GPT‑4o (2024 tavaszán kiadott) és a GPT‑5 (2025 nyarán kiadott) között, egyértelmű lineáris trendet követve.

Ezenkívül megállapítottuk, hogy a csúcskategóriás modellek körülbelül 100-szor gyorsabban és 100-szor olcsóbban tudják elvégezni a GDPval feladatokat, mint az iparági szakértők. Ezek a számok azonban csak a modell tiszta következtetési idejét és az API számlázási díjakat tükrözik, és ezért nem tartalmazzák az emberi felügyeletet, az iterációt és az integrációs lépéseket, amelyek a valós munkahelyi környezetben szükségesek a modelljeink használatához. Mégis, különösen azon a feladatok részhalmazán, ahol a modellek különösen erősek, azt várjuk, hogy egy feladatot egy modellnek adva, mielőtt emberrel próbálnánk, időt és pénzt takaríthatunk meg.

Szakértői értékelők összehasonlították a vezető modellek teljesítményét az emberi szakértők teljesítményével. A mai élvonalbeli modellek már megközelítik az iparági szakértők által végzett munka minőségét. A Claude Opus 4.1 kimenetei a feladatok közel felében ugyanolyan jó vagy jobb minősítést kaptak, mint az emberi kimenetek.

A GPT‑4o‑tól a GPT‑5‑ig a GDPval feladatok teljesítménye több mint megháromszorozódott egy év alatt.

Végül fokozatosan képeztük a GPT‑5 egy belső, kísérleti verzióját, hogy felmérjük, javíthatjuk-e a teljesítményt a GDPval teszten. Megállapítottuk, hogy ez a folyamat javította a teljesítményt, és egyben utat nyitott a további lehetséges fejlesztések számára. Más ellenőrzött kísérletek is visszaigazolják ezt: a modell méretének növelése, a több következtetési lépés ösztönzése és a gazdagabb feladat kontextus biztosítása mind mérhető eredményeket hozott.

Az eredményeket elolvashatod a tanulmányunkban. Ezenkívül közzéteszünk a GDPval feladatokból egy aranyrészhalmazt, valamint egy nyilvános értékelőszolgáltatást is, hogy más kutatók erre a munkára építhessenek.

A munka és a mesterséges intelligencia jövője

Ahogy a mesterséges intelligencia egyre fejlettebbé válik, valószínűleg változásokat vált ki a munkaerőpiacon. A korai GDPval eredmények azt mutatják, hogy a modellek már képesek bizonyos ismétlődő, jól meghatározott feladatokat gyorsabban és alacsonyabb költséggel elvégezni, mint a szakértők. Azonban a legtöbb munka több, mint csupán leírható feladatok gyűjteménye. A GDPval kiemeli, hogy az AI hol képes kezelni a rutin feladatokat, így az emberek több időt tölthetnek a kreatív, döntésigényes munkarészekkel. Amikor a mesterséges intelligencia ilyen módon kiegészíti a munkavállalókat, az jelentős gazdasági növekedést eredményezhet. Célunk, hogy mindenki az AI „felfelé tartó liftjében” maradjon, ezért demokratizáljuk ezekhez az eszközökhöz való hozzáférést, támogatjuk a dolgozókat a változás során, és olyan rendszereket építünk, amelyek a minél szélesebb körű hozzájárulást jutalmazzák.

Korlátozások és a következő lépések

A GDPval egy korai lépés. Bár 44 foglalkozást és több száz feladatot ölel fel, tovább finomítjuk a megközelítésünket, hogy bővítsük a tesztelésünk körét, és még jelentősebbé tegyük az eredményeket. A jelenlegi értékelési verzió is egyetlen próbálkozásra épül, így nem ragadja meg azokat az eseteket, amikor egy modellnek kontextust kellene építenie vagy több vázlaton keresztül javulnia kellene—például egy jogi összefoglaló átdolgozása ügyfél visszajelzés után, vagy egy adatelemzés iterálása egy anomália észlelését követően. Emellett a való világban a feladatok nem mindig egyértelmű, utasítással és hivatkozási fájlokkal meghatározott formában jelennek meg; például egy jogásznak kezelnie kell a bizonytalanságot, és beszélnie kell az ügyfelével, mielőtt úgy dönt, hogy egy jogi beadvány elkészítése a megfelelő módja a segítségnyújtásnak. Terveink szerint bővítjük a GDPval-t, hogy még több foglalkozást, iparágat és feladattípust foglaljon magában, növelve az interaktivitást, és több olyan feladatot, amely a kétértelműség kezelését igényli, azzal a hosszú távú céllal, hogy jobban mérjük a különböző tudásalapú munkák előrehaladását.

Vegyél részt Te is

Ha iparági szakértő vagy , és szeretnél hozzájárulni a GDPval-hoz, kérjük, jelezd érdeklődésed itt.
Ha az OpenAI ügyfele vagy, és szeretnél hozzájárulni a GDPval következő fordulójához, kérjük, jelezd érdeklődésed itt.

A közösségi részvétel elengedhetetlen—izgatottan várjuk, hogy együtt építsük a GDPval-t kutatókkal, szakemberekkel és szervezetekkel, akik osztoznak célunkban, hogy az AGI-t hasznosabbá tegyük az emberek számára a munkahelyen.

Szerző

OpenAI

Olvass tovább

Összes megtekintése

GPT-Red: önfejlesztés a robusztusságért

Biztonság2026. júl. 15.

Jel és zaj szétválasztása kódolási értékelésekben

Kutatások2026. júl. 8.

Bemutatkozik a GeneBench-Pro

Kutatások2026. jún. 30.