A modelljeink teljesítményének mérése valós világban végzett feladatok során
Bemutatjuk a GDPval-t, egy új értékelést, amely 44 foglalkozásban méri a modellek teljesítményét, gazdaságilag értékes, valós feladatokon.
Küldetésünk annak biztosítása, hogy a mesterséges általános intelligencia az egész emberiség javát szolgálja. Küldetésünk részeként átláthatóan kívánjuk azt kommunikálni, hogy az AI-modellek fejlődése miként segítheti az embereket a való életben. Ezért vezetjük be a GDPval-t: egy új értékelést, amely segít nyomon követni, hogy a modelljeink és mások mennyire teljesítenek gazdaságilag értékes, valós feladatok során. Ezt az értékelést GDPval-nak hívjuk, mivel kiindulópontként a bruttó hazai termék (GDP) fogalmát (mint kulcsfontosságú gazdasági mutatót) vettük alapul, és azokat a feladatokat válogattuk össze, amelyek a GDP-hez legnagyobb mértékben hozzájáruló iparágak kulcsfoglalkozásaiból származnak.
Az emberek gyakran találgatnak a mesterséges intelligencia társadalomra gyakorolt szélesebb hatásáról, de a legvilágosabb módja annak megértésére, hogy milyen potenciállal bír, az, ha megnézzük, mire képesek már most a modellek. Az előzmények azt mutatják, hogy a főbb technológiáknak—az internettől az okostelefonokig—több mint egy évtizedig tartott, hogy a feltalálástól a széles körű elterjedésig eljussanak. Az olyan értékelések, mint a GDPval, abban segítenek, hogy a jövőbeli AI fejlesztésekről szóló beszélgetéseket bizonyítékokra alapozzuk a találgatások helyett, és segíthetnek a modell fejlesztésének nyomon követésében az idő múlásával.
A korábbi AI értékelések, mint a kihívást jelentő akadémiai tesztek és a kódolási versenyek, alapvető fontosságúak voltak a modell érvelési képességeinek határainak kitolásában, de gyakran elmaradnak azoktól a feladatoktól, amelyeket sokan a mindennapi munkájuk során végeznek.
Ennek a szakadéknak az áthidalására olyan értékeléseket fejlesztettünk, amelyek egyre valósághűbb és gazdaságilag releváns képességeket mérnek. Ez a fejlődés a klasszikus akadémiai mérföldkövektől, mint például az MMLU (vizsga-stílusú kérdések több tucat tantárgyban), a gyakorlatiasabb értékelések felé mozdult el, mint például a SWE-Bench (szoftvermérnöki hibajavító feladatok), a MLE-Bench (gépi tanulási mérnöki feladatok, mint például modell betanítás és elemzés), a Paper-Bench (tudományos érvelés és kutatási cikkek kritikája), és legutóbb a piaci alapú értékelések felé, mint például a SWE-Lancer (szabadúszó szoftvermérnöki projektek valós kifizetések alapján).
A GDPval a következő lépést képviseli ebben a fejlődésben. Ez az értékelés a modellek teljesítményét méri olyan feladatokon, amelyek közvetlenül tapasztalt szakemberek valós, tudásalapú munkájából származnak, számos foglalkozás és ágazat kapcsán, így világosabb képet ad arról, hogyan teljesítenek a modellek a gazdaságilag értékes feladatok során. A modellek valóságos foglalkozási feladatokban történő értékelése segít megérteni nemcsak azt, hogy mennyire jól teljesítenek a laboratóriumban, hanem azt is, hogyan nyújthatnak támogatást az embereknek a mindennapi munkájuk során.
A GDPval, ennek az értékelésnek az első verziója, 44 foglalkozást ölel fel, az USA GDP-jéhez leginkább hozzájáruló 9 iparág közül kiválasztva. A GDPval teljes készlet 1 320 speciális feladatot tartalmaz (ebből 220 a nyílt forráskódú, aranyszintű készletben), melyeket gondosan dolgoztak ki és ellenőriztek olyan tapasztalt szakemberek, akik átlagosan több mint 14 éves tapasztalattal rendelkeznek az adott területen. Minden feladat valós munkatermékeken alapul, mint például egy jogi beadvány, egy mérnöki tervrajz, egy ügyfélszolgálati beszélgetés vagy egy ápolási terv.
A GDPval egyedülálló mind a realizmusában, mind az értékelt feladatok sokféleségében. Ellentétben más, gazdasági értékhez kötött értékelésekkel, amelyek meghatározott domainokra koncentrálnak (pl. SWE-Lancer), a GDPval sokféle feladatot és foglalkozást fed le. Ellentétben azokkal a mércékkel, amelyek szintetikus feladatok létrehozását foglalják magukban egy akadémiai vizsga vagy teszt stílusában (pl. Humanity’s Last Exam vagy MMLU), A GDPval olyan feladatokra összpontosít, amelyek kézzelfogható eredményeken alapulnak, legyen az egy valós, ma is létező munkadarab vagy termék, vagy egy ehhez hasonlóan megalkotott munkatermék.
A hagyományos referenciaértékekkel ellentétben a GDPval feladatok nem egyszerű utasítások. Ezek referenciafájlokkal és kontextussal érkeznek, és a várható eredmények dokumentumokat, diákat, diagramokat, táblázatokat és multimédiát tartalmaznak. Ez a realizmus teszi a GDPval-t valósághűbbé annak tesztelésében, hogy a modellek hogyan nyújthatnak támogatást a szakembereknek.
A GDPval egy korai lépés, amely nem tükrözi számos gazdasági feladat teljes árnyaltságát. Bár 44 foglalkozást és több száz tudásalapú munkafeladatot ölel fel, csak egyszeri értékelésekre korlátozódik, így nem rögzíti azokat az eseteket, amikor a modellnek kontextust kellene építenie vagy több vázlaton keresztül javulnia kellene. A jövőbeli verziók interaktívabb munkafolyamatokra és kontextusban gazdagabb feladatokra terjednek majd ki, hogy jobban tükrözzék a valós tudásalapú munka összetettségét (lásd alább a Korlátozások szakaszban).
A GDPval 9 iparág és 44 foglalkozás feladatait fedi le, és a jövőbeli verziók tovább bővítik a lefedettséget. Az első 9 iparágat azok közül választottuk ki, amelyek több mint 5%-kal járulnak hozzá az Egyesült Államok GDP-jéhez, a St. Louis-i Federal Reserve Bank adatai alapján. Ezután kiválasztottuk az egyes iparágakban azt az 5 foglalkozást, amelyek a legnagyobb mértékben járulnak hozzá az összes bérhez és juttatáshoz, és amelyek túlnyomórészt tudásalapú munkát képviselnek, a 2024. májusi amerikai Munkaügyi Statisztikai Hivatal (BLS) foglalkozási foglalkoztatási jelentéséből(új ablakban nyílik meg) származó bér- és foglalkoztatási adatok felhasználásával. Annak meghatározásához, hogy a foglalkozások túlnyomórészt tudásalapú munkák-e, az O*NET(új ablakban nyílik meg) adatbázis feladatait használtuk, amelyet az Egyesült Államok Munkaügyi Minisztériuma támogat. Osztályoztuk, hogy az O*NET minden foglalkozásához tartozó feladat tudásalapú munkának vagy fizikai munkának/kézi munkának minősül-e (amely a fizikai világban végrehajtandó műveleteket igényel). Egy foglalkozás akkor minősül összességében „túlnyomórészt tudásalapú munkának”, ha összetevő feladatainak legalább 60%-a nem igényel fizikai munkát vagy kézi munkát. Ezt a 60%-os küszöböt választottuk kiindulópontként a GDPval első verziójához, azokra a foglalkozásokra összpontosítva, ahol az AI a legnagyobb hatást gyakorolhatja a valós termelékenységre.
A folyamat eredményeképpen 44 foglalkozást vettünk fel az értékelésbe.
Ingatlan, bérbeadás és lízing
Concierge-ek
Ingatlan-, ingatlanfejlesztési és társasházi közösségi menedzserek
Ingatlanértékesítési ügynökök
Ingatlanügynökök
Pultos és kölcsönzési ügyintézők
Kormányzat
Szabadidős tevékenységek szervezői
Megfelelőségi tisztviselők
Rendőrök és nyomozók első vonalbeli vezetői
Adminisztratív szolgáltatások menedzserei
Gyermek-, család- és iskolai szociális munkások
Gyártás
Gépészmérnökök
Ipari mérnökök
Beszerzők és ügynökök
Szállítási, áruátvételi és raktározási ügyintézők
A termelési és üzemeltetési munkások első vonalbeli felügyelői
Szakmai, tudományos és műszaki szolgáltatások
Szoftverfejlesztők
Ügyvédek
Könyvelők és könyvvizsgálók
Számítógépes és információs rendszerek menedzserei
Projektmenedzsment szakemberek
Egészségügyi ellátás és szociális segítségnyújtás
Regisztrált ápolók
Nővérerek
Egészségügyi és orvosi szolgáltatások vezetői
Irodai és adminisztratív ügyfélszolgálati munkatársak első vonalbeli felügyelői
Orvosi titkárok és adminisztratív asszisztensek
Pénzügy és biztosítás
Ügyfélszolgálati képviselők
Pénzügyi és befektetési elemzők
Pénzügyi menedzserek
Pénzügyi tanácsadók
Értékpapírok, árucikkek és pénzügyi szolgáltatások értékesítési ügynökei
Kiskereskedelmi kereskedelem
Gyógyszerészek
Első vonalbeli vezetők a kiskereskedelmi értékesítési munkatársak felett
Általános és operatív vezetők
Magánnyomozók és nyomozók
Nagykereskedelem
Értékesítési vezetők
Rendelési ügyintézők
Nem kiskereskedelmi értékesítési dolgozók első vonalbeli vezetői
Értékesítési képviselők, nagykereskedelem és gyártás, kivéve a műszaki és tudományos termékeket
Értékesítési képviselők, nagykereskedelem és gyártás, műszaki és tudományos termékek
Információ
Hang- és videótechnikusok
Producerek és rendezők
Hírelemzők, riporterek és újságírók
Film- és videószerkesztők
Szerkesztők
Minden egyes foglalkozásnál tapasztalt szakemberekkel dolgoztunk együtt, hogy olyan reprezentatív feladatok létrehozását biztosítsuk, amelyek tükrözik a mindennapi munkájukat. Ezek a szakemberek átlagosan 14 év tapasztalattal rendelkeznek, meggyőző előmenetellel. Szándékosan toboroztunk széles körű szakértői csoportot—például különböző szakterületeken dolgozó ügyvédeket és különböző méretű cégeket—hogy maximalizáljuk a reprezentativitást.
Minden feladat egy többlépcsős felülvizsgálati folyamaton ment keresztül, hogy biztosan a valós munkát tükrözze, más szakember számára megvalósítható és az értékeléshez egyértelmű legyen. Minden feladat átlagosan 5 kör szakértői felülvizsgálaton esett át, beleértve más feladatírók általi ellenőrzést, további szakmai felülvizsgálókat és modellalapú érvényesítést.
A kapott adathalmaz 30 teljes mértékben ellenőrzött feladatot tartalmaz foglalkozásonként (teljes készlet), és 5 feladatot foglalkozásonként az arany szintű nyílt forráskódú készletünkben, amely szilárd alapot nyújt a modell teljesítményének értékeléséhez a valós, tudásalapú munkák során.
Példák a GDPval feladatokra
Utasítás + feladat kontextus
Tapasztalt humán eredmény

A GDPval feladatokon nyújtott modell-teljesítmény értékeléséhez szakértő „értékelőkre” támaszkodunk—olyan tapasztalt szakemberek csoportjára, akik ugyanazokat a foglalkozásokat képviselik, mint amelyek az adathalmazban szerepelnek. Ezek az értékelők vakon hasonlítják össze a modell által generált eredményeket a feladatírók által készített eredményekkel (anélkül, hogy tudnák, melyik az AIés melyik az ember által generált), és elkészítik a kritikákat valamint rangsorolnak. A bírálók ezután rangsorolják az emberi és AI teljesítményeket, és minden AI teljesítményt „jobbnak”, „ugyanolyan jónak” vagy „rosszabbnak” minősítenek egymáshoz képest.
A feladatírók részletes értékelési útmutatókat is létrehoztak a munkaköreikhez, amelyek következetességet és átláthatóságot biztosítanak az értékelési folyamathoz. Egy „automatikus osztályozót” is építettünk, egy AI rendszert, amelyet arra képeztek ki, hogy megbecsülje, hogyan ítélnék meg az emberi szakértők egy adott munkát. Más szavakkal, ahelyett, hogy minden alkalommal teljes szakértői értékelést végeznénk, az automatikus osztályozó gyorsan meg tudja jósolni, melyik kimenetet részesítenék előnyben az emberek. Ezt az eszközt az evals.openai.com oldalon keresztül tesszük közzé kísérleti kutatási szolgáltatásként, de még nem olyan megbízható, mint a szakértői értékelők, ezért nem használjuk őket a helyettesítésükre.
Megállapítottuk, hogy a mai legjobb élvonalbeli modellek már megközelítik az iparági szakértők által végzett munka minőségét. Ennek tesztelésére vak értékeléseket végeztünk, ahol iparági szakértők hasonlították össze a GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro és Grok 4 modellek által készített anyagokat az emberi munkával. A GDPval aranykészletben szereplő 220 feladaton feljegyeztük, hogy a modell kimenetét milyen esetekben értékelték az iparági szakértők eredményeinél jobbnak („győzelmek”), illetve velük egyenértékűnek („döntetlenek”), ahogy az alábbi oszlopdiagramon is látható. A Claude Opus 4.1 modell teljesített a legjobban a készletben, különösen az esztétika terén (pl. dokumentumformázás, diák elrendezése), míg a GPT‑5 különösen a pontosság terén tűnt ki (pl. szakterület-specifikus tudás megkeresése). Idővel egyértelmű előrehaladást látunk ezeken a feladatokon is. A teljesítmény több mint megduplázódott a GPT‑4o (2024 tavaszán kiadott) és a GPT‑5 (2025 nyarán kiadott) között, egyértelmű lineáris trendet követve.
Ezenkívül megállapítottuk, hogy a csúcskategóriás modellek körülbelül 100-szor gyorsabban és 100-szor olcsóbban tudják elvégezni a GDPval feladatokat, mint az iparági szakértők. Ezek a számok azonban csak a modell tiszta következtetési idejét és az API számlázási díjakat tükrözik, és ezért nem tartalmazzák az emberi felügyeletet, az iterációt és az integrációs lépéseket, amelyek a valós munkahelyi környezetben szükségesek a modelljeink használatához. Mégis, különösen azon a feladatok részhalmazán, ahol a modellek különösen erősek, azt várjuk, hogy egy feladatot egy modellnek adva, mielőtt emberrel próbálnánk, időt és pénzt takaríthatunk meg.
Szakértői értékelők összehasonlították a vezető modellek teljesítményét az emberi szakértők teljesítményével. A mai élvonalbeli modellek már megközelítik az iparági szakértők által végzett munka minőségét. A Claude Opus 4.1 kimenetei a feladatok közel felében ugyanolyan jó vagy jobb minősítést kaptak, mint az emberi kimenetek.
A GPT‑4o‑tól a GPT‑5‑ig a GDPval feladatok teljesítménye több mint megháromszorozódott egy év alatt.
Végül fokozatosan képeztük a GPT‑5 egy belső, kísérleti verzióját, hogy felmérjük, javíthatjuk-e a teljesítményt a GDPval teszten. Megállapítottuk, hogy ez a folyamat javította a teljesítményt, és egyben utat nyitott a további lehetséges fejlesztések számára. Más ellenőrzött kísérletek is visszaigazolják ezt: a modell méretének növelése, a több következtetési lépés ösztönzése és a gazdagabb feladat kontextus biztosítása mind mérhető eredményeket hozott.
Az eredményeket elolvashatod a tanulmányunkban. Ezenkívül közzéteszünk a GDPval feladatokból egy aranyrészhalmazt, valamint egy nyilvános értékelőszolgáltatást is, hogy más kutatók erre a munkára építhessenek.
Ahogy a mesterséges intelligencia egyre fejlettebbé válik, valószínűleg változásokat vált ki a munkaerőpiacon. A korai GDPval eredmények azt mutatják, hogy a modellek már képesek bizonyos ismétlődő, jól meghatározott feladatokat gyorsabban és alacsonyabb költséggel elvégezni, mint a szakértők. Azonban a legtöbb munka több, mint csupán leírható feladatok gyűjteménye. A GDPval kiemeli, hogy az AI hol képes kezelni a rutin feladatokat, így az emberek több időt tölthetnek a kreatív, döntésigényes munkarészekkel. Amikor a mesterséges intelligencia ilyen módon kiegészíti a munkavállalókat, az jelentős gazdasági növekedést eredményezhet. Célunk, hogy mindenki az AI „felfelé tartó liftjében” maradjon, ezért demokratizáljuk ezekhez az eszközökhöz való hozzáférést, támogatjuk a dolgozókat a változás során, és olyan rendszereket építünk, amelyek a minél szélesebb körű hozzájárulást jutalmazzák.
A GDPval egy korai lépés. Bár 44 foglalkozást és több száz feladatot ölel fel, tovább finomítjuk a megközelítésünket, hogy bővítsük a tesztelésünk körét, és még jelentősebbé tegyük az eredményeket. A jelenlegi értékelési verzió is egyetlen próbálkozásra épül, így nem ragadja meg azokat az eseteket, amikor egy modellnek kontextust kellene építenie vagy több vázlaton keresztül javulnia kellene—például egy jogi összefoglaló átdolgozása ügyfél visszajelzés után, vagy egy adatelemzés iterálása egy anomália észlelését követően. Emellett a való világban a feladatok nem mindig egyértelmű, utasítással és hivatkozási fájlokkal meghatározott formában jelennek meg; például egy jogásznak kezelnie kell a bizonytalanságot, és beszélnie kell az ügyfelével, mielőtt úgy dönt, hogy egy jogi beadvány elkészítése a megfelelő módja a segítségnyújtásnak. Terveink szerint bővítjük a GDPval-t, hogy még több foglalkozást, iparágat és feladattípust foglaljon magában, növelve az interaktivitást, és több olyan feladatot, amely a kétértelműség kezelését igényli, azzal a hosszú távú céllal, hogy jobban mérjük a különböző tudásalapú munkák előrehaladását.
- Ha iparági szakértő vagy , és szeretnél hozzájárulni a GDPval-hoz, kérjük, jelezd érdeklődésed itt.
- Ha az OpenAI ügyfele vagy, és szeretnél hozzájárulni a GDPval következő fordulójához, kérjük, jelezd érdeklődésed itt.
A közösségi részvétel elengedhetetlen—izgatottan várjuk, hogy együtt építsük a GDPval-t kutatókkal, szakemberekkel és szervezetekkel, akik osztoznak célunkban, hogy az AGI-t hasznosabbá tegyük az emberek számára a munkahelyen.


