Að mæla frammistöðu líkön okkar á raunverulegum verkefnum
Við kynnum GDPval, nýtt mat sem metur frammistöðu líkans á efnahagslega verðmætum, raunverulegum verkefnum í 44 starfsgreinum.
Markmið okkar er að tryggja að almenn gervigreind komi öllu mannkyninu til góða. Sem hluti af verkefni okkar viljum við á gagnsæjan hátt miðla framvindu um hvernig gervigreindarlíkön geta hjálpað fólki í raunheimum. Þess vegna erum við að kynna GDPval: nýtt mat sem er hannað til að hjálpa okkur að fylgjast með hversu vel líkön okkar og önnur standa sig í verkefnum sem eru efnahagslega verðmæt og raunveruleg. Við köllum þetta mat GDPval vegna þess að við byrjuðum með hugmyndina um verga landsframleiðslu (GDP) sem lykilefnahagsvísitölu og drógum verkefni frá lykilstörfum í þeim atvinnugreinum sem leggja mest til verga landsframleiðslu.
Fólk veltir oft fyrir sér víðtækari áhrifum gervigreindar á samfélagið, en skýrasta leiðin til að skilja möguleika hennar er að skoða hvað líkön eru nú þegar fær um að gera. Sagan sýnir að helstu tækninýjungar—frá internetinu til snjallsíma—tóku meira en áratug að fara frá uppfinningu til víðtækrar notkunar. Mat eins og GDPval hjálpar til við að festa samtöl um framtíðarframfarir í gervigreind í sönnunargögnum frekar en ágiskunum og getur hjálpað okkur að fylgjast með framförum líkansins yfir tíma.
Fyrri mat á gervigreind, eins og krefjandi akademísk próf og samkeppnishæfar kóðunaráskoranir, hefur verið nauðsynlegt til að ýta undir mörk röksemdafærsluhæfileika líkans, en þau bregðast oft við þeim verkefnum sem margir fást við í daglegu starfi sínu.
Til að brúa þetta bil höfum við verið að þróa mat sem mælir sífellt raunhæfari og efnahagslega viðeigandi hæfni. Þessi þróun hefur færst frá klassískum fræðilegum viðmiðum eins og MMLU (prófstílspurningar yfir tugi greina), yfir í meira hagnýtar matseiningar eins og SWE-Bench (villuleiðréttingar í hugbúnaðarverkfræði), MLE-Bench (verkefni í vélnámsverkfræði eins og líkanþjálfun og greining), og Paper-Bench (vísindaleg rökhugsun og gagnrýni á rannsóknargreinar), og nýlega í markaðsmiðaðar matseiningar eins og SWE-Lancer (sjálfstæð hugbúnaðarverkefni byggð á raunverulegum greiðslum).
GDPval er næsta skref í þeirri framvindu. Það metur frammistöðu líkana á verkefnum sem eru beint dregin úr raunverulegri þekkingarvinnu reyndra fagmanna yfir breitt svið starfa og geira, sem gefur skýrari mynd af því hvernig líkön standa sig í verkefnum sem hafa efnahagsleg verðmæti. Að meta líkön á raunhæfum starfsverkefnum hjálpar okkur að skilja ekki aðeins hversu vel þau standa sig á rannsóknarstofunni, heldur einnig hvernig þau geta veitt aðstoð fólki í daglegu starfi sínu.
GDPval, fyrsta útgáfa þessa mats, nær yfir 44 starfsgreinar valdar úr efstu 9 atvinnugreinum sem leggja mest til verga landsframleiðslu Bandaríkjanna. GDPval-heildarsettið inniheldur 1.320 sérhæfð verkefni (220 í gyllta, opna settinu), hvert vandlega unnið og yfirfarið af reyndum sérfræðingum með yfir 14 ára reynslu að meðaltali á þessum sviðum. Hvert verkefni byggir á raunverulegum vinnuafurðum, eins og lögfræðilegri greinargerð, verkfræðiteikningu, samtali við viðskiptavin um aðstoð eða hjúkrunaráætlun.
GDPval er einkennandi bæði fyrir raunsæi sitt og fjölbreytni verkefna sem eru metin. Ólíkt öðrum mötum sem tengjast efnahagslegu verðmæti og einblína á sérstök svið (t.d. SWE-Lancer), nær GDPval yfir mörg verkefni og störf. Ólíkt viðmiðum sem fela í sér að búa til verkefni á tilbúinn hátt í stíl fræðilegs prófs eða prófunar (t.d. Humanity’s Last Exam eða MMLU), einbeitir GDPval sér að verkefnum sem byggjast á afurðum sem eru annaðhvort raunveruleg verk eða afurðum sem eru til í dag eða eru á svipaðan hátt uppbyggðar verkafurðir.
Ólíkt hefðbundnum viðmiðum eru GDPval-verkefni ekki einfaldar textakvaðningar. Þau koma með tilvísunarskrár og samhengi, og væntanlegar afurðir ná yfir skjöl, glærur, skýringarmyndir, töflureikna og margmiðlun. Þessi staðreynd gerir GDPval að raunhæfari prófun á því hvernig líkön gætu veitt aðstoð fagfólki.
GDPval er upphafsskref sem endurspeglar ekki allt blæbrigði margra efnahagslegra verkefna. Þó að það nái yfir 44 starfsgreinar og hundruð þekkingarverkefna, er það takmarkað við einnar lotu mat, svo það fangar ekki tilfelli þar sem líkan þyrfti að byggja upp samhengi eða bæta sig í gegnum mörg drög. Framtíðarútgáfur munu innihalda gagnvirkari verkferla og verkefni sem eru ríkari af samhengi til að endurspegla betur flækjustig raunverulegrar þekkingarvinnu (sjá meira í kaflanum um takmarkanir hér að neðan).
GDPval nær yfir verkefni í 9 atvinnugreinum og 44 störfum, og framtíðarútgáfur munu halda áfram að auka umfang. Upphaflegu 9 atvinnugreinarnar voru valdar út frá þeim sem leggja meira en 5% til vergrar landsframleiðslu Bandaríkjanna, samkvæmt gögnum frá Federal Reserve Bank of St. Louis. Síðan völdum við 5 störf innan hverrar atvinnugreinar sem leggja mest af mörkum til heildarlauna og bótakostnaðar og eru aðallega þekkingarstörf, með því að nota launa- og atvinnugögn úr maí 2024 skýrslu um atvinnu eftir starfsgreinum frá US Bureau of Labor Statistics (BLS)(opnast í nýjum glugga). Til að ákvarða hvort störfin væru aðallega þekkingarstörf, notuðum við verkefnagögn frá O*NET(opnast í nýjum glugga), gagnagrunni um bandarískar starfsupplýsingar sem er styrktur af bandaríska vinnumálaráðuneytinu. Við flokkuðum hvort hvert verkefni fyrir hverja starfsgrein í O*NET væri þekkingarvinna eða líkamleg vinna/verkamannavinna (sem krefst aðgerða í hinum raunverulega heimi). Starf er almennt talið „aðallega þekkingarvinna“ ef að minnsta kosti 60% af verkefnum þess eru flokkuð sem ekki fela í sér líkamlega vinnu eða verkamannavinnu. Við völdum þessa 60% viðmiðun sem upphafspunkt fyrir fyrstu útgáfu GDPval, með áherslu á störf þar sem gervigreind gæti haft mest áhrif á raunheimsframleiðni.
Þetta ferli skilaði 44 störfum til meðtalningar.
Fasteignir, leiga og útleiga
Móttökustjórar
Stjórnendur fasteigna, fasteignafélaga og húsfélaga
Fasteignasölumenn
Fasteignamiðlarar
Afgreiðslu- og leigustarfsmenn
Opinber stjórnsýsla
Tómstundastarfsmenn
Reglufylgnisfulltrúar
Yfirmenn í fremstu víglínu lögreglu og rannsóknarlögreglumanna
Stjórnsýslustjórar þjónustu
Félagsráðgjafar sem vinna með börnum, fjölskyldum og skólum
Framleiðsla
Vélaverkfræðingar
Iðnaðarverkfræðingar
Kaupendur og innkaupaaðilar
Starfsmenn í sendingum, móttöku og birgðahaldi
Verkstjórar í fremstu víglínu framleiðslu- og rekstrarstarfsmanna
Fagleg, vísindaleg og tæknileg þjónusta
Hugbúnaðarsmiðir
Lögfræðingar
Bókarar og endurskoðendur
Stjórnendur tölvu- og upplýsingakerfa
Sérfræðingar í verkefnastjórnun
Heilbrigðisþjónusta og félagsleg aðstoð
Hjúkrunarfræðingar
Hjúkrunarfræðingar með sérfræðimenntun
Stjórnendur heilbrigðis- og heilsuþjónustu
Fyrstu línu stjórnendur skrifstofu- og stjórnunar aðstoðarmanna
Læknaritarar og stjórnsýsluaðstoðarmenn
Fjármál og tryggingar
Þjónustufulltrúar viðskiptavina
Fjárhags- og fjárfestingarsérfræðingar
Fjármálastjórar
Persónulegir fjárhagslegir ráðgjafar
Fulltrúar fyrir verðbréf, hrávörur og fjármálaþjónustu
Smásala
Lyfjafræðingar
Yfirmenn á fyrstu línu smásölustarfsmanna
Framkvæmdastjórar almenns reksturs
Einkaspæjarar og einkarannsakendur
Heildsala
Sölustjórar
Pöntunarfulltrúar
Yfirmenn í fyrstu línu yfir sölufólki sem starfar ekki í smásölu
Sölufulltrúar í heildsölu og framleiðslu, að undanskildum tæknivörum og vísindavörum
Sölufulltrúar, heildsölu- og framleiðsluvörur, tæknilegar og vísindalegar vörur
Upplýsingar
Hljóð- og myndbandstæknar
Framleiðendur og leikstjórar
Fréttaskýrendur, fréttamenn og blaðamenn
Kvikmynda- og myndbandsklipparar
Ritstjórar
Fyrir hverja starfsgrein unnum við með reyndu fagfólki til að búa til dæmigerð verkefni sem endurspegla daglega vinnu þeirra. Þetta fagfólk hafði að meðaltali 14 ára reynslu og sterka sögu um framfarir. Við réðum vísvitandi mikla breidd sérfræðinga—svo sem lögfræðinga frá mismunandi starfssviðum og fyrirtækjum af mismunandi stærðum—til að hámarka fulltrúahlutdeild.
Hvert verkefni fór í gegnum margþrepa yfirferðarferli til að tryggja að það væri fulltrúi raunverulegrar vinnu, framkvæmanlegt fyrir annan fagaðila að ljúka við og skýrt til mats. Að meðaltali fékk hvert verkefni 5 umferðir af sérfræðiyfirferð, þar á meðal athuganir frá öðrum verkefnishöfundum, viðbótar starfstengdum yfirferðaraðilum og líkanbundna staðfestingu.
Gagnasafnið inniheldur 30 fullskoðuð verkefni fyrir hverja starfsgrein (fullt safn) með 5 verkefnum fyrir hverja starfsgrein í opna gyllta safninu okkar, sem veitir traustan grunn til að meta frammistöðu líkans á raunverulegri þekkingarvinnu.
Dæmi um verkefni GDPval
Kvaðning + verkefnissamhengi
Reynslumikil mannleg afurð

Til að meta frammistöðu líkans á GDPval-verkefnum treystum við á sérfræðibundna „flokkunaraðila“—hóp reyndra fagaðila úr sömu starfsgreinum sem eru í gagnasafninu. Þessir flokkunaraðilar bera blint saman afurðir sem líkan hefur búið til við þær sem verkefnishöfundar hafa framleitt (án þess að vita hvort er unnið af gervigreind eða mannavöldum) og veita gagnrýni og röðun. Flokkunaraðilar raða síðan mannlegum og gervigreindarafurðum og flokka hverja gervigreindarafurð sem „betri“, „jafngóð“ eða „verri en“ aðrar.
Höfundar verkefna bjuggu einnig til ítarlegra matskvarða fyrir störf sín, sem auka samræmi og gagnsæi í einkunnagjöfinni. Við smíðuðum einnig „sjálfvirkan flokkunaraðila“, gervigreindarkerfi sem er þjálfað til að meta hvernig mannlegir sérfræðingar myndu dæma tiltekna afhendingu. Með öðrum orðum, í stað þess að framkvæma fulla sérfræðiyfirferð í hvert skipti, getur sjálfvirki flokkunaraðilinn fljótt spáð fyrir um hvaða frálag fólk myndi líklega kjósa. Við erum að gefa út þetta verkfæri í gegnum evals.openai.com sem tilraunarannsóknarþjónustu, en það er ekki enn eins áreiðanlegt og sérfræðitengdir flokkunaraðilar, svo við notum það ekki til að koma í þeirra stað.
Við komumst að því að bestu fremstu líkönin í dag eru nú þegar að nálgast gæði vinnu sem sérfræðingar atvinnugreina skila. Til að prófa þetta framkvæmdu við blind möt þar sem sérfræðingar í atvinnugreininni báru saman afurðir frá nokkrum leiðandi líkönum—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro og Grok 4—við verk sem unnin voru af mönnum. Í 220 verkefnum í gyllta safni GDPval skráðum við þegar frálag líkans var metið betra en („sigrar“) eða jafngilt („jafntefli“) afurðum frá sérfræðingum í atvinnugreinum, eins og sýnt er í súluriti hér að neðan. Claude Opus 4.1 var besta líkanið í safninu, skaraði sérstaklega fram úr í fagurfræði (t.d. skjalauppsetningu, glærusnið), og GPT‑5 skaraði sérstaklega fram úr í nákvæmni (t.d. að finna sérhæfða þekkingu). Við sjáum einnig skýrar framfarir með tímanum í þessum verkefnum. Frammistaðan hefur meira en tvöfaldast frá GPT‑4o (gefið út vorið 2024) til GPT‑5 (gefið út sumarið 2025), í samræmi við skýra línulega þróun.
Auk þess komumst við að því að fremstu líkön geta lokið GDPval-verkefnum um það bil 100 sinnum hraðar og 100 sinnum ódýrara en sérfræðingar í atvinnugreininni. Hins vegar endurspegla þessar tölur eingöngu hreinan ályktunartíma líkans og gjaldskrá API, og því ná þær ekki yfir mannlegt eftirlit, endurtekningar og samþættingarferli sem krafist er í raunverulegum vinnustaðsaðstæðum til að nota líkönin okkar. Samt sem áður, sérstaklega í þeim undirflokkum verkefna þar sem líkön eru sérstaklega sterk, búumst við við að með því að láta líkan leysa verkefni áður en það er reynt með manneskju, myndi það spara tíma og peninga.
Sérfræðitengdir flokkunaraðilar báru saman afurðir frá fremstu líkönum við mannlega sérfræðinga. Fremstu líkönin í dag eru nú þegar að nálgast gæði vinnu sem sérfræðingar atvinnugreina skila. Claude Opus 4.1 framleiddi frálag sem var metið jafn gott eða betra en hjá mönnum í rétt undir helmingi verkefnanna.
Frá GPT‑4o til GPT‑5, meira en þrefaldaðist frammistaða á GDPval-verkefnum á einu ári.
Að lokum þjálfuðum við smám saman innri, tilraunaútgáfu af GPT‑5 til að meta hvort við gætum bætt frammistöðu á GDPval. Við komumst að því að þetta ferli bætti frammistöðu og bjó til leið fyrir frekari möguleika á umbótum. Aðrar stýrðar tilraunir styðja þetta einnig: að auka stærð líkansins, hvetja til fleiri röksemdafærsluskrefa og veita ríkara verkefnasamhengi leiddi hvert um sig til mælanlegra framfara.
Þú getur lesið allar niðurstöðurnar í grein okkar. Við erum líka að gefa út gyllt undirsafn af GDPval-verkefnum og opinbera flokkunaraðilaþjónustu svo aðrir vísindamenn geti byggt á þessari vinnu.
Eftir því sem gervigreind verður hæfari, mun hún líklega valda breytingum á vinnumarkaðnum. Fyrstu niðurstöður GDPval sýna að líkön geta nú þegar tekið að sér sum endurtekin, vel skilgreind verkefni hraðar og með minni tilkostnaði en sérfræðingar. Hins vegar eru flest störf meira en bara safn verkefna sem hægt er að skrá niður. GDPval leggur áherslu á hvar gervigreind getur sinnt venjubundnum verkefnum svo fólk geti varið meiri tíma í skapandi og dómgreindarþungan hluta vinnunnar. Þegar fer vel við starfsmenn á þennan hátt getur það leitt til verulegs efnahagslegs vaxtar. Markmið okkar er að halda öllum á „upplyftingu“ gervigreindar með því að lýðræðisvæða aðgang að þessum verkfærum, styðja við starfsmenn í gegnum breytingar og byggja kerfi sem umbuna fyrir víðtækt framlag.
GDPval er fyrsta skrefið. Þó að það nái yfir 44 starfsgreinar og hundruð verkefna, höldum við áfram að fínstilla nálgun okkar til að auka umfang prófana okkar og gera niðurstöðurnar merkingarbetri. Núverandi útgáfa matsins er einnig einnar lotu, svo hún fangar ekki tilvik þar sem líkan þyrfti að byggja upp samhengi eða bæta sig í gegnum mörg drög—til dæmis að endurskoða lögfræðilegt álit eftir ábendingu frá viðskiptavini eða að endurtaka gagnagreiningu eftir að hafa greint frávik. Að auki, í raunveruleikanum eru verkefni ekki alltaf skýrt skilgreind með kvaðningu og tilvísunarskrám; til dæmis gæti lögfræðingur þurft að hafa í huga óvissu og tala við viðskiptavin sinn áður en hann ákveður að það að búa til lögfræðilegt ágrip sé rétta leiðin til að hjálpa honum. Við höfum áætlun um að stækka GDPval til að innihalda fleiri störf, atvinnugreinar og tegundir verkefna, með aukinni gagnvirkni og fleiri verkefni sem fela í sér að takast á við óvissu, með langtímamarkmiðið að bæta mælingar á framvindu í fjölbreyttri þekkingarvinnu.
- Ef þú ert sérfræðingur í greininni og hefur áhuga á að leggja þitt af mörkum til GDPval skaltu lýsa yfir áhuga þínum hér.
- Ef þú ert viðskiptavinur sem vinnur með OpenAI og langar að leggja þitt af mörkum til GDPval í framtíðinni skaltu lýsa yfir áhuga þínum hér.
Samfélagsþátttaka er nauðsynleg—við erum spennt að þróa GDPval í samstarfi við rannsakendur, sérfræðinga og stofnanir sem deila markmiði okkar um að gera AGI gagnlegra fyrir fólk í vinnu.


