Fara beint í aðalefni
OpenAI

25. september 2025

ÚtgáfaRannsóknir

Að mæla frammistöðu líkön okkar á raunverulegum verkefnum

Við kynnum GDPval, nýtt mat sem metur frammistöðu líkans á efnahagslega verðmætum, raunverulegum verkefnum í 44 starfsgreinum.

Markmið okkar er að tryggja að almenn gervigreind komi öllu mannkyninu til góða. Sem hluti af verkefni okkar viljum við á gagnsæjan hátt miðla framvindu um hvernig gervigreindarlíkön geta hjálpað fólki í raunheimum. Þess vegna erum við að kynna GDPval: nýtt mat sem er hannað til að hjálpa okkur að fylgjast með hversu vel líkön okkar og önnur standa sig í verkefnum sem eru efnahagslega verðmæt og raunveruleg. Við köllum þetta mat GDPval vegna þess að við byrjuðum með hugmyndina um verga landsframleiðslu (GDP) sem lykilefnahagsvísitölu og drógum verkefni frá lykilstörfum í þeim atvinnugreinum sem leggja mest til verga landsframleiðslu.

Fólk veltir oft fyrir sér víðtækari áhrifum gervigreindar á samfélagið, en skýrasta leiðin til að skilja möguleika hennar er að skoða hvað líkön eru nú þegar fær um að gera. Sagan sýnir að helstu tækninýjungar—frá internetinu til snjallsíma—tóku meira en áratug að fara frá uppfinningu til víðtækrar notkunar. Mat eins og GDPval hjálpar til við að festa samtöl um framtíðarframfarir í gervigreind í sönnunargögnum frekar en ágiskunum og getur hjálpað okkur að fylgjast með framförum líkansins yfir tíma.

Fyrri mat á gervigreind, eins og krefjandi akademísk próf og samkeppnishæfar kóðunaráskoranir, hefur verið nauðsynlegt til að ýta undir mörk röksemdafærsluhæfileika líkans, en þau bregðast oft við þeim verkefnum sem margir fást við í daglegu starfi sínu.

Til að brúa þetta bil höfum við verið að þróa mat sem mælir sífellt raunhæfari og efnahagslega viðeigandi hæfni. Þessi þróun hefur færst frá klassískum fræðilegum viðmiðum eins og MMLU (prófstílspurningar yfir tugi greina), yfir í meira hagnýtar matseiningar eins og SWE-Bench (villuleiðréttingar í hugbúnaðarverkfræði), MLE-Bench (verkefni í vélnámsverkfræði eins og líkanþjálfun og greining), og Paper-Bench (vísindaleg rökhugsun og gagnrýni á rannsóknargreinar), og nýlega í markaðsmiðaðar matseiningar eins og SWE-Lancer (sjálfstæð hugbúnaðarverkefni byggð á raunverulegum greiðslum).

GDPval er næsta skref í þeirri framvindu. Það metur frammistöðu líkana á verkefnum sem eru beint dregin úr raunverulegri þekkingarvinnu reyndra fagmanna yfir breitt svið starfa og geira, sem gefur skýrari mynd af því hvernig líkön standa sig í verkefnum sem hafa efnahagsleg verðmæti. Að meta líkön á raunhæfum starfsverkefnum hjálpar okkur að skilja ekki aðeins hversu vel þau standa sig á rannsóknarstofunni, heldur einnig hvernig þau geta veitt aðstoð fólki í daglegu starfi sínu. 

Hvað GDPval mælir

GDPval, fyrsta útgáfa þessa mats, nær yfir 44 starfsgreinar valdar úr efstu 9 atvinnugreinum sem leggja mest til verga landsframleiðslu Bandaríkjanna. GDPval-heildarsettið inniheldur 1.320 sérhæfð verkefni (220 í gyllta, opna settinu), hvert vandlega unnið og yfirfarið af reyndum sérfræðingum með yfir 14 ára reynslu að meðaltali á þessum sviðum. Hvert verkefni byggir á raunverulegum vinnuafurðum, eins og lögfræðilegri greinargerð, verkfræðiteikningu, samtali við viðskiptavin um aðstoð eða hjúkrunaráætlun.

GDPval er einkennandi bæði fyrir raunsæi sitt og fjölbreytni verkefna sem eru metin. Ólíkt öðrum mötum sem tengjast efnahagslegu verðmæti og einblína á sérstök svið (t.d. SWE-Lancer), nær GDPval yfir mörg verkefni og störf. Ólíkt viðmiðum sem fela í sér að búa til verkefni á tilbúinn hátt í stíl fræðilegs prófs eða prófunar (t.d. Humanity’s Last Exam eða MMLU), einbeitir GDPval sér að verkefnum sem byggjast á afurðum sem eru annaðhvort raunveruleg verk eða afurðum sem eru til í dag eða eru á svipaðan hátt uppbyggðar verkafurðir. 

Ólíkt hefðbundnum viðmiðum eru GDPval-verkefni ekki einfaldar textakvaðningar. Þau koma með tilvísunarskrár og samhengi, og væntanlegar afurðir ná yfir skjöl, glærur, skýringarmyndir, töflureikna og margmiðlun. Þessi staðreynd gerir GDPval að raunhæfari prófun á því hvernig líkön gætu veitt aðstoð fagfólki.

GDPval er upphafsskref sem endurspeglar ekki allt blæbrigði margra efnahagslegra verkefna. Þó að það nái yfir 44 starfsgreinar og hundruð þekkingarverkefna, er það takmarkað við einnar lotu mat, svo það fangar ekki tilfelli þar sem líkan þyrfti að byggja upp samhengi eða bæta sig í gegnum mörg drög. Framtíðarútgáfur munu innihalda gagnvirkari verkferla og verkefni sem eru ríkari af samhengi til að endurspegla betur flækjustig raunverulegrar þekkingarvinnu (sjá meira í kaflanum um takmarkanir hér að neðan).

Hvernig við völdum störfin

GDPval nær yfir verkefni í 9 atvinnugreinum og 44 störfum, og framtíðarútgáfur munu halda áfram að auka umfang. Upphaflegu 9 atvinnugreinarnar voru valdar út frá þeim sem leggja meira en 5% til vergrar landsframleiðslu Bandaríkjanna, samkvæmt gögnum frá Federal Reserve Bank of St. Louis. Síðan völdum við 5 störf innan hverrar atvinnugreinar sem leggja mest af mörkum til heildarlauna og bótakostnaðar og eru aðallega þekkingarstörf, með því að nota launa- og atvinnugögn úr maí 2024 skýrslu um atvinnu eftir starfsgreinum frá US Bureau of Labor Statistics (BLS)(opnast í nýjum glugga). Til að ákvarða hvort störfin væru aðallega þekkingarstörf, notuðum við verkefnagögn frá O*NET(opnast í nýjum glugga), gagnagrunni um bandarískar starfsupplýsingar sem er styrktur af bandaríska vinnumálaráðuneytinu. Við flokkuðum hvort hvert verkefni fyrir hverja starfsgrein í O*NET væri þekkingarvinna eða líkamleg vinna/verkamannavinna (sem krefst aðgerða í hinum raunverulega heimi). Starf er almennt talið „aðallega þekkingarvinna“ ef að minnsta kosti 60% af verkefnum þess eru flokkuð sem ekki fela í sér líkamlega vinnu eða verkamannavinnu. Við völdum þessa 60% viðmiðun sem upphafspunkt fyrir fyrstu útgáfu GDPval, með áherslu á störf þar sem gervigreind gæti haft mest áhrif á raunheimsframleiðni. 

Þetta ferli skilaði 44 störfum til meðtalningar.

Fasteignir, leiga og útleiga

  • Móttökustjórar

  • Stjórnendur fasteigna, fasteignafélaga og húsfélaga

  • Fasteignasölumenn

  • Fasteignamiðlarar

  • Afgreiðslu- og leigustarfsmenn

Opinber stjórnsýsla

  • Tómstundastarfsmenn

  • Reglufylgnisfulltrúar

  • Yfirmenn í fremstu víglínu lögreglu og rannsóknarlögreglumanna

  • Stjórnsýslustjórar þjónustu

  • Félagsráðgjafar sem vinna með börnum, fjölskyldum og skólum

Framleiðsla

  • Vélaverkfræðingar

  • Iðnaðarverkfræðingar

  • Kaupendur og innkaupaaðilar

  • Starfsmenn í sendingum, móttöku og birgðahaldi

  • Verkstjórar í fremstu víglínu framleiðslu- og rekstrarstarfsmanna

Fagleg, vísindaleg og tæknileg þjónusta

  • Hugbúnaðarsmiðir

  • Lögfræðingar

  • Bókarar og endurskoðendur

  • Stjórnendur tölvu- og upplýsingakerfa

  • Sérfræðingar í verkefnastjórnun

Heilbrigðisþjónusta og félagsleg aðstoð

  • Hjúkrunarfræðingar

  • Hjúkrunarfræðingar með sérfræðimenntun

  • Stjórnendur heilbrigðis- og heilsuþjónustu

  • Fyrstu línu stjórnendur skrifstofu- og stjórnunar aðstoðarmanna

  • Læknaritarar og stjórnsýsluaðstoðarmenn

Fjármál og tryggingar

  • Þjónustufulltrúar viðskiptavina

  • Fjárhags- og fjárfestingarsérfræðingar

  • Fjármálastjórar

  • Persónulegir fjárhagslegir ráðgjafar

  • Fulltrúar fyrir verðbréf, hrávörur og fjármálaþjónustu

Smásala

  • Lyfjafræðingar

  • Yfirmenn á fyrstu línu smásölustarfsmanna

  • Framkvæmdastjórar almenns reksturs

  • Einkaspæjarar og einkarannsakendur

Heildsala

  • Sölustjórar

  • Pöntunarfulltrúar

  • Yfirmenn í fyrstu línu yfir sölufólki sem starfar ekki í smásölu

  • Sölufulltrúar í heildsölu og framleiðslu, að undanskildum tæknivörum og vísindavörum

  • Sölufulltrúar, heildsölu- og framleiðsluvörur, tæknilegar og vísindalegar vörur

Upplýsingar

  • Hljóð- og myndbandstæknar

  • Framleiðendur og leikstjórar

  • Fréttaskýrendur, fréttamenn og blaðamenn

  • Kvikmynda- og myndbandsklipparar

  • Ritstjórar

GDPval nær yfir 44 þekkingarvinnustörf í 9 geirum, allt frá forriturum og lögfræðingum til shjúkrunarfræðinga og vélaverkfræðinga. Þessi störf voru valin vegna efnahagslegs mikilvægis þeirra og endurspegla þær tegundir daglegra starfa þar sem gervigreind getur veitt fagfólki raunverulega aðstoð.

Hvernig við bjuggum til gagnasafnið

Fyrir hverja starfsgrein unnum við með reyndu fagfólki til að búa til dæmigerð verkefni sem endurspegla daglega vinnu þeirra. Þetta fagfólk hafði að meðaltali 14 ára reynslu og sterka sögu um framfarir. Við réðum vísvitandi mikla breidd sérfræðinga—svo sem lögfræðinga frá mismunandi starfssviðum og fyrirtækjum af mismunandi stærðum—til að hámarka fulltrúahlutdeild.

Hvert verkefni fór í gegnum margþrepa yfirferðarferli til að tryggja að það væri fulltrúi raunverulegrar vinnu, framkvæmanlegt fyrir annan fagaðila að ljúka við og skýrt til mats. Að meðaltali fékk hvert verkefni 5 umferðir af sérfræðiyfirferð, þar á meðal athuganir frá öðrum verkefnishöfundum, viðbótar starfstengdum yfirferðaraðilum og líkanbundna staðfestingu. 

Gagnasafnið inniheldur 30 fullskoðuð verkefni fyrir hverja starfsgrein (fullt safn) með 5 verkefnum fyrir hverja starfsgrein í opna gyllta safninu okkar, sem veitir traustan grunn til að meta frammistöðu líkans á raunverulegri þekkingarvinnu.

Dæmi um verkefni GDPval

Kvaðning + verkefnissamhengi

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

Reynslumikil mannleg afurð

Stækkað yfirlit af hönnun fyrir kapalkefli
Hvert verkefni í GDPval er hannað af reyndum sérfræðingi og endurspeglar raunverulega þekkingarvinnu úr starfi þeirra. Kvaðningin er raunhæft vinnuverkefni búið til af sviðssérfræðingi, og gyllta afurðin er lausn sérfræðingsins sjálfs.

Hvernig við metum frammistöðu líkansins

Til að meta frammistöðu líkans á GDPval-verkefnum treystum við á sérfræðibundna „flokkunaraðila“—hóp reyndra fagaðila úr sömu starfsgreinum sem eru í gagnasafninu. Þessir flokkunaraðilar bera blint saman afurðir sem líkan hefur búið til við þær sem verkefnishöfundar hafa framleitt (án þess að vita hvort er unnið af gervigreind eða mannavöldum) og veita gagnrýni og röðun. Flokkunaraðilar raða síðan mannlegum og gervigreindarafurðum og flokka hverja gervigreindarafurð sem „betri“, „jafngóð“ eða „verri en“ aðrar.

Höfundar verkefna bjuggu einnig til ítarlegra matskvarða fyrir störf sín, sem auka samræmi og gagnsæi í einkunnagjöfinni. Við smíðuðum einnig „sjálfvirkan flokkunaraðila“, gervigreindarkerfi sem er þjálfað til að meta hvernig mannlegir sérfræðingar myndu dæma tiltekna afhendingu. Með öðrum orðum, í stað þess að framkvæma fulla sérfræðiyfirferð í hvert skipti, getur sjálfvirki flokkunaraðilinn fljótt spáð fyrir um hvaða frálag fólk myndi líklega kjósa. Við erum að gefa út þetta verkfæri í gegnum evals.openai.com sem tilraunarannsóknarþjónustu, en það er ekki enn eins áreiðanlegt og sérfræðitengdir flokkunaraðilar, svo við notum það ekki til að koma í þeirra stað. 

Fyrstu niðurstöður

Við komumst að því að bestu fremstu líkönin í dag eru nú þegar að nálgast gæði vinnu sem sérfræðingar atvinnugreina skila. Til að prófa þetta framkvæmdu við blind möt þar sem sérfræðingar í atvinnugreininni báru saman afurðir frá nokkrum leiðandi líkönum—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro og Grok 4—við verk sem unnin voru af mönnum. Í 220 verkefnum í gyllta safni GDPval skráðum við þegar frálag líkans var metið betra en („sigrar“) eða jafngilt („jafntefli“) afurðum frá sérfræðingum í atvinnugreinum, eins og sýnt er í súluriti hér að neðan. Claude Opus 4.1 var besta líkanið í safninu, skaraði sérstaklega fram úr í fagurfræði (t.d. skjalauppsetningu, glærusnið), og GPT‑5 skaraði sérstaklega fram úr í nákvæmni (t.d. að finna sérhæfða þekkingu). Við sjáum einnig skýrar framfarir með tímanum í þessum verkefnum. Frammistaðan hefur meira en tvöfaldast frá GPT‑4o (gefið út vorið 2024) til GPT‑5 (gefið út sumarið 2025), í samræmi við skýra línulega þróun.

Auk þess komumst við að því að fremstu líkön geta lokið GDPval-verkefnum um það bil 100 sinnum hraðar og 100 sinnum ódýrara en sérfræðingar í atvinnugreininni. Hins vegar endurspegla þessar tölur eingöngu hreinan ályktunartíma líkans og gjaldskrá API, og því ná þær ekki yfir mannlegt eftirlit, endurtekningar og samþættingarferli sem krafist er í raunverulegum vinnustaðsaðstæðum til að nota líkönin okkar. Samt sem áður, sérstaklega í þeim undirflokkum verkefna þar sem líkön eru sérstaklega sterk, búumst við við að með því að láta líkan leysa verkefni áður en það er reynt með manneskju, myndi það spara tíma og peninga.

Sérfræðitengdir flokkunaraðilar báru saman afurðir frá fremstu líkönum við mannlega sérfræðinga. Fremstu líkönin í dag eru nú þegar að nálgast gæði vinnu sem sérfræðingar atvinnugreina skila. Claude Opus 4.1 framleiddi frálag sem var metið jafn gott eða betra en hjá mönnum í rétt undir helmingi verkefnanna.

Frá GPT‑4o til GPT‑5, meira en þrefaldaðist frammistaða á GDPval-verkefnum á einu ári. 

Að lokum þjálfuðum við smám saman innri, tilraunaútgáfu af GPT‑5 til að meta hvort við gætum bætt frammistöðu á GDPval. Við komumst að því að þetta ferli bætti frammistöðu og bjó til leið fyrir frekari möguleika á umbótum. Aðrar stýrðar tilraunir styðja þetta einnig: að auka stærð líkansins, hvetja til fleiri röksemdafærsluskrefa og veita ríkara verkefnasamhengi leiddi hvert um sig til mælanlegra framfara.

Þú getur lesið allar niðurstöðurnar í grein okkar. Við erum líka að gefa út gyllt undirsafn af GDPval-verkefnum og opinbera flokkunaraðilaþjónustu svo aðrir vísindamenn geti byggt á þessari vinnu.

Framtíð vinnu og gervigreindar. 

Eftir því sem gervigreind verður hæfari, mun hún líklega valda breytingum á vinnumarkaðnum. Fyrstu niðurstöður GDPval sýna að líkön geta nú þegar tekið að sér sum endurtekin, vel skilgreind verkefni hraðar og með minni tilkostnaði en sérfræðingar. Hins vegar eru flest störf meira en bara safn verkefna sem hægt er að skrá niður. GDPval leggur áherslu á hvar gervigreind getur sinnt venjubundnum verkefnum svo fólk geti varið meiri tíma í skapandi og dómgreindarþungan hluta vinnunnar. Þegar fer vel við starfsmenn á þennan hátt getur það leitt til verulegs efnahagslegs vaxtar. Markmið okkar er að halda öllum á „upplyftingu“ gervigreindar með því að lýðræðisvæða aðgang að þessum verkfærum, styðja við starfsmenn í gegnum breytingar og byggja kerfi sem umbuna fyrir víðtækt framlag. 

Takmarkanir og hvað kemur næst

GDPval er fyrsta skrefið. Þó að það nái yfir 44 starfsgreinar og hundruð verkefna, höldum við áfram að fínstilla nálgun okkar til að auka umfang prófana okkar og gera niðurstöðurnar merkingarbetri. Núverandi útgáfa matsins er einnig einnar lotu, svo hún fangar ekki tilvik þar sem líkan þyrfti að byggja upp samhengi eða bæta sig í gegnum mörg drög—til dæmis að endurskoða lögfræðilegt álit eftir ábendingu frá viðskiptavini eða að endurtaka gagnagreiningu eftir að hafa greint frávik. Að auki, í raunveruleikanum eru verkefni ekki alltaf skýrt skilgreind með kvaðningu og tilvísunarskrám; til dæmis gæti lögfræðingur þurft að hafa í huga óvissu og tala við viðskiptavin sinn áður en hann ákveður að það að búa til lögfræðilegt ágrip sé rétta leiðin til að hjálpa honum. Við höfum áætlun um að stækka GDPval til að innihalda fleiri störf, atvinnugreinar og tegundir verkefna, með aukinni gagnvirkni og fleiri verkefni sem fela í sér að takast á við óvissu, með langtímamarkmiðið að bæta mælingar á framvindu í fjölbreyttri þekkingarvinnu.

Taktu þátt

Samfélagsþátttaka er nauðsynleg—við erum spennt að þróa GDPval í samstarfi við rannsakendur, sérfræðinga og stofnanir sem deila markmiði okkar um að gera AGI gagnlegra fyrir fólk í vinnu.