Pagsukat sa pagganap ng aming mga modelo sa mga gawain sa aktwal na mundo
Ipinapakilala namin ang GDPval, isang bagong pagsusuri na sumusukat sa pagganap ng modelo sa mga gawain sa totoong mundo na may mahalagang pakinabang sa ekonomiya sa 44 na propesyon.
Ang aming misyon ay tiyakin na ang artificial general intelligence ay magdudulot ng pakinabang sa buong sangkatauhan. Bilang bahagi ng aming misyon, gusto naming malinaw na ipahayag ang progreso kung paano makakatulong ang mga modelo ng AI sa mga tao sa totoong mundo. Iyan ang dahilan kung bakit ipinakikilala namin ang GDPval: isang bagong pagsusuri na idinisenyo upang matulungan kaming subaybayan kung gaano kahusay ang pagganap ng aming mga modelo at iba pa sa mga gawain na may halaga sa ekonomiya sa totoong mundo. Tinatawag namin itong pagsusuri na GDPval dahil nagsimula kami sa konsepto ng Gross Domestic Product (GDP) bilang isang pangunahing tagapagpahiwatig ng ekonomiya at kumuha ng mga gawain mula sa mga pangunahing trabaho sa mga industriya na pinakamalaking nag-aambag sa GDP.
Madalas na nag-iisip ang mga tao tungkol sa mas malawak na epekto ng AI sa lipunan, pero ang pinakamalinaw na paraan para maintindihan ang potensyal nito ay sa pamamagitan ng pagtingin sa kung ano ang kaya nang gawin ng mga modelo. Ipinapakita ng kasaysayan na ang mga pangunahing teknolohiya—mula sa internet hanggang sa mga smartphone—ay umabot ng higit sa isang dekada mula imbensyon hanggang sa malawakang pagtanggap. Ang mga pagsusuri na tulad ng GDPval ay tumutulong na gawing makatotohanan ang mga pag-uusap tungkol sa pagpapahusay sa AI sa hinaharap, na batay sa ebidensya at hindi sa haka-haka, at makakatulong sa atin na subaybayan ang pag-unlad ng modelo sa paglipas ng panahon.
Ang mga nakaraang pagsusuri sa AI tulad ng mga mapanghamong akademikong pagsusulit at mga kompetitibong hamon sa pag-code ay naging mahalaga sa pagtulak sa mga hangganan ng kakayahan ng pangangatuwiran ng modelo, ngunit madalas ay hindi sapat ang mga ito para sa uri ng mga gawain na hinaharap ng maraming tao sa kanilang pang-araw-araw na trabaho.
Para mapunan ang puwang na ito, nagde-develop kami ng mga pagsusuri na sumusukat sa mga kakayahang mas makatotohanan at may kaugnayan sa ekonomiya. Ang pag-unlad na ito ay lumipat mula sa mga klasikong akademikong pamantayan tulad ng MMLU (mga tanong sa estilo ng pagsusulit sa iba't ibang paksa), patungo sa mas praktikal na mga pagsusuri tulad ng SWE-Bench (mga gawain sa pag-aayos ng bug sa software engineering), MLE-Bench (mga gawain sa machine learning engineering tulad ng pagsasanay at pagsusuri ng modelo), at Paper-Bench (siyentipikong pangangatuwiran at kritisismo sa mga sulatin sa pananaliksik), at kamakailan lamang sa mga pagsusuri batay sa merkado tulad ng SWE-Lancer (mga freelance na proyekto sa software engineering batay sa aktwal na pagbabayad).
Ang GDPval ay ang susunod na hakbang sa progresyong iyon. Sinusukat nito ang pagganap ng modelo sa mga gawain na direktang hinango mula sa aktwal na kaalaman sa trabaho ng mga bihasang propesyonal sa iba't ibang larangan ng trabaho at sektor, na nagbibigay ng mas malinaw na pananaw sa kung paano gumaganap ang mga modelo sa mga gawain na may mahalagang pakinabang sa ekonomiya. Ang pagsusuri sa mga modelo sa makatotohanang mga gawain sa trabaho ay tumutulong sa atin na maunawaan hindi lamang kung gaano kahusay ang kanilang pagganap sa laboratoryo, kundi pati na rin kung paano sila makakapagbigay ng suporta sa mga tao sa kanilang pang-araw-araw na gawain.
Ang GDPval, ang unang bersyon ng pagsusuring ito, ay sumasaklaw sa 44 na trabaho na pinili mula sa nangungunang 9 na industriya na nag-aambag sa GDP ng U.S. Kasama sa buong set ng GDPval ang 1,320 espesyal na gawain (220 sa gold open-sourced na set), bawat isa ay maingat na ginawa at sinuri ng mga bihasang propesyonal na karaniwang may higit sa 14 na taon ng karanasan sa mga larangang ito. Ang bawat gawain ay nakabatay sa mga tunay na produkto ng trabaho, tulad ng legal na tagubilin, blueprint ng engineering, pag-uusap sa suporta ng customer, o plan sa nursing care.
Ang GDPval ay natatangi sa kanyang makatotohanang pagganap at sa iba't ibang uri ng mga gawain na sinusuri. Hindi tulad ng ibang mga pagsusuri na nakatali sa pakinabang sa ekonomiya na nakatuon sa mga tiyak na larangan (hal., SWE-Lancer), ang GDPval ay sumasaklaw sa maraming gawain at trabaho. At hindi tulad ng mga pamantayan na kinabibilangan ng artipisyal na paglikha ng mga gawain sa istilo ng akademikong eksaminasyon o pagsusulit (hal., Humanity’s Last Exam o MMLU), ang GDPval ay nakatuon sa mga gawain batay sa mga deliverable na alinman sa aktwal na trabaho o produkto na umiiral ngayon o katulad ng ginawang produkto ng trabaho.
Hindi tulad ng mga tradisyunal na pamantayan, ang mga gawain ng GDPval ay hindi simpleng mga text prompt. Kasama ang mga ito sa mga file ng sanggunian at konteksto, at ang inaasahang mga ihahatid ay sumasaklaw sa mga dokumento, slide, diagram, spreadsheet, at multimedia. Ginagawang mas makatotohanang pagsubok ng GDPval ang realismong ito sa kung paano maaaring suportahan ng mga modelo ang mga propesyonal.
Ang GDPval ay isang maagang hakbang na hindi sumasalamin sa buong detalye ng maraming gawain sa ekonomiya. Habang sumasaklaw ito sa 44 na propesyon at daan-daang gawain sa kaalamang trabaho, limitado ito sa mga minsanang pagsusuri, kaya hindi nito nasasaklaw ang mga kaso kung saan kailangang humusay o bumuo ng konteksto ang modelo sa pamamagitan ng maraming draft. Ang mga susunod na bersyon ay magpapalawak sa mas interaktibong mga daloy ng trabaho at mga gawain na mayaman sa konteksto upang mas mahusay na maipakita ang kumplikadong kaalaman sa totoong mundo (tingnan pa sa aming seksyon ng Limitasyon sa ibaba).
Sinasaklaw ng GDPval ang mga gawain sa 9 na industriya at 44 na hanapbuhay, at patuloy na palalawakin ang saklaw sa mga susunod na bersyon. Ang unang 9 na industriya ay pinili batay sa mga nag-aambag ng higit sa 5% sa GDP ng U.S., ayon sa datos mula sa Federal Reserve Bank of St. Louis. Pagkatapos, pinili namin ang 5 propesyon sa loob ng bawat industriya na may pinakamalaking kontribusyon sa kabuuang sahod at kompensasyon at karamihan ay mga trabahong pangkaalaman, gamit ang data ng sahod at empleyo mula sa Ulat ng Pagtatrabaho ng (BLS) ng US para sa Mayo 2024(magbubukas sa bagong window). Para matukoy kung ang mga trabaho ay nakatuon sa trabahong pangkaalaman, ginamit namin ang data ng gawain mula sa O*NET(magbubukas sa bagong window), isang database ng impormasyon sa trabaho sa U.S. na sinusuportahan ng U.S. Department of Labor. Kinlasipika namin kung ang bawat gawain para sa bawat trabaho sa O*NET ay trabahong pangkaalaman o pisikal na gawain/manwal na paggawa (na nangangailangan ng mga aksyon upang maisagawa sa pisikal na mundo). Ang isang trabaho ay itinuturing na "nakatuon sa trabahong pangkaalaman" kung hindi bababa sa 60% ng mga gawain nito ay ikinategorya bilang hindi kinasasangkutan ng pisikal na trabaho o manwal na paggawa. Pinili namin ang 60% na threshold na ito bilang panimulang punto para sa unang bersyon ng GDPval, na nakatuon sa mga trabaho kung saan maaaring magkaroon ng pinakamalaking epekto ang AI sa produktibidad sa totoong mundo.
Nagbunga ang prosesong ito upang maisama ang 44 na trabaho.
Real estate at pagpaparenta at pagpapaupa ng ari-arian
Mga Tagapag-alaga
Mga tagapamahala ng ari-arian, real estate, at mga asosasyon ng komunidad
Mga ahente ng pagbebenta ng real estate
Mga broker ng real estate
Mga klerk sa counter at renta
Gobyerno
Mga manggagawa sa paglilibang
Mga tagapamahala ng pagsunod
Unang antas na superbisor ng mga pulis at detektib
Administratibong tagapamahala ng serbisyo
Mga manggagawang panlipunan para sa bata, pamilya, at paaralan
Pagmamanupaktura
Mga inhinyerong mekanikal
Mga inhinyerong pang-industriya
Mga mamimili at mga ahente ng pagbili
Mga klerk ng pagpapadala, pagtanggap, at imbentaryo
Unang antas na superbisor ng mga manggagawa sa produksyon at operasyon
Mga propesyonal, siyentipiko, at teknikal na serbisyo
Mga developer ng software
Mga Abogado
Mga accountant at auditor
Mga tagapamahala ng mga sistema ng computer at impormasyon
Mga espesyalista sa pamamahala ng proyekto
Pangangalaga pangkalusugan at tulong panlipunan
Rehistradong mga nars
Mga nars na tagapagsanay
Mga Tagapamahala ng serbisyong medikal at pangkalusugan
Unang antas na superbisor ng mga manggagawa sa opisina at administratibong suporta
Mga medikal na sekretarya at administratibong katulong
Pananalapi at seguro
Mga kinatawan ng serbisyo sa customer
Mga tagasuri ng pananalapi at pamumuhunan
Mga tagapamahala sa pananalapi
Mga personal na tagapayo sa pananalapi
Mga ahente ng pagbebenta ng mga seguridad, kalakal, at serbisyong pinansyal
Kalakalang retail
Mga Parmasyutiko
Unang antas na superbisor ng mga manggagawang nagtatrabaho sa retail sales
Mga Pangkalahatang tagapamahala at tagapamahala ng operasyon
Pribadong mga detektib at imbestigador
Kalakalang pakyawan
Mga tagapamahala ng pagbebenta
Mga tagapamahala ng order
Unang antas na superbisor ng mga manggagawa sa pagbebenta na hindi pang-retail
Mga kinatawan ng benta, pakyawan at pagmamanupaktura, maliban sa mga teknikal at siyentipikong produkto
Mga kinatawan ng benta, pakyawan at pagmamanupaktura, teknikal at siyentipikong produkto
Impormasyon
Mga teknisyan ng audio at video
Mga prodyuser at direktor
Mga tagasuri ng balita, mga tagaulat, at mga mamamahayag
Mga editor ng pelikula at bidyo
Mga Editor
Para sa bawat propesyon, nakipagtulungan kami sa mga bihasang propesyonal upang gumawa ng mga kinatawang gawain na sumasalamin sa kanilang pang-araw-araw na trabaho. Ang mga propesyonal na ito ay may karaniwang 14 na taon ng karanasan, na may matitibay na rekord ng pag-unlad. Sadyang nag-recruit kami ng malawak na hanay ng mga eksperto—gaya ng mga abogado mula sa iba't ibang larangan ng praktis at mga tanggapan na may iba't ibang laki—upang masulit ang representasyon.
Ang bawat gawain ay dumaan sa proseso na maraming hakbang ng pagsusuri upang matiyak na ito ay kumakatawan sa tunay na trabaho, na posible para sa ibang propesyonal na kumpletuhin, at malinaw para sa ebalwasyon. Sa karaniwan, ang bawat gawain ay nakatanggap ng 5 yugto ng pagsusuri ng eksperto, kabilang ang mga pagsusuri mula sa ibang mga manunulat ng gawain, karagdagang mga tagasuri sa trabaho, at pagpapatunay na batay sa modelo.
Ang nagresultang dataset ay naglalaman ng 30 ganap na nasuring gawain kada propesyon (buong set) na may 5 gawain kada propesyon sa aming open-sourced na gold set, na nagbibigay ng matibay na pundasyon para sa pagsusuri ng pagganap ng modelo sa mga gawaing may kaalaman sa totoong mundo.
Mga halimbawa ng mga gawain ng GDPval
Prompt + konteksto ng gawain
May karanasang gawa ng tao

Para suriin ang pagganap ng modelo sa mga gawain ng GDPval, umaasa kami sa mga eksperto na "tagamarka"—isang grupo ng mga bihasang propesyonal mula sa parehong mga propesyon na kinakatawan sa dataset. Walang pagkiling na inihahambing ng mga tagamarkang ito ang mga deliverable na binuo ng modelo sa mga binuo ng mga manunulat ng gawain (hindi alam kung alin ang gawa ng AI at alin ang gawa ng tao), at nagbibigay ng mga puna at ranggo. Pagkatapos, niraranggo ng mga tagasuri ang mga gawa ng tao at AI at ikinaklasipika ang bawat gawa ng AI bilang “mas mahusay”, “kasinghusay ng”, o “mas malala sa” sa isa't isa.
Gumawa rin ang mga manunulat ng gawain ng detalyadong mga rubric sa pagmamarka para sa kanilang mga trabaho, na nagdaragdag ng pagkakapare-pareho at kalinawan sa proseso ng pagmamarka. Bumuo rin kami ng “awtomatikong tagamarka”, isang sistema ng AI na sinanay upang tantiyahin kung paano huhusgahan ng mga eksperto ang ibinigay na deliverable. Sa madaling salita, sa halip na magsagawa ng kumpletong pagsusuri ng eksperto sa bawat pagkakataon, mabilis na mahuhulaan ng awtomatikong tagasuri kung aling output ang mas pipiliin ng mga tao. Ilalabas namin ang tool na ito sa evals.openai.com bilang eksperimental na serbisyo sa pananaliksik, ngunit hindi pa ito kasing maaasahan gaya ng mga ekspertong tagamarka, kaya hindi namin ito ginagamit para palitan sila.
Natuklasan namin na halos naaabot na ng mga pinakamahusay na frontier na modelo ang kalidad ng trabaho na ginagawa ng mga eksperto sa industriya. Para masubukan ito, nagsagawa kami ng mga blind evaluation kung saan ikinumpara ng mga eksperto sa industriya ang mga deliverable mula sa ilang nangungunang modelo—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, at Grok 4—sa mga gawa ng tao. Sa kabuuang 220 gawain sa GDPval gold set, naitala namin kung kailan na-rate nang mas mahusay ang mga output ng modela kaysa sa (“panalo”) o kapantay ng (“tabla”) mga deliverable mula sa mga eksperto sa industriya, gaya ng ipinapakita sa bar chart sa ibaba. Ang Claude Opus 4.1 ang pinakamahusay na gumaganap na modelo sa set, na partikular na mahusay sa anyo (hal., pag-format ng dokumento, layout ng slide), at ang GPT‑5 ay partikular na mahusay sa katumpakan (hal., paghahanap ng kaalamang partikular sa larangan). Nakikita rin namin ang malinaw na pag-unlad sa paglipas ng panahon sa mga gawain ito. Ang pagganap ay higit sa doble mula sa GPT‑4o (inilabas noong tagsibol 2024) hanggang sa GPT‑5 (inilabas noong tag-init 2025), na sumusunod sa malinaw na tuwid na direksyon.
Bukod pa rito, natuklasan namin na kayang kumpletuhin ng mga frontier na modelo ang mga gawain ng GDPval nang humigit-kumulang 100x na mas mabilis at 100x na mas mura kaysa sa mga eksperto sa industriya. Subalit, ang mga numerong ito ay sumasalamin lamang sa oras ng inference ng modelo at mga rate ng pagsingil ng API, samakatuwid, hindi kasama ang pangangasiwa ng tao, pag-uulit, at mga hakbang ng integrasyon na kinakailangan sa mga aktwal na setting ng trabaho upang magamit ang aming mga modelo. Gayunpaman, lalo na sa subset ng mga gawain kung saan partikular na mahusay ang mga modelo, inaasahan namin na ang pag-aatas ng gawain sa isang modelo bago ito subukan sa tao ay makaktipid ng oras at pera.
Ikinumpara ng mga ekspertong tagasuri ang mga deliverable mula sa mga nangungunang modelo sa mga eksperto sa tao. Halos naaabot na ng mga frontier na modelo ngayon ang kalidad ng trabaho na ginagawa ng mga eksperto sa industriya. Ang Claude Opus 4.1 ay nagprodyus ng mga output na kasing husay o mas mahusay pa kaysa sa mga tao sa halos kalahati ng mga gawain.
Mula sa GPT‑4o hanggang GPT‑5, ang pagganap sa mga gawain ng GDPval ay higit na nag-triple sa loob ng isang taon.
Sa wakas, unti-unti naming sinanay ang panloob, eksperimental na bersyon ng GPT‑5 upang suriin kung kaya naming mapahusay ang pagganap sa GDPval. Nalaman namin na ang prosesong ito ay nagpaunlad ng pagganap, na naging daan para sa karagdagang potensyal na pagpapahusay. Sinusuportahan din ito ng ibang kontroladong eksperimento: ang bawat isa sa pagpapalaki ng modelo, paghikayat ng mas maraming hakbang sa pangangatuwiran, at pagbibigay ng mas mayamang konteksto ng gawain ay nagdulot ng nasusukat na pag-unlad.
Pwede mong basahin ang buong resulta sa aming kasulatan. Naglalabas din kami ng gold subset ng mga gawain ng GDPval at pampublikong serbisyo ng pagmamarka upang makapagpatuloy ang ibang mga mananaliksik sa gawaing ito.
Habang nagiging mas mahusay ang AI, malamang na magdudulot ito ng mga pagbabago sa merkado ng trabaho. Ipinapakita ng mga maagang resulta ng GDPval na ang mga modelo ay maaari nang magsagawa ng ilang mga paulit-ulit at malinaw na tinukoy na gawain nang mas mabilis at sa mas mababang halaga kaysa sa mga eksperto. Gayunpaman, ang karamihan sa mga trabaho ay higit pa sa isang koleksyon ng mga gawain na maaaring ilista. Binibigyang-diin ng GDPval kung saan kayang pangasiwaan ng AI ang mga karaniwang gawain upang mas maraming oras ang magugol ng mga tao sa malikhang aspekto ng trabaho na nangangailangan ng matinding pagpapasya. Kapag ang AI ay umaakma sa mga manggagawa sa ganitong paraan, maaari itong magdulot ng makabuluhang paglago ng ekonomiya. Ang layunin namin ay panatilihin ang lahat sa "up elevator" ng AI sa pamamagitan ng pagbibigay-laya sa pag-access ng mga tool na ito, pagsuporta sa mga manggagawa sa panahon ng pagbabago, at pagbuo ng mga sistema na nagbibigay gantimpala sa malawak na kontribusyon.
Ang GDPval ay maagang hakbang. Habang saklaw nito ang 44 na trabaho at daan-daang gawain, pinagpapatuloy naming pinipino ang aming pamamaraan upang palawakin ang saklaw ng aming pagsusuri at gawing mas makabuluhan ang mga resulta. Ang kasalukuyang bersyon ng pagsusuri ay minsanan rin, kaya hindi nito nasasaklaw ang mga kaso kung saan ang modelo ay kailangang humusay o bumuo ng konteksto sa pamamagitan ng maraming draft—halimbawa, pagrerebisa ng legal na tagubilin pagkatapos ng feedback ng kliyente o pag-uulit sa pagsusuri ng data pagkatapos makakita ng anomalya. Bukod dito, sa totoong mundo, hindi palaging malinaw ang pagtukoy sa gawain na tulong ng mga prompt at sangguniang file; halimbawa, maaaring kailanganin ng isang abogado na linawin ang mga kalabuan at makipag-usap sa kaniyang kliyente bago magpasya na ang paggawa ng legal na tagubilin ay ang tamang paraan upang matulungan sila. Plano naming palawakin ang GDPval upang isama ang mas maraming propesyon, industriya, at uri ng gawain, na may mas mataas na interaktibidad, at mas maraming gawain na may kinalaman sa paglilinaw ng mga kalabuan, na may pangmatagalang layunin na mas mahusay na masukat ang pag-unlad sa iba't ibang kaalaman sa trabaho.
- Kung isa kang dalubhasa sa industriya na interesadong mag-ambag sa GDPval, ipakita mo ang iyong interes dito.
- Kung isa kang customer na nakikipagtulungan sa OpenAI at gusto mong mag-ambag sa susunod na round ng GDPval, pakipahayag ang interes dito.
Mahalaga ang pakikilahok ng komunidad—nasasabik kaming bumuo ng GDPval kasama ang mga mananaliksik, praktisyoner, at organisasyon na may parehong layunin na gawing mas kapaki-pakinabang ang AGI para sa mga tao sa trabaho.


