Ngukur kinerja model-model kita ing tugas donya nyata
Kita ngenalaké GDPval, evaluasi anyar sing ngukur kinerja model ing tugas donya nyata sing nduwèni nilai ekonomi ing 44 pakaryan.
Misi kita yaiku mesthèkaké yèn kecerdhasan umum tiruan migunani kanggo kabèh umat manungsa. Minangka bagéan saka misi iki, kita pengin kanthi transparan ngandharaké kemajuan babagan carané model AI bisa mbantu wong ing donya nyata. Mulané kita ngenalaké GDPval: evaluasi anyar sing dirancang kanggo mbantu kita nglacak sepira apik model-model kita lan model liyané nindakake tugas donya nyata sing nduwèni nilai ekonomi. Kita nyebut evaluasi iki GDPval amarga kita miwiti saka konsep Gross Domestic Product (GDP) minangka indikator ekonomi utama lan njupuk tugas saka pakaryan utama ing industri sing paling nyumbang marang GDP.
Wong asring ngira-ngira dampak AI sing luwih amba marang masyarakat, nanging cara paling cetha kanggo mangertèni potensiné yaiku kanthi ndeleng apa sing wis bisa ditindakake model saiki. Sajarah nuduhaké yèn teknologi utama—wiwit internet nganti smartphone—mbutuhaké luwih saka sepuluh taun saka panemuan nganti adopsi sing nyebar. Evaluasi kaya GDPval mbantu ndhasaraké obrolan babagan perbaikan AI mangsa ngarep nganggo bukti tinimbang tebakan, lan bisa mbantu kita nglacak perbaikan model saka wektu ke wektu.
Evaluasi AI sadurungé kaya tes akademik sing nantang lan tantangan coding kompetitif pancèn wigati kanggo nyurung wates kemampuan nalar model, nanging asring durung cocog karo jinis tugas sing ditangani akèh wong ing pakaryan saben dinané.
Kanggo nutup kesenjangan iki, kita wis ngembangaké evaluasi sing ngukur kapabilitas sing saya realistis lan relevan sacara ekonomi. Perkembangan iki pindhah saka benchmark akademik klasik kaya MMLU (pitakon gaya ujian ing puluhan subjek), menyang evaluasi sing luwih terapan kaya SWE-Bench (tugas ndandani bug rekayasa piranti lunak), MLE-Bench (tugas rekayasa machine learning kayata pelatihan model lan analisis), lan Paper-Bench (nalar ilmiah lan kritik marang makalah riset), lan luwih anyar maneh menyang evaluasi adhedhasar pasar kaya SWE-Lancer (proyek rekayasa piranti lunak freelance adhedhasar bayaran nyata).
GDPval minangka langkah sabanjuré ing perkembangan kasebut. Iki ngukur kinerja model ing tugas sing dijupuk langsung saka kerja pengetahuan donya nyata saka para profesional berpengalaman ing macem-macem pakaryan lan sektor, nyedhiyakké gambaran sing luwih cetha babagan carané model nindakake tugas sing nduwèni nilai ekonomi. Ngevaluasi model ing tugas pakaryan sing realistis mbantu kita mangertèni ora mung sepira apik kinerjané ing laboratorium, nanging uga carané model bisa ndhukung wong ing pakaryan sing ditindakake saben dina.
GDPval, versi pisanan saka evaluasi iki, nyakup 44 pakaryan sing dipilih saka 9 industri paling dhuwur sing nyumbang marang GDP AS. Set lengkap GDPval nyakup 1.320 tugas spesialis (220 ing set emas open-source), saben tugas disusun lan diverifikasi kanthi teliti déning profesional berpengalaman kanthi rata-rata luwih saka 14 taun pengalaman ing bidang kasebut. Saben tugas adhedhasar produk kerja nyata, kayata ringkesan hukum, blueprint teknik, obrolan dhukungan pelanggan, utawa rencana perawatan keperawatan.
GDPval khas amarga realisme lan keragaman tugas sing dievaluasi. Ora kaya evaluasi liya sing gegandhèngan karo nilai ekonomi sing fokus ing domain tartamtu (umpamané SWE-Lancer), GDPval nyakup akèh tugas lan pakaryan. Lan ora kaya benchmark sing nggawe tugas sintetis kanthi gaya ujian utawa tes akademik (umpamané Humanity’s Last Exam utawa MMLU), GDPval fokus marang tugas adhedhasar hasil kerja sing bisa dadi karya nyata utawa produk sing ana saiki utawa karya sing dibangun kanthi cara sing padha.
Ora kaya benchmark tradisional, tugas GDPval dudu prompt teks sing prasaja. Tugas iki dilengkapi file referensi lan konteks, lan hasil kerja sing diarepaké nyakup dokumen, slide, diagram, spreadsheet, lan multimedia. Realisme iki ndadèkaké GDPval dadi tes sing luwih nyata babagan carané model bisa ndhukung para profesional.
GDPval minangka langkah awal sing durung nggambaraké sakabèhé nuansa saka akèh tugas ekonomi. Sanajan nyakup 44 pakaryan lan atusan tugas kerja pengetahuan, iki winates ing evaluasi conto pisanan, mula durung nyekel kasus nalika model perlu mbangun konteks utawa ningkataké asil liwat pirang-pirang draf. Versi mangsa ngarep bakal ngembang nganti alur kerja sing luwih interaktif lan tugas sing sugih konteks supaya luwih nggambaraké kerumitan kerja pengetahuan ing donya nyata (delengen luwih lanjut ing bagean Limitations ing ngisor iki).
GDPval nyakup tugas ing 9 industri lan 44 pakaryan, lan versi mangsa ngarep bakal terus ngembangaké cakupan. Sembilan industri awal dipilih adhedhasar industri sing nyumbang luwih saka 5% marang GDP AS, kaya sing ditemtokaké saka data Federal Reserve Bank of St. Louis. Sabanjuré, kita milih 5 pakaryan ing saben industri sing paling gedhé sumbangané marang total upah lan kompensasi lan sing mayoritas minangka pakaryan kerja pengetahuan, nggunakaké data upah lan ketenagakerjaan saka laporan ketenagakerjaan pakaryan May 2024 US Bureau of Labor Statistics (BLS)(mbukak ing jendhela anyar). Kanggo nemtokaké apa pakaryan kasebut mayoritas kerja pengetahuan, kita nggunakaké data tugas saka O*NET(mbukak ing jendhela anyar), database informasi pakaryan AS sing disponsori déning U.S. Department of Labor. Kita nggolongaké apa saben tugas kanggo saben pakaryan ing O*NET iku kerja pengetahuan utawa kerja fisik/tenaga manual (sing mbutuhaké tumindak ing donya fisik). Sakabèhé, sawijining pakaryan lolos minangka “didominasi kerja pengetahuan” yen paling ora 60% saka tugas komponèné diklasifikasikaké ora nglibataké kerja fisik utawa tenaga manual. Kita milih ambang 60% iki minangka titik wiwitan kanggo versi pisanan GDPval, kanthi fokus ing pakaryan sing AI bisa nduwèni dampak paling dhuwur marang produktivitas ing donya nyata.
Proses iki ngasilaké 44 pakaryan kanggo kalebu.
Real estate lan persewaan lan leasing
Petugas concierge
Manajer properti, real estate, lan asosiasi komunitas
Agen penjualan real estate
Broker real estate
Panitera loket lan persewaan
Pamaréntahan
Pekerja rekreasi
Petugas kepatuhan
Supervisor lini pertama polisi lan detektif
Manajer layanan administratif
Pekerja sosial anak, kulawarga, lan sekolah
Manufaktur
Insinyur mekanik
Insinyur industri
Pembeli lan agen pembelian
Panitera pengiriman, penerimaan, lan inventaris
Supervisor lini pertama kanggo pekerja produksi lan operasi
Layanan profesional, ilmiah, lan teknis
Pangembang piranti lunak
Pengacara
Akuntan lan auditor
Manajer sistem komputer lan informasi
Spesialis manajemen proyek
Layanan kesehatan lan bantuan sosial
Perawat terdaftar
Praktisi perawat
Manajer layanan medis lan kesehatan
Supervisor lini pertama kanggo pekerja dukungan kantor lan administratif
Sekretaris medis lan asisten administratif
Keuangan lan asuransi
Perwakilan layanan pelanggan
Analis keuangan lan investasi
Manajer keuangan
Penasihat keuangan pribadi
Agen penjualan sekuritas, komoditas, lan layanan keuangan
Perdagangan eceran
Apoteker
Supervisor lini pertama kanggo pekerja penjualan eceran
Manajer umum lan operasional
Detektif lan penyelidik swasta
Perdagangan grosir
Manajer penjualan
Panitera pesenan
Supervisor lini pertama kanggo pekerja penjualan non-eceran
Perwakilan penjualan, grosir lan manufaktur, kajaba produk teknis lan ilmiah
Perwakilan penjualan, grosir lan manufaktur, produk teknis lan ilmiah
Informasi
Teknisi audio lan video
Produser lan sutradara
Analis berita, reporter, lan jurnalis
Editor film lan video
Editor
Kanggo saben pakaryan, kita kerja bareng profesional berpengalaman kanggo nggawe tugas perwakilan sing nggambaraké pakaryan saben dinané. Para profesional iki rata-rata nduwèni pengalaman 14 taun, kanthi rekam jejak kemajuan sing kuwat. Kita kanthi sengaja ngrekrut ahli saka macem-macem latar—kayata pengacara saka area praktik sing béda lan firma kanthi ukuran sing béda—supaya representatif maksimal.
Saben tugas ngliwati proses review multi-langkah kanggo mesthèkaké yèn tugas kasebut makili kerja nyata, bisa dirampungaké déning profesional liya, lan cetha kanggo evaluasi. Rata-rata, saben tugas nampa 5 puteran review ahli, kalebu pengecekan saka penulis tugas liya, reviewer pakaryan tambahan, lan validasi adhedhasar model.
Dataset asil iki nyakup 30 tugas sing wis ditinjau kanthi lengkap saben pakaryan (set lengkap) kanthi 5 tugas saben pakaryan ing set emas open-source kita, nyedhiyakké pondasi sing kuwat kanggo ngevaluasi kinerja model ing kerja pengetahuan donya nyata.
Conto tugas GDPval
Pituduh + konteks tugas
Deliverable manungsa sing wis pengalaman

Kanggo ngevaluasi kinerja model ing tugas GDPval, kita ngandelaké “penilai” ahli—klompok profesional berpengalaman saka pakaryan sing padha karo sing diwakili ing dataset. Penilai iki kanthi buta mbandhingaké hasil kerja sing diasilaké model karo sing diasilaké penulis tugas (tanpa ngerti endi sing digawe AI lan endi sing digawe manungsa), banjur menehi kritik lan peringkat. Penilai banjur menehi peringkat hasil kerja manungsa lan AI lan nggolongaké saben hasil kerja AI minangka “luwih apik”, “padha apiké”, utawa “luwih ala tinimbang” siji lan sijiné.
Penulis tugas uga nggawe rubrik penilaian rinci kanggo pakaryané, sing nambah konsistensi lan transparansi proses penilaian. Kita uga mbangun “penilai otomatis”, sistem AI sing dilatih kanggo ngira carané ahli manungsa bakal ngadili sawijining hasil kerja. Tegesé, tinimbang nindakake review ahli lengkap saben wektu, penilai otomatis bisa kanthi cepet prédhiksi output endi sing kamungkinan luwih disenengi wong. Kita ngluncuraké alat iki liwat evals.openai.com minangka layanan riset eksperimen, nanging alat iki durung bisa dipercaya kaya penilai ahli, mula kita ora nggunakaké kanggo nggantèkaké wong-wong mau.
Kita nemokaké yèn model tercanggih paling apik saiki wis nyedhaki kualitas karya sing diasilaké déning ahli industri. Kanggo nguji iki, kita nindakake evaluasi buta nalika ahli industri mbandhingaké hasil kerja saka sawetara model unggulan—GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, lan Grok 4—karo karya sing diasilaké manungsa. Ing 220 tugas ing set emas GDPval, kita nyathet kapan output model dinilai luwih apik tinimbang (“menang”) utawa padha tingkaté (“seri”) karo hasil kerja saka ahli industri, kaya sing dituduhaké ing diagram batang ing ngisor iki. Claude Opus 4.1 dadi model kanthi kinerja paling apik ing set iki, utamané unggul ing estetika (umpamané format dokumen, tata letak slide), lan GPT‑5 utamané unggul ing akurasi (umpamané nemokaké kawruh spesifik domain). Kita uga ndeleng kemajuan sing cetha saka wektu ke wektu ing tugas-tugas iki. Kinerja wis mundhak luwih saka pindho saka GPT‑4o (dirilis musim semi 2024) nganti GPT‑5 (dirilis musim panas 2025), ngetutaké tren linear sing cetha.
Saliyane kuwi, kita nemokaké yèn model tercanggih bisa ngrampungaké tugas GDPval kira-kira 100x luwih cepet lan 100x luwih murah tinimbang ahli industri. Nanging, angka iki nggambaraké wektu inferensi model murni lan tarif tagihan API, mula ora nyakup pengawasan manungsa, iterasi, lan langkah integrasi sing dibutuhaké ing lingkungan kerja nyata kanggo nggunakaké model-model kita. Nanging, mligi ing subset tugas nalika model kuwat banget, kita ngarep yèn menehi tugas marang model sadurungé dicoba marang manungsa bakal ngirit wektu lan biaya.
Penilai ahli mbandhingaké hasil kerja saka model-model unggulan karo ahli manungsa. Model tercanggih saiki wis nyedhaki kualitas karya sing diasilaké ahli industri. Claude Opus 4.1 ngasilaké output sing dinilai padha apiké utawa luwih apik tinimbang manungsa ing meh setengah saka tugas.
Saka GPT‑4o nganti GPT‑5, kinerja ing tugas GDPval mundhak luwih saka telu kaping sajrone setaun.
Pungkasan, kita nglatih kanthi bertahap versi internal GPT‑5 sing eksperimen kanggo mriksa apa kita bisa ningkataké kinerja ing GDPval. Kita nemokaké yèn proses iki ningkataké kinerja, nggawe jalur kanggo perbaikan luwih lanjut. Eksperimen terkontrol liya uga ndhukung iki: nambah ukuran model, nyengkuyung luwih akèh langkah nalar, lan menehi konteks tugas sing luwih sugih saben-saben mimpin marang peningkatan sing bisa diukur.
Sampeyan bisa maca asil lengkap ing makalah kita. Kita uga ngluncuraké subset emas saka tugas GDPval lan layanan penilaian umum supaya peneliti liya bisa mbangun saka karya iki.
Nalika AI dadi saya luwih mumpuni, AI kamungkinan bakal nyebabaké owah-owahan ing pasar kerja. Asil awal GDPval nuduhaké yèn model wis bisa njupuk sawetara tugas sing repetitif lan spesifik kanthi luwih cepet lan biaya luwih murah tinimbang ahli. Nanging, akèh pakaryan luwih saka mung kumpulan tugas sing bisa ditulis. GDPval nyorot ing endi AI bisa nangani tugas rutin supaya wong bisa luwih akèh nggunakaké wektu kanggo bagéan kerja sing kreatif lan mbutuhaké pertimbangan. Nalika AI nglengkapi pekerja kanthi cara iki, iki bisa nerjemahaké dadi pertumbuhan ekonomi sing signifikan. Tujuan kita yaiku njaga kabèh wong tetep ana ing “lift munggah” AI kanthi ndemokratisasi akses marang alat-alat iki, ndhukung pekerja liwat owah-owahan, lan mbangun sistem sing menehi ganjaran kontribusi sing amba.
GDPval minangka langkah awal. Sanajan nyakup 44 pakaryan lan atusan tugas, kita terus nyaring pendekatan kita kanggo ngembangaké cakupan pengujian lan ndadèkaké asil luwih migunani. Versi evaluasi saiki uga minangka conto pisanan, mula durung nyekel kasus nalika model perlu mbangun konteks utawa ningkataké asil liwat pirang-pirang draf—umpamané, mbenahi ringkesan hukum sawisé masukan klien utawa ngiterasi analisis data sawisé nemokaké anomali. Kajaba iku, ing donya nyata, tugas ora mesthi ditemtokaké kanthi cetha nganggo prompt lan file referensi; umpamané, pengacara bisa waé kudu ngadhepi ambiguitas lan ngomong karo kliené luwih dhisik sadurungé mutusaké yèn nggawe ringkesan hukum iku pendekatan sing pas kanggo mbantu dheweke. Kita ngrencanakaké ngembangaké GDPval supaya kalebu luwih akèh pakaryan, industri, lan jinis tugas, kanthi interaktivitas luwih dhuwur, lan luwih akèh tugas sing mbutuhaké navigasi ambiguitas, kanthi tujuan jangka panjang kanggo luwih apik ngukur kemajuan ing macem-macem kerja pengetahuan.
- Yèn sampeyan ahli industri sing kepengin nyumbang kanggo GDPval, mangga tuduhaké minat sampeyan ing kéné.
- Yèn sampeyan pelanggan sing kerja bareng OpenAI lan pengin nyumbang ing puteran GDPval mangsa ngarep, mangga tuduhaké minat ing kéné.
Partisipasi komunitas iku penting banget—kita bungah mbangun GDPval bebarengan karo peneliti, praktisi, lan organisasi sing nuduhaké tujuan kita kanggo ndadèkaké AGI luwih migunani kanggo wong ing pakaryan.


