Mengukur kinerja model kami pada tugas dunia nyata
Kami memperkenalkan GDPval, evaluasi baru yang mengukur kinerja model pada tugas-tugas dunia nyata yang bernilai ekonomi dalam 44 jenis pekerjaan.
Misi kami adalah memastikan bahwa kecerdasan umum buatan bermanfaat bagi manusia. Sebagai bagian dari misi kami, kami ingin secara transparan mengomunikasikan kemajuan tentang bagaimana model AI dapat membantu orang-orang di dunia nyata. Itulah sebabnya kami memperkenalkan GDPval: evaluasi baru yang dirancang untuk membantu kami melacak seberapa baik model kami dan model lainnya dalam menjalankan tugas-tugas dunia nyata yang bernilai ekonomi. Kami menamai evaluasi ini GDPval karena kami memulainya dari konsep Produk Domestik Bruto (Gross Domestic Product/GDP) sebagai indikator ekonomi utama dan mengambil tugas dari pekerjaan-pekerjaan kunci di industri yang paling berkontribusi terhadap GDP.
Orang sering berspekulasi tentang dampak luas AI terhadap masyarakat, tetapi cara terbaik untuk memahami potensinya adalah dengan melihat apa yang sebenarnya sudah mampu dilakukan oleh model-model AI saat ini. Sejarah menunjukkan bahwa teknologi besar—mulai dari internet hingga ponsel pintar—membutuhkan waktu lebih dari satu dekade untuk berkembang dari penemuan hingga adopsi massal. Evaluasi seperti GDPval membantu mengarahkan diskusi tentang kemajuan AI di masa depan dengan dasar bukti nyata, bukan perkiraan, dan membantu kami melacak peningkatan model dari waktu ke waktu.
Evaluasi AI sebelumnya, seperti ujian akademik yang menantang dan kompetisi koding, telah berperan penting dalam mendorong batas kemampuan penalaran model. Namun, sering kali jenis tugas tersebut tidak mencerminkan pekerjaan nyata yang dihadapi banyak orang dalam keseharian mereka.
Untuk menjembatani kesenjangan ini, kami telah mengembangkan evaluasi yang mengukur kemampuan yang semakin realistis dan relevan secara ekonomi. Progres ini telah berkembang dari tolok ukur akademik klasik seperti MMLU (pertanyaan bergaya ujian yang mencakup puluhan subjek), menjadi evaluasi yang lebih bersifat terapan seperti SWE-Bench (tugas perbaikan bug rekayasa perangkat lunak), MLE-Bench (tugas rekayasa pembelajaran mesin seperti pelatihan dan analisis model), dan Paper-Bench (penalaran ilmiah dan kritik terhadap makalah penelitian), serta baru-baru ini berkembang menuju evaluasi berbasis pasar seperti SWE-Lancer (proyek rekayasa perangkat lunak lepas berbasis pembayaran nyata).
GDPval adalah langkah berikutnya dalam perkembangan tersebut. Evaluasi ini mengukur kinerja model pada tugas-tugas yang diambil langsung dari pengetahuan dunia nyata yang dimiliki para profesional berpengalaman di berbagai bidang pekerjaan dan sektor, sehingga memberikan gambaran yang lebih jelas tentang kinerja model pada tugas-tugas yang bernilai ekonomi. Mengevaluasi model berdasarkan tugas-tugas pekerjaan nyata membantu kita memahami bukan hanya seberapa baik kinerjanya di laboratorium, tetapi juga bagaimana model dapat membantu orang-orang dalam pekerjaan yang mereka lakukan setiap hari.
GDPval, versi pertama dari evaluasi ini, mencakup 44 bidang pekerjaan yang dipilih dari 9 industri utama penyumbang PDB (Produk Domestik Bruto) AS. Set lengkap GDPval mencakup 1.320 tugas khusus (220 di antaranya tersedia dalam set terbuka publik berstandar emas), yang masing-masing dirancang dan ditinjau secara cermat oleh para profesional berpengalaman dengan rata-rata pengalaman lebih dari 14 tahun di bidangnya. Setiap tugas didasarkan pada hasil kerja nyata, seperti dokumen hukum, rancangan teknik, percakapan layanan pelanggan, atau rencana layanan keperawatan.
GDPval menonjol karena realisme maupun keragaman tugas yang dievaluasi. Berbeda dengan evaluasi lain yang terikat pada nilai ekonomi dan berfokus pada bidang tertentu (misalnya SWE-Lancer), GDPval mencakup berbagai macam tugas dan profesi. Berbeda dengan tolok ukur yang melibatkan pembuatan tugas secara sintetis dalam bentuk ujian atau tes akademik (misalnya Humanity’s Last Exam atau MMLU), GDPval berfokus pada hasil kerja yang merupakan pekerjaan nyata atau produk kerja yang benar-benar ada saat ini, atau yang menyerupai hasil kerja sebenarnya.
Tidak seperti tolok ukur tradisional, tugas-tugas dalam GDPval bukanlah sekadar perintah teks sederhana. Tugas-tugas ini disertai berkas referensi dan konteks, serta hasil kerja yang diharapkan mencakup dokumen, slide, diagram, spreadsheet, dan multimedia. Tingkat realisme ini menjadikan GDPval sebagai uji yang lebih realistis untuk menilai bagaimana model dapat membantu para profesional.
GDPval merupakan langkah awal yang belum sepenuhnya mencerminkan seluruh kerumitan dari banyak tugas ekonomi. Meskipun mencakup 44 bidang pekerjaan dan ratusan tugas berbasis pengetahuan, evaluasi ini terbatas pada penilaian satu kali saja, sehingga belum menangkap situasi di mana model perlu membangun konteks atau memperbaiki hasil melalui beberapa draf. Versi mendatang akan dikembangkan menjadi alur kerja yang lebih interaktif dan tugas-tugas dengan konteks yang lebih kaya untuk lebih merepresentasikan kompleksitas pekerjaan pengetahuan dunia nyata (lihat lebih lanjut di bagian Keterbatasan di bawah).
GDPval mencakup tugas-tugas di 9 industri dan 44 bidang pekerjaan, dan versi mendatang akan terus memperluas cakupannya. Sembilan industri awal dipilih berdasarkan kontribusinya yang mencapai lebih dari 5% terhadap PDB AS, menurut data dari Federal Reserve Bank of St. Louis. Kemudian, kami memilih 5 bidang pekerjaan dalam setiap industri yang memberikan kontribusi terbesar terhadap total upah dan kompensasi, serta sebagian besar merupakan pekerjaan berbasis pengetahuan, menggunakan data upah dan ketenagakerjaan dari laporan ketenagakerjaan BLS (Bureau of Labor Statistics) AS, Mei 2024.(terbuka di jendela baru) Untuk menentukan apakah suatu bidang pekerjaan tergolong pekerjaan berbasis pengetahuan, kami menggunakan data tugas dari O*NET(terbuka di jendela baru), yaitu basis data informasi pekerjaan di AS yang disponsori oleh Departemen Tenaga Kerja AS. Kami mengklasifikasikan apakah setiap tugas untuk setiap bidang pekerjaan di O*NET merupakan pekerjaan berbasis pengetahuan atau pekerjaan fisik/manual (yang memerlukan tindakan langsung di dunia fisik). Suatu bidang pekerjaan dikategorikan sebagai “pekerjaan yang didominasi oleh pengetahuan” jika setidaknya 60% dari komponen tugasnya diklasifikasikan sebagai tidak melibatkan pekerjaan fisik atau manual. Kami menetapkan ambang batas 60% ini sebagai titik awal untuk versi pertama GDPval, dengan fokus pada bidang pekerjaan di mana AI dapat memberikan dampak terbesar terhadap produktivitas dunia nyata.
Proses ini menghasilkan 44 bidang pekerjaan yang disertakan.
Properti dan sewa-menyewa
Concierge
Manajer properti, real estat, dan asosiasi komunitas
Agen penjualan real estat
Pialang real estat
Petugas konter dan penyewaan
Pemerintah
Pekerja rekreasi
Petugas kepatuhan
Pengawas lini pertama polisi dan detektif
Manajer layanan administratif
Pekerja sosial bidang keluarga, anak, dan sekolah
Manufaktur
Insinyur mesin
Insinyur industri
Pembeli dan agen pengadaan
Petugas pengiriman, penerimaan, dan inventaris
Pengawas lini pertama pekerja produksi dan operasional
Jasa profesional, ilmiah, dan teknis
Pengembang perangkat lunak
Pengacara
Akuntan dan auditor
Manajer sistem komputer dan informasi
Spesialis manajemen proyek
Kesehatan dan bantuan sosial
Perawat terdaftar
Perawat praktisi
Manajer layanan medis dan kesehatan
Pengawas lini pertama pekerja kantor dan dukungan administratif
Sekretaris medis dan asisten administratif
Keuangan dan asuransi
Perwakilan layanan pelanggan
Analis keuangan dan investasi
Manajer keuangan
Penasihat keuangan pribadi
Agen penjualan sekuritas, komoditas, dan jasa keuangan
Perdagangan ritel
Apoteker
Pengawas lini pertama pekerja penjualan ritel
Manajer umum dan operasional
Detektif dan penyelidik swasta
Perdagangan grosir
Manajer penjualan
Petugas pesanan
Pengawas lini pertama pekerja penjualan non-ritel
Perwakilan penjualan bidang grosir dan manufaktur (kecuali produk teknis dan ilmiah)
Perwakilan penjualan bidang grosir dan manufaktur (produk teknis dan ilmiah)
Informasi
Teknisi audio dan video
Produser dan sutradara
Analis berita, reporter, dan jurnalis
Editor film dan video
Editor
Untuk setiap bidang pekerjaan, kami bekerja sama dengan para profesional berpengalaman untuk membuat tugas-tugas representatif yang mencerminkan pekerjaan mereka sehari-hari. Para profesional ini memiliki rata-rata pengalaman 14 tahun, dengan rekam jejak kemajuan karier yang kuat. Kami secara sengaja merekrut berbagai pakar — misalnya pengacara dari berbagai bidang praktik dan firma dengan ukuran berbeda — untuk memaksimalkan keterwakilan.
Setiap tugas menjalani proses peninjauan bertingkat untuk memastikan tugas tersebut benar-benar mencerminkan pekerjaan dunia nyata, dapat diselesaikan oleh profesional lain, dan jelas untuk dievaluasi. Rata-rata, setiap tugas menerima lima tahap tinjauan ahli, termasuk pemeriksaan dari penulis tugas lain, peninjau bidang pekerjaan tambahan, dan validasi berbasis model.
Dataset akhir mencakup 30 tugas yang telah ditinjau penuh untuk setiap bidang pekerjaan (full-set), dengan 5 tugas untuk setiap bidang yang disertakan dalam set terbuka berstandar emas, menyediakan dasar yang kuat untuk mengevaluasi kinerja model pada pekerjaan berbasis pengetahuan di dunia nyata.
Contoh tugas GDPval
Prompt + konteks tugas
Hasil kerja manusia yang berpengalaman

Untuk mengevaluasi kinerja model pada tugas-tugas GDPval, kami mengandalkan para “penilai” ahli — sekelompok profesional berpengalaman dari bidang pekerjaan yang sama dengan yang diwakili dalam dataset. Para penilai ini membandingkan secara buta hasil kerja yang dihasilkan model dengan hasil kerja yang dibuat oleh penulis tugas (tanpa mengetahui mana yang dihasilkan AI dan mana yang manusia), lalu memberikan kritik dan peringkat. Para penilai kemudian memberi peringkat pada hasil kerja manusia dan AI, serta mengklasifikasikan setiap hasil AI sebagai “lebih baik,” “setara,” atau “lebih buruk” dari satu sama lain.
Penulis tugas juga membuat panduan penilaian terperinci untuk bidang mereka masing-masing, yang menambah konsistensi dan transparansi dalam proses penilaian. Kami juga membangun “penilai otomatis” — sebuah sistem AI yang dilatih untuk memperkirakan bagaimana para ahli manusia akan menilai suatu hasil kerja tertentu. Dengan kata lain, alih-alih menjalankan peninjauan penuh oleh para ahli setiap kali, penilai otomatis dapat dengan cepat memprediksi hasil mana yang kemungkinan besar lebih disukai oleh para ahli. Kami merilis alat ini melalui evals.openai.com sebagai layanan riset eksperimental, tetapi alat ini belum seandal penilai manusia, sehingga belum digunakan sebagai penggantinya.
Kami menemukan bahwa model-model terdepan saat ini sudah mendekati kualitas hasil kerja profesional di industri. Untuk mengujinya, kami melakukan evaluasi buta di mana para ahli industri membandingkan hasil kerja yang dihasilkan dari beberapa model terkemuka — GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro, dan Grok 4 — dengan hasil kerja manusia. Dari sekitar 220 tugas dalam set GDP berstandar emas, kami mencatat bahwa keluaran model dinilai lebih baik (“wins”) atau setara (“ties”) dengan hasil kerja para ahli industri, sebagaimana ditunjukkan dalam grafik batang di bawah ini. Claude Opus 4.1 adalah model dengan kinerja terbaik dalam set ini, unggul terutama dalam aspek estetika (seperti tata letak dokumen dan format slide), sedangkan GPT‑5 unggul dalam akurasi, (misalnya dalam menemukan pengetahuan khusus bidang tertentu). Kami juga melihat kemajuan yang jelas dari waktu ke waktu pada tugas-tugas ini. Kinerjanya telah meningkat lebih dari dua kali lipat dari GPT‑4o (dirilis musim semi 2024) ke GPT‑5 (dirilis musim panas 2025), mengikuti tren linear yang jelas.
Selain itu, kami menemukan bahwa model-model terdepan dapat menyelesaikan tugas GDPval sekitar 100 kali lebih cepat dan 100 kali lebih murah daripada para ahli industri. Namun, angka-angka ini hanya mencerminkan waktu inferensi model murni dan biaya penggunaan API, sehingga tidak mencakup pengawasan manusia, iterasi, dan langkah integrasi yang diperlukan dalam pengaturan kerja nyata saat menggunakan model kami. Meski demikian, terutama untuk kumpulan tugas di mana model sangat unggul, kami memperkirakan bahwa memberikan tugas kepada model sebelum mencobanya dengan manusia akan menghemat waktu dan biaya.
Penilai ahli membandingkan hasil kerja dari model-model terkemuka dengan hasil kerja para ahli manusia. Model AI terdepan saat ini sudah mendekati kualitas pekerjaan yang dihasilkan oleh para profesional industri. Claude Opus 4.1 menghasilkan keluaran yang dinilai setara atau lebih baik dari manusia pada hampir separuh dari tugas yang ada.
Dari GPT‑4o hingga GPT‑5, kinerja pada tugas-tugas GDPval meningkat lebih dari tiga kali lipat hanya dalam satu tahun.
Akhirnya, kami melatih secara bertahap versi eksperimental internal dari GPT‑5 untuk menilai apakah kami dapat meningkatkan performa pada GDPval. Kami menemukan bahwa proses ini meningkatkan kinerja, membuka jalan bagi peningkatan yang lebih lanjut di masa depan. Eksperimen terkontrol lainnya mendukung hal ini: peningkatan ukuran model, penambahan langkah penalaran, dan pemberian konteks tugas yang lebih kaya, semua ini menghasilkan peningkatan yang terukur.
Anda dapat membaca hasil lengkapnya di makalah kami. Kami juga merilis subset emas dari tugas-tugas GDPval dan layanan penilaian publik sehingga peneliti lain dapat membangun penelitian lanjutan dari pekerjaan ini.
Seiring AI menjadi lebih mumpuni, kemungkinan besar hal ini akan menyebabkan perubahan di pasar kerja. Hasil awal GDPval menunjukkan bahwa model sudah mampu menangani sejumlah tugas repetitif yang terdefinisi dengan baik secara lebih cepat dan lebih murah daripada para ahli. Namun, sebagian besar pekerjaan tidak hanya sekadar kumpulan tugas yang dapat ditulis dalam daftar. GDPval menyoroti di mana AI dapat menangani tugas-tugas rutin, sehingga manusia dapat lebih fokus pada bagian pekerjaan yang kreatif dan memerlukan penilaian. Ketika AI melengkapi peran manusia dengan cara seperti ini, AI dapat berkontribusi secara signifikan terhadap pertumbuhan ekonomi. Tujuan kami adalah membawa semua orang naik “elevator AI” dengan mendemokratisasi akses ke alat-alat ini, mendukung pekerja melalui perubahan, dan membangun sistem yang memberi penghargaan pada kontribusi luas.
GDPval merupakan langkah awal. Meskipun mencakup 44 bidang pekerjaan dan ratusan tugas, kami terus menyempurnakan pendekatan kami untuk memperluas cakupan pengujian dan menjadikan hasilnya lebih bermakna. Versi evaluasi saat ini juga masih bersifat satu kali, sehingga belum menangkap kasus di mana model perlu membangun konteks atau meningkatkan hasil melalui beberapa draf — misalnya, merevisi dokumen hukum setelah diberi umpan balik klien atau melakukan iterasi pada analisis data setelah menemukan anomali. Selain itu, dalam dunia nyata, tugas tidak selalu didefinisikan dengan jelas melalui perintah dan file referensi; misalnya, seorang pengacara mungkin perlu menangani ketidakjelasan dan berbicara dengan klien sebelum memutuskan bahwa membuat dokumen hukum adalah langkah yang tepat untuk membantu mereka. Kami berencana untuk memperluas GDPval agar mencakup lebih banyak bidang pekerjaan, industri, dan jenis tugas, dengan peningkatan interaktivitas serta lebih banyak tugas yang melibatkan penanganan ketidakjelasan, dengan tujuan jangka panjang untuk mengukur kemajuan secara lebih akurat di berbagai jenis pekerjaan berbasis pengetahuan.
- Jika Anda seorang ahli industri yang tertarik untuk berkontribusi pada GDPval, sampaikan minat Anda di sini.
- Jika Anda adalah pelanggan yang bekerja sama dengan OpenAI dan ingin berkontribusi terhadap putaran GDPval di masa mendatang, sampaikan minat Anda di sini.
Partisipasi komunitas sangat penting—kami bersemangat untuk membangun GDPval bersama para peneliti, praktisi, dan organisasi yang memiliki tujuan sama, yaitu membuat AGI lebih bermanfaat bagi orang-orang di dunia kerja.


