Modellerimizin performansını gerçek dünya görevleriyle ölçüyoruz
GDPval adıyla kullanıma sunduğumuz yeni değerlendirme aracımız, yapay zeka modellerinin 44 farklı mesleğe ait ekonomik değeri yüksek gerçek dünya görevlerindeki performansını ölçüyor.
Misyonumuz yapay genel zekanın tüm insanlığa faydalı olmasını sağlamaktır. Bu misyonun bir parçası olarak, AI modellerinin gerçek dünyada insanlara nasıl yardımcı olabileceğine dair elde edilen ilerlemeyi şeffaf bir şekilde paylaşmak istiyoruz. İşte bu yüzden GDPval’i kullanıma sunuyoruz. Bu yeni değerlendirme, bizim modellerimizin ve diğer modellerin, ekonomik değeri yüksek, gerçek zamanlı görevlerde nasıl bir performans sergilediğini takip etmemize yardımcı olmak için tasarlandı. Bu değerlendirmeye GDPval adını verdik çünkü temel bir ekonomik gösterge olan Gayrisafi Yurt İçi Hasıla (GSYH) kavramından yola çıktık. Görevleri de GSYH’ye en çok katkı sağlayan sektörlerdeki kilit mesleklerden seçtik.
Yapay zekanın topluma etkisi üzerine sıkça spekülasyonlar yapılıyor; ama yapay zekanın potansiyelini anlamanın en net yolu, modellerin hâlihazırda neleri yapabildiğine bakmaktan geçiyor. Geçmiş deneyimler; internetten akıllı telefonlara kadar pek çok büyük teknolojinin icat edilmeleri ile yaygın bir şekilde kullanılmaya başlamaları arasında on yılı aşkın bir zaman geçtiğini gösteriyor. GDPval gibi değerlendirmeler, yapay zekanın gelecekteki gelişimine dair yapılan yorumları tahminlere değil somut verilere dayandırmamıza yardımcı oluyor ve modellerin zaman içindeki ilerlemesini takip etmemizi sağlıyor.
Zorlu akademik testler ve rekabetçi kodlama görevleri gibi eski yapay zeka değerlendirmeleri, modellerin akıl yürütme yeteneklerini geliştirmede şimdiye kadar önemli bir rol oynadı. Ama insanların günlük iş hayatında üstlendiği görevler konusunda yetersiz kaldı.
Bu eksikliği kapatmak için, giderek daha gerçekçi ve ekonomik açıdan anlamlı yetkinlikleri ölçen değerlendirmeler geliştirmeye başladık. Bu ilerleme süreci, MMLU (çok sayıda konuda sınav tarzı sorular) gibi klasik akademik kıyaslamalardan başlayarak, SWE-Bench (yazılım mühendisliğinde hata giderme görevleri), MLE-Bench (model eğitimi ve analizi gibi makine öğrenimi mühendisliği görevleri), Paper-Bench (araştırma makaleleri üzerine bilimsel akıl yürütme ve eleştiri) ve son olarak SWE-Lancer (gerçek ödeme verilerine dayanan freelance yazılım mühendisliği projeleri) gibi daha uygulamalı değerlendirmelere evrildi.
GDPval, bu ilerleme sürecinin bir sonraki adımını temsil ediyor. Farklı meslek ve sektörlerde çalışan deneyimli profesyonellerin gerçek dünyadaki bilgi temelli iş kollarından doğrudan alınan görevleri kullanarak model performansını ölçüyor. Böylece modellerin ekonomik açıdan yüksek değerli işlerde nasıl sonuç verdiğine dair daha net bir tablo sunuyor. Modelleri gerçekçi mesleki görevler üzerinde değerlendirmek sadece laboratuvar ortamında nasıl bir performans göstereceğini anlamakla kalmayıp günlük hayatta insanlara nasıl destek olabileceklerini de anlamamızı sağlıyor.
Bu değerlendirmenin ilk versiyonu olan GDPval, ABD’nin Gayrisafi Yurt İçi Hasılası’na en çok katkı sağlayan 9 sektörden seçilmiş 44 mesleği kapsıyor. GDPval’in tam seti, her biri alanında ortalama 14 yıllık deneyime sahip uzmanlar tarafından titizlikle hazırlanmış ve doğrulanmış toplam 1.320 özel görev içeriyor (bunlardan 220 tanesi açık kaynaklı “altın” sette yer alıyor). Her görev; hukuki bir görüş metni, bir mühendislik çizimi, bir müşteri ile yapılan destek görüşmesi ya da hasta bakım planı gibi gerçek iş çıktılarına dayanır.
Görevlerin gerçekçiliği ve çeşitliliği, GDPval’i benzerlerinden ayırır. Ekonomik değere bağlı olarak yapılan diğer değerlendirmelerin belirli alanlara yoğunlaşmasının aksine (ör. SWE-Lancer), GDPval çok sayıda görev ve mesleği kapsıyor. Akademik sınav veya test tarzında yapay görevler oluşturan kıyaslamaların aksine (ör. Humanity’s Last Exam veya MMLU), GDPval bugün var olan gerçek iş veya ürün çıktılarından ya da benzer iş ürünü örneklerinden türetilen görevlere odaklanır.
Geleneksel kıyaslamaların aksine, GDPval görevleri basit metin istemlerinden ibaret değildir. Referans dosyalar ve bağlamla birlikte gelirler ve beklenen çıktılar belgelerden slaytlara, şemalara, elektronik tablolara ve multimedya dosyalarına kadar uzanır. Gerçekçi yapısı, GDPval’in modellerin profesyonellere nasıl destek olabileceğini daha gerçekçi biçimde test etmesini sağlar.
GDPval, pek çok ekonomik görevin tüm nüansını yansıtmayan, başlangıç aşamasında bir adımdır. 44 mesleği ve bilgi temelli yüzlerce iş koluna ait görevleri kapsasa da GDPval tek seferlik değerlendirmelerle sınırlıdır; bu yüzden bir modelin bağlam oluşturmasının veya birden çok taslak üzerinden iyileştirmeler yapmasının gerekeceği durumları kapsamaz. Gelecek sürümler, gerçek dünyanın bilgi temelli iş kollarının karmaşıklığını daha iyi yansıtmak için, daha etkileşimli iş akışlarını ve bağlam açısından zengin görevleri kapsayacak şekilde geliştirilecektir (Sınırlamalar bölümümüzde daha fazla bilgi bulabilirsiniz).
GDPval şu anda 9 sektörden 44 mesleği içeriyor. Gelecek sürümlerde bu kapsamı genişletmek için çalışıyoruz. Başlangıçtaki 9 sektör, ABD’nin Gayrisafi Yurt İçi Hasılası’na %5’ten daha fazla katkıda bulunanlardan seçilmiştir. Bu bilgi, St. Louis Federal Rezerv Bankası'nın sağladığı verilere dayanmaktadır. Ardından, her sektörde toplam ücret ve tazminata en fazla katkı sağlayan ve ağırlıklı olarak bilgi temelli iş kolları arasında yer alan 5 mesleği seçtik. Bu seçim, Mayıs 2024 tarihli ABD Çalışma İstatistikleri Bürosu (BLS) Mesleki İstihdam Raporu(yeni bir pencerede açılır)’ndan alınan ücret ve istihdam verilerine dayanılarak yapıldı. Mesleklerin ağırlıklı olarak bilgi temelli iş kolları olup olmadığını belirlemek için, ABD Çalışma Bakanlığı tarafından desteklenen ve ABD’deki mesleklere yönelik bilgileri içeren O*NET(yeni bir pencerede açılır) veri tabanındaki mesleki bilgilerden yararlandık. O*NET veri tabanındaki her bir meslek için tanımlanan görevlerin, bilgi temelli işlerden mi yoksa fiziksel iş/bedensel emek (fiziksel dünyada eylem gerektiren) işlerden mi olduğunu sınıflandırdık. Bir mesleğin bileşen görevlerinin en az %60’ı fiziksel iş veya bedensel emek içermiyorsa “ağırlıklı olarak bilgi temelli iş” olarak kabul edilmiştir. GDPval’in ilk sürümü için bu %60 eşiğini başlangıç noktası olarak seçtik ve yapay zekanın gerçek dünya üretkenliğine en yüksek etkiyi yapabileceği mesleklere odaklandık.
Bu süreç sonunda 44 meslek çalışmaya dâhil edildi.
Gayrimenkul, kiralama ve leasing
Resepsiyon görevlisi
Gayrimenkul, emlak ve site/yönetim kurulu yöneticileri
Gayrimenkul satış danışmanları
Emlak komisyoncuları
Gişe görevlisi ve araç kiralama danışmanı
Devlet kurumu
Rekreasyon uzmanları
Uyum görevlileri
Polis amirleri / İlk kademe polis amirleri
İdari işler yöneticileri
Çocuk, aile ve okul rehberlik görevlileri
İmalat
Makine mühendisleri
Endüstri mühendisleri
Satın alma uzmanları ve alım görevlileri
Sevkiyat görevlileri, mal kabul ve envanter sorumluları
Üretim ve operasyon biriminin ilk kademe amirleri
Profesyonel, bilimsel ve teknik hizmetler
Yazılım geliştiricileri
Avukatlar
Muhasebeci ve denetçiler
Bilgisayar ve bilgi sistemleri yöneticileri
Proje yönetimi uzmanları
Sağlık ve sosyal yardım
Lisanslı hemşireler
Pratisyen hemşireler
Tıp ve sağlık hizmetleri yöneticileri
Ofis çalışanlarının ve idari destek birimi çalışanlarının ilk kademe amirleri
Tıbbi sekreterler ve idari asistanlar
Finans ve sigortacılık
Müşteri hizmetleri temsilcileri
Finans ve yatırım analistleri
Finans yöneticileri
Kişisel finans danışmanları
Menkul kıymetler, emtialar ve finansal hizmetler satış temsilcileri
Perakendecilik
Eczacılar
Perakende satış çalışanlarının ilk kademe amirleri
Genel müdürler ve operasyon müdürleri
Özel dedektifler ve araştırmacılar
Toptancılık
Satış müdürleri
Sipariş görevlileri
Perakende dışı satış çalışanlarının ilk kademe amirleri
Teknik ve bilimsel uzmanlık gerektirmeyen ürünler için toptancı veya üretici adına satış yapan temsilciler
Teknik ve bilimsel uzmanlık gerektiren ürünler için toptancı veya üretici adına satış yapan temsilciler
Bilgi
Ses ve video teknisyenleri
Yapımcı ve yönetmenler
Haber analistleri, muhabirler ve gazeteciler
Film ve video editörleri
Editörler
Her bir meslekte deneyimli profesyonellerle çalışarak her gün yaptıkları işi yansıtan temsili görevler oluşturduk. Bu profesyonellerin ortalama deneyim süresi 14 yıl olup, kariyerlerinde ilerleme açısından güçlü bir geçmişe sahiptirler. Temsil kabiliyetini üst düzeye çıkarmak için, farklı uzmanlık alanlarından ve farklı büyüklükteki firmalardan avukatlar da dâhil olmak üzere geniş bir uzman yelpazesiyle çalışmayı özellikle tercih ettik.
Her bir görev; gerçek bir işi temsil etmesi, başka bir uzmanın tamamlayabileceği nitelikte olması ve net bir değerlendirme yapılabilmesi için çok aşamalı bir inceleme sürecinden geçirildi. Her bir görev, ortalama 5 tur uzman incelemesinden geçti. Bu inceleme süreci; diğer görev yazarlarının kontrollerini, başka meslek uzmanlarının değerlendirmelerini ve modele dayalı doğrulama adımlarını da içeriyordu.
Ortaya çıkan veri seti, her meslek için kapsamlı olarak incelenmiş 30 görevin (tam set) yanı sıra açık kaynaklı altın sette yer alan 5 görevi içermektedir. Bu yapı,yapay zeka modellerinin gerçek dünyadaki bilgi temelli iş kollarındaki performansını değerlendirmek için güvenilir bir araç sunar.
GDPval görevlerinden örnekler
İstem ve görev bağlamı
Uzman elinden çıkmış teslim edilebilir çalışma

GDPval görevlerinde model performansını değerlendirmek için, veri setinde temsil edilen meslek gruplarından deneyimli profesyonellerden oluşan bir uzman “değerlendirici” ekibinden destek alıyoruz. Bu değerlendiriciler, yapay zeka tarafından üretilen çıktılar ile görev yazarları tarafından hazırlananları karşılaştırmalı olarak incelerken, bir çıktının insan üretimi mi yoksa yapay zeka üretimi mi olduğunu bilmeden değerlendirme yaparlar. Bu süreçte eleştirel geri bildirimler sunar ve sıralama yaparlar. Ardından değerlendiriciler, insan ve yapay zeka tarafından üretilen çıktıları sıralar ve her bir yapay zeka çıktısını diğerinden “daha iyi”, “eşdeğer” veya “daha düşük nitelikte” olarak sınıflandırırlar.
Görev yazarları, kendi meslek alanlarına özgü ayrıntılı puanlama ölçütleri de oluşturdu. Böylece, değerlendirme sürecinde tutarlılık ve şeffaflık sağlandı. Ayrıca, belirli bir çıktının uzmanlar tarafından nasıl değerlendirileceğini tahmin etmek üzere eğitilmiş bir “otomatik değerlendirici” (bir yapay zeka sistemi olan) geliştirdik. Başka bir deyişle, her seferinde kapsamlı bir uzman incelemesi yapmak yerine, otomatik değerlendirici hangi çıktının insanlar tarafından tercih edileceğini hızlıca tahmin edebilir. Bu aracı, deneysel bir araştırma hizmeti olarak evals.openai.com üzerinden erişime açtık. Ancak henüz yeterince güvenilir olmadığı için uzman değerlendiricilerin yerini almak üzere kullanmıyoruz.
Günümüzün en ileri düzey yapay zeka modellerinin, sektör uzmanları tarafından üretilen iş kalitesine şimdiden yaklaşmakta olduğunu gözlemledik. Bunu test etmek için, sektör uzmanlarının GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro ve Grok 4 gibi önde gelen modeller tarafından üretilen çıktıları insan üretimi iş çıktılarıyla karşılaştırdığı kör değerlendirmeler gerçekleştirdik. GDPval altın setinde yer alan 220 görev kapsamında, yapay zeka çıktılarının sektör uzmanları tarafından üretilen çalışmalarla karşılaştırıldığında “daha iyi” (önde) veya “eşdeğer” (berabere) olarak değerlendirildiği durumları kaydettik ve sonuçları aşağıdaki çubuk grafikle görselleştirdik. Claude Opus 4.1, görsel estetik açısından (örneğin belge biçimlendirme, slayt yerleşimi) özellikle öne çıkarak setteki en iyi performansı sergileyen model oldu. GPT‑5 ise doğruluk açısından (örneğin alana özgü bilgileri bulma konusunda) üstün bir performans gösterdi. Bu görevlerde zaman içinde net bir ilerleme kaydedildiğini de gözlemledik. GPT‑4o’nun (2024 ilkbaharında yayınlandı) ve GPT‑5’in (2025 yazında yayınlandı) çıktıları karşılaştırıldığında, performansın iki katından fazla arttığı ve bu artışın belirgin bir doğrusal eğilim izlediği görülüyor.
Ayrıca, öncü yapay zeka modellerinin GDPval görevlerini sektör uzmanlarına kıyasla yaklaşık 100 kat daha hızlı ve 100 kat daha düşük maliyetle tamamlayabildiğini gözlemledik. Ne var ki bu rakamlar, yalnızca modelin çıkarım yapma süresini ve API ücretlendirme oranlarını yansıtmaktadır. Dolayısıyla, modellerimizin gerçek iş ortamlarında kullanılabilmesi için gereken insan denetimi, yineleme ve entegrasyon adımlarını kapsamaz. Yine de, özellikle modellerin güçlü performans sergilediği görev alt kümelerinde, bir görevi insanla denemeden önce yapay zekaya vermenin zaman ve maliyet açısından tasarruf sağlayacağını düşünüyoruz.
Uzman değerlendiriciler, önde gelen modellerin çıktılarıyla insan uzmanların çözümlerini karşılaştırdı. Günümüzün en ileri düzey yapay zeka modelleri, sektör uzmanları tarafından üretilen iş kalitesine şimdiden yaklaşıyor. Claude Opus 4.1, görevlerin neredeyse yarısında insanlarla eşdeğer veya daha iyi sonuçlar verdi.
GPT‑4o’dan GPT‑5’e geçişle birlikte ise GDPval görevlerindeki performansın bir yıl içinde üç katına çıktığı gözlemlendi.
Son olarak, GDPval performansını iyileştirip iyileştiremeyeceğimizi değerlendirmek amacıyla GPT‑5’in dâhili ve deneysel bir sürümünü aşamalı olarak eğittik. Bu işlemin, performansı artırdığını ve gelecekteki potansiyel iyileştirmeler için bir yol haritası oluşturduğunu gözlemledik. Diğer kontrollü deneyler de bu bulguyu destekliyor. Model boyutunun artırılması, daha fazla akıl yürütme adımının teşvik edilmesi ve görev bağlamının zenginleştirilmesi gibi iyileştirmelerin her biri ölçülebilir kazanımlar sağladı.
Yayınladığımız makalede tüm sonuçları okuyabilirsiniz. Ayrıca, GDPval görevlerinin altın alt kümesini ve herkese açık bir değerlendirme hizmetini de yayınlıyoruz. Böylece diğer araştırmacılar bu çalışmaya katkıda bulunarak onu daha da geliştirebilir.
Yapay zeka daha yetkin bir hâl aldıkça iş gücü piyasasında muhtemel değişimlere yol açacaktır. GDPval’in erken sonuçları, yapay zeka modellerinin bazı tekrarlayan ve iyi tanımlanmış görevleri şimdiden uzmanlara kıyasla daha hızlı ve daha düşük maliyetle yerine getirebildiğini gösteriyor. Ancak çoğu iş, hepsi yazılı hâle getirilebilecek görevlerden ibaret değil. GDPval, yapay zekanın rutin görevleri üstlenebileceği alanları ortaya koyarak insanların yaratıcı ve karar odaklı işlere daha fazla zaman ayırabilmesini mümkün kılıyor. Yapay zeka, çalışanlara bu şekilde destek sunduğu zaman, bu durum önemli bir ekonomik büyümeye dönüşebilir. Amacımız, bu araçlara erişimi demokratikleştirip çalışanları bu değişime ayak uyma konusunda destekleyerek ve geniş katılımı ödüllendiren sistemler inşa ederek herkesin yapay zekanın bu kaldıraç etkisinden faydalanmasını sağlamak.
GDPval, bu alandaki gelişimin erken bir adımıdır. 44 mesleği ve yüzlerce görevi kapsayan bu değerlendirme, test kapsamını genişletmek ve sonuçları daha anlamlı hâle getirmek amacıyla sürekli olarak geliştiriliyor. Mevcut değerlendirme sürümü tek seferlik değerlendirmelerle sınırlıdır; bu yüzden bir modelin bağlam oluşturmasının veya birden çok taslak üzerinden iyileştirmeler yapmasının gerekeceği durumları kapsamaz(Ör. Hukuki bir görüş metninin müşteri geri bildirimi doğrultusunda revize edilmesi ya da veri analizinde bir anormallik fark edildikten sonra yineleme yapılması gibi). Gerçek dünyada görevler her zaman açıkça tanımlanmış bir istem ve referans dosyalarla gelmez. Örneğin bir avukat, müvekkiliyle görüşmeden ve belirsizlikleri aşmadan önce hukuki bir görüş metni hazırlamanın müvekkile yardım etmek için doğru yaklaşım olduğunu düşünmeyebilir. GDPval’i daha fazla meslek, sektör ve görev türünü kapsayacak şekilde genişletmeyi planlıyoruz. Bu değişim, etkileşimi artırmanın yanı sıra belirsizlikle başa çıkmayı gerektiren daha fazla görevi de içerecek. Uzun vadeli hedefimiz ise bilgi temelli işlerdeki ilerlemeyi daha sağlıklı ve kapsamlı bir şekilde ölçebilmek.
Topluluğun katılımı hayati önem taşıyor. İş yerinde AGI’yi insanlar için daha faydalı hale getirme hedefimizi paylaşan araştırmacılar, uygulayıcılar ve kuruluşlarla birlikte GDPval’i geliştirmekten büyük heyecan duyuyoruz.


