Ana içeriğe atla
OpenAI

25 Eylül 2025

YayınAraştırma

Modellerimizin performansını gerçek dünya görevleriyle ölçüyoruz

GDPval adıyla kullanıma sunduğumuz yeni değerlendirme aracımız, yapay zeka modellerinin 44 farklı mesleğe ait ekonomik değeri yüksek gerçek dünya görevlerindeki performansını ölçüyor.

Misyonumuz yapay genel zekanın tüm insanlığa faydalı olmasını sağlamaktır. Bu misyonun bir parçası olarak, AI modellerinin gerçek dünyada insanlara nasıl yardımcı olabileceğine dair elde edilen ilerlemeyi şeffaf bir şekilde paylaşmak istiyoruz. İşte bu yüzden GDPval’i kullanıma sunuyoruz. Bu yeni değerlendirme, bizim modellerimizin ve diğer modellerin, ekonomik değeri yüksek, gerçek zamanlı görevlerde nasıl bir performans sergilediğini takip etmemize yardımcı olmak için tasarlandı. Bu değerlendirmeye GDPval adını verdik çünkü temel bir ekonomik gösterge olan Gayrisafi Yurt İçi Hasıla (GSYH) kavramından yola çıktık. Görevleri de GSYH’ye en çok katkı sağlayan sektörlerdeki kilit mesleklerden seçtik.

Yapay zekanın topluma etkisi üzerine sıkça spekülasyonlar yapılıyor; ama yapay zekanın potansiyelini anlamanın en net yolu, modellerin hâlihazırda neleri yapabildiğine bakmaktan geçiyor. Geçmiş deneyimler; internetten akıllı telefonlara kadar pek çok büyük teknolojinin icat edilmeleri ile yaygın bir şekilde kullanılmaya başlamaları arasında on yılı aşkın bir zaman geçtiğini gösteriyor. GDPval gibi değerlendirmeler, yapay zekanın gelecekteki gelişimine dair yapılan yorumları tahminlere değil somut verilere dayandırmamıza yardımcı oluyor ve modellerin zaman içindeki ilerlemesini takip etmemizi sağlıyor.

Zorlu akademik testler ve rekabetçi kodlama görevleri gibi eski yapay zeka değerlendirmeleri, modellerin akıl yürütme yeteneklerini geliştirmede şimdiye kadar önemli bir rol oynadı. Ama insanların günlük iş hayatında üstlendiği görevler konusunda yetersiz kaldı.

Bu eksikliği kapatmak için, giderek daha gerçekçi ve ekonomik açıdan anlamlı yetkinlikleri ölçen değerlendirmeler geliştirmeye başladık. Bu ilerleme süreci, MMLU (çok sayıda konuda sınav tarzı sorular) gibi klasik akademik kıyaslamalardan başlayarak, SWE-Bench (yazılım mühendisliğinde hata giderme görevleri), MLE-Bench (model eğitimi ve analizi gibi makine öğrenimi mühendisliği görevleri), Paper-Bench (araştırma makaleleri üzerine bilimsel akıl yürütme ve eleştiri) ve son olarak SWE-Lancer (gerçek ödeme verilerine dayanan freelance yazılım mühendisliği projeleri) gibi daha uygulamalı değerlendirmelere evrildi.

GDPval, bu ilerleme sürecinin bir sonraki adımını temsil ediyor. Farklı meslek ve sektörlerde çalışan deneyimli profesyonellerin gerçek dünyadaki bilgi temelli iş kollarından doğrudan alınan görevleri kullanarak model performansını ölçüyor. Böylece modellerin ekonomik açıdan yüksek değerli işlerde nasıl sonuç verdiğine dair daha net bir tablo sunuyor. Modelleri gerçekçi mesleki görevler üzerinde değerlendirmek sadece laboratuvar ortamında nasıl bir performans göstereceğini anlamakla kalmayıp günlük hayatta insanlara nasıl destek olabileceklerini de anlamamızı sağlıyor. 

GDPval neyi ölçüyor?

Bu değerlendirmenin ilk versiyonu olan GDPval, ABD’nin Gayrisafi Yurt İçi Hasılası’na en çok katkı sağlayan 9 sektörden seçilmiş 44 mesleği kapsıyor. GDPval’in tam seti, her biri alanında ortalama 14 yıllık deneyime sahip uzmanlar tarafından titizlikle hazırlanmış ve doğrulanmış toplam 1.320 özel görev içeriyor (bunlardan 220 tanesi açık kaynaklı “altın” sette yer alıyor). Her görev; hukuki bir görüş metni, bir mühendislik çizimi, bir müşteri ile yapılan destek görüşmesi ya da hasta bakım planı gibi gerçek iş çıktılarına dayanır.

Görevlerin gerçekçiliği ve çeşitliliği, GDPval’i benzerlerinden ayırır. Ekonomik değere bağlı olarak yapılan diğer değerlendirmelerin belirli alanlara yoğunlaşmasının aksine (ör. SWE-Lancer), GDPval çok sayıda görev ve mesleği kapsıyor. Akademik sınav veya test tarzında yapay görevler oluşturan kıyaslamaların aksine (ör. Humanity’s Last Exam veya MMLU), GDPval bugün var olan gerçek iş veya ürün çıktılarından ya da benzer iş ürünü örneklerinden türetilen görevlere odaklanır. 

Geleneksel kıyaslamaların aksine, GDPval görevleri basit metin istemlerinden ibaret değildir. Referans dosyalar ve bağlamla birlikte gelirler ve beklenen çıktılar belgelerden slaytlara, şemalara, elektronik tablolara ve multimedya dosyalarına kadar uzanır. Gerçekçi yapısı, GDPval’in modellerin profesyonellere nasıl destek olabileceğini daha gerçekçi biçimde test etmesini sağlar.

GDPval, pek çok ekonomik görevin tüm nüansını yansıtmayan, başlangıç aşamasında bir adımdır. 44 mesleği ve bilgi temelli yüzlerce iş koluna ait görevleri kapsasa da GDPval tek seferlik değerlendirmelerle sınırlıdır; bu yüzden bir modelin bağlam oluşturmasının veya birden çok taslak üzerinden iyileştirmeler yapmasının gerekeceği durumları kapsamaz. Gelecek sürümler, gerçek dünyanın bilgi temelli iş kollarının karmaşıklığını daha iyi yansıtmak için, daha etkileşimli iş akışlarını ve bağlam açısından zengin görevleri kapsayacak şekilde geliştirilecektir (Sınırlamalar bölümümüzde daha fazla bilgi bulabilirsiniz).

Meslekleri nasıl seçiyoruz?

GDPval şu anda 9 sektörden 44 mesleği içeriyor. Gelecek sürümlerde bu kapsamı genişletmek için çalışıyoruz. Başlangıçtaki 9 sektör, ABD’nin Gayrisafi Yurt İçi Hasılası’na %5’ten daha fazla katkıda bulunanlardan seçilmiştir. Bu bilgi, St. Louis Federal Rezerv Bankası'nın sağladığı verilere dayanmaktadır. Ardından, her sektörde toplam ücret ve tazminata en fazla katkı sağlayan ve ağırlıklı olarak bilgi temelli iş kolları arasında yer alan 5 mesleği seçtik. Bu seçim, Mayıs 2024 tarihli ABD Çalışma İstatistikleri Bürosu (BLS) Mesleki İstihdam Raporu(yeni bir pencerede açılır)’ndan alınan ücret ve istihdam verilerine dayanılarak yapıldı. Mesleklerin ağırlıklı olarak bilgi temelli iş kolları olup olmadığını belirlemek için, ABD Çalışma Bakanlığı tarafından desteklenen ve ABD’deki mesleklere yönelik bilgileri içeren O*NET(yeni bir pencerede açılır) veri tabanındaki mesleki bilgilerden yararlandık. O*NET veri tabanındaki her bir meslek için tanımlanan görevlerin, bilgi temelli işlerden mi yoksa fiziksel iş/bedensel emek (fiziksel dünyada eylem gerektiren) işlerden mi olduğunu sınıflandırdık. Bir mesleğin bileşen görevlerinin en az %60’ı fiziksel iş veya bedensel emek içermiyorsa “ağırlıklı olarak bilgi temelli iş” olarak kabul edilmiştir. GDPval’in ilk sürümü için bu %60 eşiğini başlangıç noktası olarak seçtik ve yapay zekanın gerçek dünya üretkenliğine en yüksek etkiyi yapabileceği mesleklere odaklandık. 

Bu süreç sonunda 44 meslek çalışmaya dâhil edildi.

Gayrimenkul, kiralama ve leasing

  • Resepsiyon görevlisi

  • Gayrimenkul, emlak ve site/yönetim kurulu yöneticileri

  • Gayrimenkul satış danışmanları

  • Emlak komisyoncuları

  • Gişe görevlisi ve araç kiralama danışmanı

Devlet kurumu

  • Rekreasyon uzmanları

  • Uyum görevlileri

  • Polis amirleri / İlk kademe polis amirleri

  • İdari işler yöneticileri

  • Çocuk, aile ve okul rehberlik görevlileri

İmalat

  • Makine mühendisleri

  • Endüstri mühendisleri

  • Satın alma uzmanları ve alım görevlileri

  • Sevkiyat görevlileri, mal kabul ve envanter sorumluları

  • Üretim ve operasyon biriminin ilk kademe amirleri

Profesyonel, bilimsel ve teknik hizmetler

  • Yazılım geliştiricileri

  • Avukatlar

  • Muhasebeci ve denetçiler

  • Bilgisayar ve bilgi sistemleri yöneticileri

  • Proje yönetimi uzmanları

Sağlık ve sosyal yardım

  • Lisanslı hemşireler

  • Pratisyen hemşireler

  • Tıp ve sağlık hizmetleri yöneticileri

  • Ofis çalışanlarının ve idari destek birimi çalışanlarının ilk kademe amirleri

  • Tıbbi sekreterler ve idari asistanlar

Finans ve sigortacılık

  • Müşteri hizmetleri temsilcileri

  • Finans ve yatırım analistleri

  • Finans yöneticileri

  • Kişisel finans danışmanları

  • Menkul kıymetler, emtialar ve finansal hizmetler satış temsilcileri

Perakendecilik

  • Eczacılar

  • Perakende satış çalışanlarının ilk kademe amirleri

  • Genel müdürler ve operasyon müdürleri

  • Özel dedektifler ve araştırmacılar

Toptancılık

  • Satış müdürleri

  • Sipariş görevlileri

  • Perakende dışı satış çalışanlarının ilk kademe amirleri

  • Teknik ve bilimsel uzmanlık gerektirmeyen ürünler için toptancı veya üretici adına satış yapan temsilciler

  • Teknik ve bilimsel uzmanlık gerektiren ürünler için toptancı veya üretici adına satış yapan temsilciler

Bilgi

  • Ses ve video teknisyenleri

  • Yapımcı ve yönetmenler

  • Haber analistleri, muhabirler ve gazeteciler

  • Film ve video editörleri

  • Editörler

GDPval, yazılım geliştiricilerden avukatlara, lisanslı hemşirelerden makine mühendislerine kadar 9 sektörde toplam 44 bilgi temelli mesleği kapsıyor. Bu meslekler, ekonomik açıdan taşıdıkları önem nedeniyle seçildi ve yapay zekanın profesyonellere anlamlı bir şekilde yardımcı olabileceği günlük iş türlerini temsil ediyor.

Veri setini nasıl hazırladık?

Her bir meslekte deneyimli profesyonellerle çalışarak her gün yaptıkları işi yansıtan temsili görevler oluşturduk. Bu profesyonellerin ortalama deneyim süresi 14 yıl olup, kariyerlerinde ilerleme açısından güçlü bir geçmişe sahiptirler. Temsil kabiliyetini üst düzeye çıkarmak için, farklı uzmanlık alanlarından ve farklı büyüklükteki firmalardan avukatlar da dâhil olmak üzere geniş bir uzman yelpazesiyle çalışmayı özellikle tercih ettik.

Her bir görev; gerçek bir işi temsil etmesi, başka bir uzmanın tamamlayabileceği nitelikte olması ve net bir değerlendirme yapılabilmesi için çok aşamalı bir inceleme sürecinden geçirildi. Her bir görev, ortalama 5 tur uzman incelemesinden geçti. Bu inceleme süreci; diğer görev yazarlarının kontrollerini, başka meslek uzmanlarının değerlendirmelerini ve modele dayalı doğrulama adımlarını da içeriyordu. 

Ortaya çıkan veri seti, her meslek için kapsamlı olarak incelenmiş 30 görevin (tam set) yanı sıra açık kaynaklı altın sette yer alan 5 görevi içermektedir. Bu yapı,yapay zeka modellerinin gerçek dünyadaki bilgi temelli iş kollarındaki performansını değerlendirmek için güvenilir bir araç sunar.

GDPval görevlerinden örnekler

İstem ve görev bağlamı

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

Uzman elinden çıkmış teslim edilebilir çalışma

Bir kablo makarası tasarımının parça yerleşim şeması
GDPval’deki her görev, alanında deneyimli bir profesyonel tarafından tasarlanmıştır ve o meslek grubundaki bilgi temelli gerçek bir işi yansıtır. İstem, alanında uzman bir kişi tarafından hazırlanmış gerçekçi bir iş senaryosudur. Altın çıktı ise uzmanın kendi sunduğu çözümdür.

Modellerin performansını nasıl sınıflandırıyoruz?

GDPval görevlerinde model performansını değerlendirmek için, veri setinde temsil edilen meslek gruplarından deneyimli profesyonellerden oluşan bir uzman “değerlendirici” ekibinden destek alıyoruz. Bu değerlendiriciler, yapay zeka tarafından üretilen çıktılar ile görev yazarları tarafından hazırlananları karşılaştırmalı olarak incelerken, bir çıktının insan üretimi mi yoksa yapay zeka üretimi mi olduğunu bilmeden değerlendirme yaparlar. Bu süreçte eleştirel geri bildirimler sunar ve sıralama yaparlar. Ardından değerlendiriciler, insan ve yapay zeka tarafından üretilen çıktıları sıralar ve her bir yapay zeka çıktısını diğerinden “daha iyi”, “eşdeğer” veya “daha düşük nitelikte” olarak sınıflandırırlar.

Görev yazarları, kendi meslek alanlarına özgü ayrıntılı puanlama ölçütleri de oluşturdu. Böylece, değerlendirme sürecinde tutarlılık ve şeffaflık sağlandı. Ayrıca, belirli bir çıktının uzmanlar tarafından nasıl değerlendirileceğini tahmin etmek üzere eğitilmiş bir “otomatik değerlendirici” (bir yapay zeka sistemi olan) geliştirdik. Başka bir deyişle, her seferinde kapsamlı bir uzman incelemesi yapmak yerine, otomatik değerlendirici hangi çıktının insanlar tarafından tercih edileceğini hızlıca tahmin edebilir. Bu aracı, deneysel bir araştırma hizmeti olarak evals.openai.com üzerinden erişime açtık. Ancak henüz yeterince güvenilir olmadığı için uzman değerlendiricilerin yerini almak üzere kullanmıyoruz. 

Erken sonuçlar

Günümüzün en ileri düzey yapay zeka modellerinin, sektör uzmanları tarafından üretilen iş kalitesine şimdiden yaklaşmakta olduğunu gözlemledik. Bunu test etmek için, sektör uzmanlarının GPT‑4o, o4-mini, OpenAI o3, GPT‑5, Claude Opus 4.1, Gemini 2.5 Pro ve Grok 4 gibi önde gelen modeller tarafından üretilen çıktıları insan üretimi iş çıktılarıyla karşılaştırdığı kör değerlendirmeler gerçekleştirdik. GDPval altın setinde yer alan 220 görev kapsamında, yapay zeka çıktılarının sektör uzmanları tarafından üretilen çalışmalarla karşılaştırıldığında “daha iyi” (önde) veya “eşdeğer” (berabere) olarak değerlendirildiği durumları kaydettik ve sonuçları aşağıdaki çubuk grafikle görselleştirdik. Claude Opus 4.1, görsel estetik açısından (örneğin belge biçimlendirme, slayt yerleşimi) özellikle öne çıkarak setteki en iyi performansı sergileyen model oldu. GPT‑5 ise doğruluk açısından (örneğin alana özgü bilgileri bulma konusunda) üstün bir performans gösterdi. Bu görevlerde zaman içinde net bir ilerleme kaydedildiğini de gözlemledik. GPT‑4o’nun (2024 ilkbaharında yayınlandı) ve GPT‑5’in (2025 yazında yayınlandı) çıktıları karşılaştırıldığında, performansın iki katından fazla arttığı ve bu artışın belirgin bir doğrusal eğilim izlediği görülüyor.

Ayrıca, öncü yapay zeka modellerinin GDPval görevlerini sektör uzmanlarına kıyasla yaklaşık 100 kat daha hızlı ve 100 kat daha düşük maliyetle tamamlayabildiğini gözlemledik. Ne var ki bu rakamlar, yalnızca modelin çıkarım yapma süresini ve API ücretlendirme oranlarını yansıtmaktadır. Dolayısıyla, modellerimizin gerçek iş ortamlarında kullanılabilmesi için gereken insan denetimi, yineleme ve entegrasyon adımlarını kapsamaz. Yine de, özellikle modellerin güçlü performans sergilediği görev alt kümelerinde, bir görevi insanla denemeden önce yapay zekaya vermenin zaman ve maliyet açısından tasarruf sağlayacağını düşünüyoruz.

Uzman değerlendiriciler, önde gelen modellerin çıktılarıyla insan uzmanların çözümlerini karşılaştırdı. Günümüzün en ileri düzey yapay zeka modelleri, sektör uzmanları tarafından üretilen iş kalitesine şimdiden yaklaşıyor. Claude Opus 4.1, görevlerin neredeyse yarısında insanlarla eşdeğer veya daha iyi sonuçlar verdi.

GPT‑4o’dan GPT‑5’e geçişle birlikte ise GDPval görevlerindeki performansın bir yıl içinde üç katına çıktığı gözlemlendi. 

Son olarak, GDPval performansını iyileştirip iyileştiremeyeceğimizi değerlendirmek amacıyla GPT‑5’in dâhili ve deneysel bir sürümünü aşamalı olarak eğittik. Bu işlemin, performansı artırdığını ve gelecekteki potansiyel iyileştirmeler için bir yol haritası oluşturduğunu gözlemledik. Diğer kontrollü deneyler de bu bulguyu destekliyor. Model boyutunun artırılması, daha fazla akıl yürütme adımının teşvik edilmesi ve görev bağlamının zenginleştirilmesi gibi iyileştirmelerin her biri ölçülebilir kazanımlar sağladı.

Yayınladığımız makalede tüm sonuçları okuyabilirsiniz. Ayrıca, GDPval görevlerinin altın alt kümesini ve herkese açık bir değerlendirme hizmetini de yayınlıyoruz. Böylece diğer araştırmacılar bu çalışmaya katkıda bulunarak onu daha da geliştirebilir.

İş dünyasının ve yapay zekanın geleceği 

Yapay zeka daha yetkin bir hâl aldıkça iş gücü piyasasında muhtemel değişimlere yol açacaktır. GDPval’in erken sonuçları, yapay zeka modellerinin bazı tekrarlayan ve iyi tanımlanmış görevleri şimdiden uzmanlara kıyasla daha hızlı ve daha düşük maliyetle yerine getirebildiğini gösteriyor. Ancak çoğu iş, hepsi yazılı hâle getirilebilecek görevlerden ibaret değil. GDPval, yapay zekanın rutin görevleri üstlenebileceği alanları ortaya koyarak insanların yaratıcı ve karar odaklı işlere daha fazla zaman ayırabilmesini mümkün kılıyor. Yapay zeka, çalışanlara bu şekilde destek sunduğu zaman, bu durum önemli bir ekonomik büyümeye dönüşebilir. Amacımız, bu araçlara erişimi demokratikleştirip çalışanları bu değişime ayak uyma konusunda destekleyerek ve geniş katılımı ödüllendiren sistemler inşa ederek herkesin yapay zekanın bu kaldıraç etkisinden faydalanmasını sağlamak. 

Sınırlamalar ve bundan sonra bizi bekleyenler

GDPval, bu alandaki gelişimin erken bir adımıdır. 44 mesleği ve yüzlerce görevi kapsayan bu değerlendirme, test kapsamını genişletmek ve sonuçları daha anlamlı hâle getirmek amacıyla sürekli olarak geliştiriliyor. Mevcut değerlendirme sürümü tek seferlik değerlendirmelerle sınırlıdır; bu yüzden bir modelin bağlam oluşturmasının veya birden çok taslak üzerinden iyileştirmeler yapmasının gerekeceği durumları kapsamaz(Ör. Hukuki bir görüş metninin müşteri geri bildirimi doğrultusunda revize edilmesi ya da veri analizinde bir anormallik fark edildikten sonra yineleme yapılması gibi). Gerçek dünyada görevler her zaman açıkça tanımlanmış bir istem ve referans dosyalarla gelmez. Örneğin bir avukat, müvekkiliyle görüşmeden ve belirsizlikleri aşmadan önce hukuki bir görüş metni hazırlamanın müvekkile yardım etmek için doğru yaklaşım olduğunu düşünmeyebilir. GDPval’i daha fazla meslek, sektör ve görev türünü kapsayacak şekilde genişletmeyi planlıyoruz. Bu değişim, etkileşimi artırmanın yanı sıra belirsizlikle başa çıkmayı gerektiren daha fazla görevi de içerecek. Uzun vadeli hedefimiz ise bilgi temelli işlerdeki ilerlemeyi daha sağlıklı ve kapsamlı bir şekilde ölçebilmek.

Dâhil olun

  • Eğer sektörünüzde uzman biriyseniz ve GDPval projesine katkıda bulunmak istiyorsanız lütfen buradan başvuru yapın.
  • OpenAI ile çalışan bir müşteriyseniz ve GDPval’in gelecekteki bir turuna katkıda bulunmak istiyorsanız bu konuya yönelik ilginizi buradan belirtin.

Topluluğun katılımı hayati önem taşıyor. İş yerinde AGI’yi insanlar için daha faydalı hale getirme hedefimizi paylaşan araştırmacılar, uygulayıcılar ve kuruluşlarla birlikte GDPval’i geliştirmekten büyük heyecan duyuyoruz.