Ana içeriğe atla
OpenAI

3 Kasım 2025

AraştırmaSürüm

Karşınızda IndQA

Hint kültürü ve dilleri üzerine yapay zeka sistemlerini değerlendirmeye yönelik yeni bir değerlendirme standardı.

Her biri farklı bir Hint yazısına veya Latin alfabesine ait birer karakter içeren yuvarlak köşeli kare düğmelerden oluşan 3x4’lük tablo. Karakterler arasında, Bengalce (অ), İngilizce (En), Hintçe (ह), Kannada (Hi) ve çeşitli Hint dillerini temsil eden diğer karakterler yer alıp açık gri bir arka plan üzerine yerleştirilmiştir. Görsel, çoklu dil desteğini ve sil seçimini yansıtmaktadır.
Yükleniyor...

Misyonumuz, AGI’nin tüm insanlığa faydalı olmasını sağlamaktır. Yapay zeka herkes için faydalı olacaksa, diller ve kültürler arasında da iyi performans göstermelidir. Dünya nüfusunun yaklaşık yüzde 80’i İngilizce’yi ana dili olarak konuşmuyor; buna karşın, İngilizce dışındaki dil yeteneklerini ölçen mevcut değerlendirme standartlarının çoğu genellikle yetersizdir. 

MMMLU(yeni bir pencerede açılır) gibi mevcut çok dilli değerlendirme standartları artık doygunluk noktasına ulaşmış durumda. En iyi modeller, yüksek puan aralığında birbirine çok yakın sonuçlar veriyor; bu da bu standartları gerçek ilerlemeyi ölçmek açısından daha az kullanışlı hale getiriyor. Mevcut değerlendirme standartları çoğunlukla çeviriye veya çoktan seçmeli görevlere odaklanıyor. Ayrıca, bu standartlar bir yapay zeka sisteminin dil yeteneklerini değerlendirmede gerçekten önemli olan unsurları yeterince yakalayamıyor; dolayısıyla bağlamı, kültürü, tarihi ve insanların yaşadıkları bölgede önem taşıyan unsurları tam olarak kavrayamıyor.

Bu nedenle, yapay zeka modellerinin Hint dillerinde ve çok çeşitli kültürel alanlarda önem arz eden soruları ne kadar iyi anladığını ve bunlarla ilgili ne kadar iyi mantık yürüttüğünü değerlendirmek için tasarlanmış yeni bir değerlendirme standardı olan IndQA’i oluşturduk. Amacımız diğer diller ve bölgeler için benzer değerlendirme standartları oluşturmak olsa da, Hindistan net bir başlangıç noktasıdır. Hindistan, İngilizce’yi ana dili olarak kullanmayan yaklaşık bir milyar insanı ve 22 resmi dili (50 milyondan fazla kişinin konuştuğu en az yedi dil dahil) bünyesinde barındırıp ChatGPT’nin de en büyük ikinci pazarıdır.  

Bu çalışma, Hintli kullanıcılar için ürünlerimizi ve araçlarımızı iyileştirme ve teknolojimizi ülke genelinde daha erişilebilir hale getirme konusundaki devam eden taahhüdümüzün bir parçasıdır.

Çalışma biçimi

IndQA, Hint dillerinde Hint kültürü ve günlük yaşam hakkında bilgi ve akıl yürütmeyi değerlendirir. Hindistan genelinde 261 alan uzmanının ortak çalışmasıyla hazırlanmış olup 10 kültürel alanı kapsayacak şekilde 12 dilde toplam 2.278 soruyu içerir. MMMLU ve MGSM gibi mevcut değerlendirme standartlarının aksine, mevcut değerlendirmelerin yakalamakta zorlandığı, kültürel nüanslı, akıl yürütme ağırlıklı görevleri incelemek için tasarlanmıştır.

IndQA, Mimari ve Tasarım, Kültür Sanat, Günlük Yaşam, Yemek ve Mutfak, Tarih, Hukuk ve Etik, Edebiyat ve Dil Bilimi, Medya ve Eğlence, Din ve Maneviyat ve Spor ve Rekreasyon gibi kültürel açıdan önemli geniş bir konu yelpazesini kapsar. Her biri Bengalce, İngilizce, Hintçe, Hindistan İngilizcesi, Kannada, Marathi, Odia, Telugu, Guceratça, Malayalam, Pencapça ve Tamilce dillerinde yerel olarak yazılmıştır. Not: Konuşmalarda kod değiştirmenin sıkça görülmesi nedeniyle Hindistan İngilizcesi’ni özellikle ekledik.

Her veri noktasında, bir Hint dilinde kültürel temelli bir istem, denetlenebilirlik için bir İngilizce çeviri, derecelendirme için değerlendirme kriterleri ve uzman beklentilerini yansıtan ideal bir cevap yer alır.

Değerlendirme sürecini gösteren diyagram: bir örnek kullanıcı-asistan konuşması, bir aday yanıt ve kriterlere göre yanıtı puanlamak için kullanılan bir değerlendirme kriterleri tablosu.

IndQA, değerlendirme kriterlerine dayalı bir yaklaşımı benimser. Her yanıt, söz konusu soru için alan uzmanları tarafından yazılmış kriterlere göre derecelendirilir. Bu kriterler, ideal bir cevabın neleri içermesi veya nelerden kaçınması gerektiğini açıklar ve her bir kritere, önem derecesine göre ağırlıklı bir puan değeri atanır. Model tabanlı bir derecelendirici, her kriterin karşılanıp karşılanmadığını kontrol eder. Nihai puan, ulaşılabilecek en yüksek toplam puan içinden karşılanan kriterler için alınan puanların toplamıdır.

IndQA’i nasıl geliştirdik?

  • Uzmanlar tarafından yazılmış sorular. Hindistan’da 10 farklı alanda uzmanları bulmak için ortak çalışma yaptık. Söz konusu uzmanlar, bölgelerine ve uzmanlık alanlarına bağlı, zor ve akıl yürütme odaklı istemler tasarladı. Bu uzmanların her biri, hem ilgili dili hem de İngilizceyi ana dili seviyesinde bilen ve alanında derin uzmanlığa sahip kişilerdir.
  • Karşıt filtreleme: Her soru, oluşturulduğu sırada OpenAI’ın şu en güçlü modellerine karşı test edildi: GPT‑4o, OpenAI o3, GPT‑4.5 ve (kısmen, genel lansman sonrası) GPT‑5. Yalnızca bu modellerin çoğunun kabul edilebilir cevaplar üretemediği soruları tuttuk ve ilerlemeye pay bıraktık
  • Ayrıntılı Kriterler. Alan uzmanları, her bir soruya ek olarak, paragraf sorularının sınav değerlendirme kriterlerine benzer şekilde, model yanıtını derecelendirmede kullanılan kriterler de sağladı. Bu kriterler, aday modellerden gelen yanıtları derecelendirmek için kullanılır.
  • İdeal cevaplar + inceleme. Uzmanlar, ideal cevapları ve İngilizce çevirilerini ekledi, ardından emsal değerlendirmesi ve yinelemeli düzeltmeler yapıldı ve son olarak kapanış onayı verildi.

Örnek sorular

Dil: Bengalce

Alan: Edebiyat ve dil bilimi

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Alan: Yemek ve mutfak

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Zaman içinde yapılan iyileştirmeler

IndQA’i, son dönemde çıkan öncü modellerin nasıl performans gösterdiğini değerlendirmek ve son birkaç yıldaki ilerlemeyi takip etmek için kullanıyoruz. IndQA sayesinde, OpenAI modellerinin Hint dillerinde zaman içinde önemli ölçüde geliştiğini (uyarılar ile), ancak yine de iyileştirilmesi gereken geniş bir alanın mevcut olduğunu görebiliyoruz. Gelecekteki modellerin performansını iyileştirmeyi ve sonuçları paylaşmayı dört gözle bekliyoruz.

Aşağıda, GPT‑5 Thinking High ile diğer öncü modelleri karşılaştırarak, IndQA’in performansını Dil ve Alana göre sınıflandırıyoruz.

Uyarılar

Sorular diller arasında birebir aynı olmadığından IndQA bir dil karşılaştırma tablosu değildir; diller arası puanlar, dil becerisinin doğrudan karşılaştırılması olarak yorumlanmamalıdır. Bunun yerine IndQA’i bir model ailesi veya konfigürasyonu içinde zaman içindeki iyileşmeyi ölçmek amacıyla kullanmayı planlıyoruz.

Ayrıca sorular yalnızca GPT‑4o, OpenAI o3, GPT‑4.5 ve (genel lansman sonrası) GPT‑5 modellerinin yeterli cevap veremediği sorular gösterilecek şekilde filtrelendiğinden, soru seçimi bu modellere karşıt niteliktedir. Bu durum, GPT‑5’in göreceli performansını düşürebilir ve tüm OpenAI modellerini, OpenAI olmayan modellere kıyasla dezavantajlı duruma düşürebilir.

IndQA’in arkasındaki uzmanlar

IndQA için sorular yazan ve inceleyen 261 Hintli uzmana (gazeteciler, dil bilimciler, akademisyenler, sanatçılar ve sektör uygulayıcıları) minnettarız. Birlikte çalıştığımız uzmanlardan bazıları şunlardır:

  • 750’den fazla filmde rol almış ve Nandi Ödülü kazanmış bir Telugu aktör ve senarist
  • Tarun Bharat’tan bir Marathi gazeteci ve editör 
  • Kannada dil bilimi uzmanı ve sözlük editörü
  • Dünyanın en iyi 100 satranç oyuncusuna koçluk yapan Uluslararası Satranç Büyük Ustası
  • Sosyal adalet, kast eşitliği ve edebi özgürlüğü savunan bir Tamilce yazarı, şairi ve kültürel aktivisti
  • Ödüllü bir Pencapça müzik bestecisi
  • Gucerat kültürel miras küratörü ve koruma uzmanı
  • Ödüllü bir Malayalam şairi ve performans sanatçısı
  • Bengal’in zengin kültürel mirası konusunda uzmanlaşmış bir tarih profesörü
  • Odishan tapınaklarına odaklanan bir mimarlık profesörü

Sonraki adımlar

IndQA lansmanının, araştırma camiasında yeni değerlendirme standartlarının oluşturulmasına hem bilgi katkısı sunmasını hem de ilham kaynağı olmasını umuyoruz. IndQA tarzı sorular, mevcut yapay zeka değerlendirme standartlarının yeterince kapsamadığı dillerde veya kültürel alanlarda özellikle değerlidir. IndQA’e benzer değerlendirme standartları oluşturulması, yapay zeka araştırma laboratuvarlarının bugün zorlandığı dil ve alan modelleri hakkında daha fazla bilgi edinmesine yardımcı olabileceği gibi gelecekteki iyileştirmeler için de yol gösterici olabilir.