
Misyonumuz, AGI’nin tüm insanlığa faydalı olmasını sağlamaktır. Yapay zeka herkes için faydalı olacaksa, diller ve kültürler arasında da iyi performans göstermelidir. Dünya nüfusunun yaklaşık yüzde 80’i İngilizce’yi ana dili olarak konuşmuyor; buna karşın, İngilizce dışındaki dil yeteneklerini ölçen mevcut değerlendirme standartlarının çoğu genellikle yetersizdir.
MMMLU(yeni bir pencerede açılır) gibi mevcut çok dilli değerlendirme standartları artık doygunluk noktasına ulaşmış durumda. En iyi modeller, yüksek puan aralığında birbirine çok yakın sonuçlar veriyor; bu da bu standartları gerçek ilerlemeyi ölçmek açısından daha az kullanışlı hale getiriyor. Mevcut değerlendirme standartları çoğunlukla çeviriye veya çoktan seçmeli görevlere odaklanıyor. Ayrıca, bu standartlar bir yapay zeka sisteminin dil yeteneklerini değerlendirmede gerçekten önemli olan unsurları yeterince yakalayamıyor; dolayısıyla bağlamı, kültürü, tarihi ve insanların yaşadıkları bölgede önem taşıyan unsurları tam olarak kavrayamıyor.
Bu nedenle, yapay zeka modellerinin Hint dillerinde ve çok çeşitli kültürel alanlarda önem arz eden soruları ne kadar iyi anladığını ve bunlarla ilgili ne kadar iyi mantık yürüttüğünü değerlendirmek için tasarlanmış yeni bir değerlendirme standardı olan IndQA’i oluşturduk. Amacımız diğer diller ve bölgeler için benzer değerlendirme standartları oluşturmak olsa da, Hindistan net bir başlangıç noktasıdır. Hindistan, İngilizce’yi ana dili olarak kullanmayan yaklaşık bir milyar insanı ve 22 resmi dili (50 milyondan fazla kişinin konuştuğu en az yedi dil dahil) bünyesinde barındırıp ChatGPT’nin de en büyük ikinci pazarıdır.
Bu çalışma, Hintli kullanıcılar için ürünlerimizi ve araçlarımızı iyileştirme ve teknolojimizi ülke genelinde daha erişilebilir hale getirme konusundaki devam eden taahhüdümüzün bir parçasıdır.
IndQA, Hint dillerinde Hint kültürü ve günlük yaşam hakkında bilgi ve akıl yürütmeyi değerlendirir. Hindistan genelinde 261 alan uzmanının ortak çalışmasıyla hazırlanmış olup 10 kültürel alanı kapsayacak şekilde 12 dilde toplam 2.278 soruyu içerir. MMMLU ve MGSM gibi mevcut değerlendirme standartlarının aksine, mevcut değerlendirmelerin yakalamakta zorlandığı, kültürel nüanslı, akıl yürütme ağırlıklı görevleri incelemek için tasarlanmıştır.
IndQA, Mimari ve Tasarım, Kültür Sanat, Günlük Yaşam, Yemek ve Mutfak, Tarih, Hukuk ve Etik, Edebiyat ve Dil Bilimi, Medya ve Eğlence, Din ve Maneviyat ve Spor ve Rekreasyon gibi kültürel açıdan önemli geniş bir konu yelpazesini kapsar. Her biri Bengalce, İngilizce, Hintçe, Hindistan İngilizcesi, Kannada, Marathi, Odia, Telugu, Guceratça, Malayalam, Pencapça ve Tamilce dillerinde yerel olarak yazılmıştır. Not: Konuşmalarda kod değiştirmenin sıkça görülmesi nedeniyle Hindistan İngilizcesi’ni özellikle ekledik.
Her veri noktasında, bir Hint dilinde kültürel temelli bir istem, denetlenebilirlik için bir İngilizce çeviri, derecelendirme için değerlendirme kriterleri ve uzman beklentilerini yansıtan ideal bir cevap yer alır.
IndQA, değerlendirme kriterlerine dayalı bir yaklaşımı benimser. Her yanıt, söz konusu soru için alan uzmanları tarafından yazılmış kriterlere göre derecelendirilir. Bu kriterler, ideal bir cevabın neleri içermesi veya nelerden kaçınması gerektiğini açıklar ve her bir kritere, önem derecesine göre ağırlıklı bir puan değeri atanır. Model tabanlı bir derecelendirici, her kriterin karşılanıp karşılanmadığını kontrol eder. Nihai puan, ulaşılabilecek en yüksek toplam puan içinden karşılanan kriterler için alınan puanların toplamıdır.
- Uzmanlar tarafından yazılmış sorular. Hindistan’da 10 farklı alanda uzmanları bulmak için ortak çalışma yaptık. Söz konusu uzmanlar, bölgelerine ve uzmanlık alanlarına bağlı, zor ve akıl yürütme odaklı istemler tasarladı. Bu uzmanların her biri, hem ilgili dili hem de İngilizceyi ana dili seviyesinde bilen ve alanında derin uzmanlığa sahip kişilerdir.
- Karşıt filtreleme: Her soru, oluşturulduğu sırada OpenAI’ın şu en güçlü modellerine karşı test edildi: GPT‑4o, OpenAI o3, GPT‑4.5 ve (kısmen, genel lansman sonrası) GPT‑5. Yalnızca bu modellerin çoğunun kabul edilebilir cevaplar üretemediği soruları tuttuk ve ilerlemeye pay bıraktık
- Ayrıntılı Kriterler. Alan uzmanları, her bir soruya ek olarak, paragraf sorularının sınav değerlendirme kriterlerine benzer şekilde, model yanıtını derecelendirmede kullanılan kriterler de sağladı. Bu kriterler, aday modellerden gelen yanıtları derecelendirmek için kullanılır.
- İdeal cevaplar + inceleme. Uzmanlar, ideal cevapları ve İngilizce çevirilerini ekledi, ardından emsal değerlendirmesi ve yinelemeli düzeltmeler yapıldı ve son olarak kapanış onayı verildi.
Dil: Bengalce
Alan: Edebiyat ve dil bilimi
Alan: Yemek ve mutfak
IndQA’i, son dönemde çıkan öncü modellerin nasıl performans gösterdiğini değerlendirmek ve son birkaç yıldaki ilerlemeyi takip etmek için kullanıyoruz. IndQA sayesinde, OpenAI modellerinin Hint dillerinde zaman içinde önemli ölçüde geliştiğini (uyarılar ile), ancak yine de iyileştirilmesi gereken geniş bir alanın mevcut olduğunu görebiliyoruz. Gelecekteki modellerin performansını iyileştirmeyi ve sonuçları paylaşmayı dört gözle bekliyoruz.
Aşağıda, GPT‑5 Thinking High ile diğer öncü modelleri karşılaştırarak, IndQA’in performansını Dil ve Alana göre sınıflandırıyoruz.
Sorular diller arasında birebir aynı olmadığından IndQA bir dil karşılaştırma tablosu değildir; diller arası puanlar, dil becerisinin doğrudan karşılaştırılması olarak yorumlanmamalıdır. Bunun yerine IndQA’i bir model ailesi veya konfigürasyonu içinde zaman içindeki iyileşmeyi ölçmek amacıyla kullanmayı planlıyoruz.
Ayrıca sorular yalnızca GPT‑4o, OpenAI o3, GPT‑4.5 ve (genel lansman sonrası) GPT‑5 modellerinin yeterli cevap veremediği sorular gösterilecek şekilde filtrelendiğinden, soru seçimi bu modellere karşıt niteliktedir. Bu durum, GPT‑5’in göreceli performansını düşürebilir ve tüm OpenAI modellerini, OpenAI olmayan modellere kıyasla dezavantajlı duruma düşürebilir.
IndQA için sorular yazan ve inceleyen 261 Hintli uzmana (gazeteciler, dil bilimciler, akademisyenler, sanatçılar ve sektör uygulayıcıları) minnettarız. Birlikte çalıştığımız uzmanlardan bazıları şunlardır:
- 750’den fazla filmde rol almış ve Nandi Ödülü kazanmış bir Telugu aktör ve senarist
- Tarun Bharat’tan bir Marathi gazeteci ve editör
- Kannada dil bilimi uzmanı ve sözlük editörü
- Dünyanın en iyi 100 satranç oyuncusuna koçluk yapan Uluslararası Satranç Büyük Ustası
- Sosyal adalet, kast eşitliği ve edebi özgürlüğü savunan bir Tamilce yazarı, şairi ve kültürel aktivisti
- Ödüllü bir Pencapça müzik bestecisi
- Gucerat kültürel miras küratörü ve koruma uzmanı
- Ödüllü bir Malayalam şairi ve performans sanatçısı
- Bengal’in zengin kültürel mirası konusunda uzmanlaşmış bir tarih profesörü
- Odishan tapınaklarına odaklanan bir mimarlık profesörü
IndQA lansmanının, araştırma camiasında yeni değerlendirme standartlarının oluşturulmasına hem bilgi katkısı sunmasını hem de ilham kaynağı olmasını umuyoruz. IndQA tarzı sorular, mevcut yapay zeka değerlendirme standartlarının yeterince kapsamadığı dillerde veya kültürel alanlarda özellikle değerlidir. IndQA’e benzer değerlendirme standartları oluşturulması, yapay zeka araştırma laboratuvarlarının bugün zorlandığı dil ve alan modelleri hakkında daha fazla bilgi edinmesine yardımcı olabileceği gibi gelecekteki iyileştirmeler için de yol gösterici olabilir.


