
हमारा मिशन है कि AGI पूरी मानवता के लिए लाभकारी हो.अगर AI सबके लिए उपयोगी बनना है, तो उसे अलग-अलग भाषाओं और संस्कृतियों में अच्छी तरह काम करना होगा. दुनिया के लगभग 80 प्रतिशत लोग अंग्रेज़ी को अपनी मुख्य भाषा के रूप में नहीं बोलते, फिर भी ज़्यादातर मौजूदा बेंचमार्क गैर-अंग्रेज़ी भाषाओं की क्षमताओं को सही तरह से माप नहीं पाते.
MMMLU(एक नई विंडो में खुलेगा) जैसे मौजूदा बहुभाषी बेंचमार्क अब संतृप्त हो गए हैं—शीर्ष मॉडल उच्च स्कोर के करीब समूहित हैं—जो वास्तविक प्रगति को मापने के लिए उन्हें कम उपयोगी बनाते हैं.इसके अलावा, वर्तमान बेंचमार्क ज़्यादातर ट्रांसलेशन या मल्टीपल-चॉइस टास्क पर केंद्रित हैं.वे यह सही तरह से नहीं दिखा पाते कि किसी AI सिस्टम की भाषा क्षमता को परखने के लिए असल में क्या ज़रूरी है—संदर्भ, संस्कृति, इतिहास और उन चीज़ों को समझना जो लोगों के लिए महत्वपूर्ण हैं, जहाँ वे रहते हैं.
इसी वजह से हमने IndQA बनाया—एक नया बेंचमार्क जो यह परखने के लिए बनाया गया है कि AI मॉडल भारतीय भाषाओं में महत्वपूर्ण सवालों को कितनी अच्छी तरह समझते हैं और उनके बारे में रीज़निंग कर पाते हैं, वह भी अलग-अलग सांस्कृतिक क्षेत्रों में.हमारा लक्ष्य दूसरी भाषाओं और क्षेत्रों के लिए भी ऐसे ही बेंचमार्क बनाना है, लेकिन भारत इसके लिए एक स्वाभाविक शुरुआती बिंदु है.भारत में लगभग एक अरब लोग हैं जो अंग्रेज़ी को अपनी मुख्य भाषा के रूप में इस्तेमाल नहीं करते. यहाँ 22 आधिकारिक भाषाएँ हैं (जिनमें से कम से कम सात भाषाएँ ऐसी हैं जिन्हें 5 करोड़ से ज़्यादा लोग बोलते हैं), और यह ChatGPT का दूसरा सबसे बड़ा मार्केट है.
यह पहल भारतीय यूज़र्स के लिए हमारे प्रॉडक्ट्स और टूल्स को बेहतर बनाने और पूरे देश में हमारी टेक्नोलॉजी को ज़्यादा सुलभ बनाने के हमारे लगातार प्रयास का हिस्सा है.
भारतीय संस्कृति और रोज़मर्रा की ज़िंदगी से जुड़ी जानकारी और रीज़निंग को भारतीय भाषाओं में परखता है.इसमें 12 भाषाओं और 10 सांस्कृतिक क्षेत्रों में फैले 2,278 सवाल शामिल हैं, जिन्हें पूरे भारत के 261 डोमेन एक्सपर्ट्स के साथ मिलकर तैयार किया गया है.MMMLU और MGSM जैसे मौजूदा बेंचमार्क्स से अलग, इसे इस तरह बनाया गया है कि यह सांस्कृतिक रूप से सूक्ष्म और रीज़निंग-आधारित टास्क को परखे—ऐसे टास्क जिन्हें मौजूदा इवैल्यूएशन्स सही तरह से पकड़ नहीं पाते.
IndQA में सांस्कृतिक रूप से महत्वपूर्ण कई विषय शामिल हैं जैसे आर्किटेक्चर और डिज़ाइन, कला और संस्कृति, रोज़मर्रा की ज़िंदगी, खाना और व्यंजन, इतिहास, कानून और नैतिकता, साहित्य और भाषाविज्ञान, मीडिया और एंटरटेनमेंट, धर्म और अध्यात्म, और स्पोर्ट्स और रिक्रिएशन—जो मूल रूप से बंगाली, अंग्रेज़ी, हिंदी, हिंग्लिश, कन्नड़, मराठी, ओडिया, तेलुगु, गुजराती, मलयालम, पंजाबी और तमिल में लिखे गए हैं. ध्यान दें: बातचीत में कोड-स्विचिंग की व्यापकता को देखते हुए हमने विशेष रूप से हिंग्लिश को जोड़ा है.
प्रत्येक डेटा पॉइंट में एक भारतीय भाषा में सांस्कृतिक रूप से आधारित प्रॉम्प्ट, ऑडिटेबिलिटी के लिए एक अंग्रेज़ी अनुवाद, ग्रेडिंग के लिए रूब्रिक क्राइटेरिया, और एक आदर्श उत्तर शामिल होता है जो विशेषज्ञों की अपेक्षाओं को दर्शाता है.
IndQA रूब्रिक-आधारित दृष्टिकोण का उपयोग करता है. प्रत्येक रिस्पांस को उस विशेष प्रश्न के लिए डोमेन विशेषज्ञों द्वारा लिखे गए मानदंडों के आधार पर ग्रेड किया जाता है. मापदंड स्पष्ट करते हैं कि आदर्श उत्तर में क्या शामिल होना चाहिए या क्या नहीं होना चाहिए, और प्रत्येक को उसके महत्व के आधार पर एक भारित अंक मान दिया जाता है. मॉडल-आधारित ग्रेडर यह जाँचता है कि प्रत्येक मापदंड पूरा हुआ है या नहीं. अंतिम स्कोर, कुल संभव मानदंडों में से संतुष्ट किए गए अंकों का योग होता है.
- विशेषज्ञों द्वारा लिखे गए प्रश्न. हमने भारत में 10 विभिन्न क्षेत्रों में विशेषज्ञों को खोजने के लिए साझेदारों के साथ काम किया.उन्होंने अपने क्षेत्रों और विशेषताओं से जुड़े कठिन, तर्क-आधारित प्रॉम्प्ट का मसौदा तैयार किया.ये विशेषज्ञ प्रासंगिक भाषा (और अंग्रेजी) के मूल-स्तरीय वक्ता हैं और गहन विषय विशेषज्ञता रखते हैं.
- एडवर्सरियल फ़िल्टरिंग: प्रत्येक प्रश्न का परीक्षण OpenAI के सबसे मजबूत मॉडलों के निर्माण के समय किया गया था: GPT‑4o, OpenAI o3, GPT‑4.5, और (आंशिक रूप से, सार्वजनिक लॉन्च के बाद) GPT‑5.हमने केवल उन्हीं प्रश्नों को रखा, जहाँ इन मॉडलों के बहुमत ने स्वीकार्य उत्तर देने में असफलता दिखाई, जिससे प्रगति के लिए स्थान सुरक्षित रहा
- विस्तृत मानदंड. प्रत्येक प्रश्न के साथ, डोमेन विशेषज्ञों ने मॉडल रिस्पांस को ग्रेड करने के लिए उपयोग किए गए मानदंड प्रदान किए, जो एक निबंध प्रश्न के लिए परीक्षा रूब्रिक के समान है. इन मानदंडों का उपयोग उम्मीदवार मॉडलों के उत्तरों को ग्रेड करने के लिए किया जाता है.
- आदर्श उत्तर + समीक्षा. विशेषज्ञों ने आदर्श उत्तर और अंग्रेज़ी अनुवाद जोड़े, इसके बाद सहकर्मी समीक्षा और साइन-ऑफ़ होने तक क्रमिक सुधार किए.
भाषा: बंगाली
डोमेन: साहित्य एवं भाषाविज्ञान
डोमेन: भोजन और पाक कला
हम IndQA का इस्तेमाल करते हैं ये इवैल्यूएट करने के लिए कि हालिया फ्रंटियर मॉडल्स कैसा परफ़ॉर्म करते हैं और पिछले कुछ सालों में प्रोग्रेस का चार्ट तैयार करते हैं. IndQA के साथ हम देख सकते हैं कि समय के साथ भारतीय भाषाओं में OpenAI के मॉडल में काफी सुधार हुआ है (सीमाओं के साथ), लेकिन फिर भी उनमें सुधार की पर्याप्त गुंजाइश है. हम परफ़ॉर्मेंस को बेहतर बनाने और भविष्य के मॉडल के लिए परिणाम साझा करने के लिए उत्सुक हैं.
हम भाषा और डोमेन के अनुसार IndQA पर प्रदर्शन का स्तरीकरण भी करते हैं, जहाँ GPT‑5 थिंकिंग हाई की तुलना अन्य अग्रणी मॉडलों से की जाती है.
क्योंकि प्रश्न सभी भाषाओं में समान नहीं होते हैं, IndQA कोई भाषा लीडरबोर्ड नहीं है; क्रॉस-भाषा स्कोर की व्याख्या भाषा क्षमता की सीधी तुलना के रूप में नहीं की जानी चाहिए. इसके बजाय, हम एक मॉडल परिवार या कॉन्फ़िगरेशन के भीतर समय के साथ सुधार को मापने के लिए IndQA का उपयोग करने की योजना बना रहे हैं.
इसके अलावा, क्योंकि प्रश्नों को उन GPT‑4o, OpenAI o3, GPT‑4.5, और (सार्वजनिक लॉन्च के बाद) GPT‑5 के लिए फ़िल्टर किया गया था जो पर्याप्त उत्तर नहीं दे सके, इसलिए प्रश्न चयन इन मॉडलों के खिलाफ प्रतिकूल है.यह संभावित रूप से GPT‑5 के सापेक्ष प्रदर्शन को उलझा सकता है, और गैर-OpenAI मॉडल की तुलना में सभी OpenAI मॉडल को नुकसान पहुँचा सकता है.
हम 261 भारतीय विशेषज्ञों के आभारी हैं—पत्रकार, भाषाविद, विद्वान, कलाकार, और उद्योग से जुड़े लोग—जिन्होंने IndQA के लिए प्रश्नों को लिखा और उनकी समीक्षा की.हम जिन विशेषज्ञों के साथ काम कर चुके हैं, उनमें से कुछ उदाहरण इस प्रकार हैं:
- 750 से ज़्यादा फ़िल्मों के साथ नंदी पुरस्कार विजेता तेलुगु अभिनेता और पटकथा लेखक
- एक मराठी पत्रकार और तरुण भारत के संपादक
- कन्नड़ भाषा विज्ञान के विद्वान और शब्दकोश संपादक
- एक अंतरराष्ट्रीय शतरंज ग्रैंडमास्टर जो शीर्ष 100 शतरंज खिलाड़ियों को प्रशिक्षित करता है
- एक तमिल लेखक, कवि, और सांस्कृतिक कार्यकर्ता, जो सामाजिक न्याय, जातिगत समानता और साहित्यिक स्वतंत्रता की वकालत करते हैं
- एक पुरस्कार विजेता पंजाबी संगीतकार
- एक गुजराती विरासत क्यूरेटर और संरक्षण विशेषज्ञ
- एक पुरस्कार विजेता मलयालम कवि और प्रदर्शन कलाकार
- इतिहास के प्रोफेसर, जो बंगाल की समृद्ध सांस्कृतिक विरासत में विशेषज्ञता रखते हैं
- वास्तुकला के एक प्रोफेसर, जो ओडिशा के मंदिरों पर ध्यान केंद्रित कर रहे हैं
हमें उम्मीद है कि IndQA की रिलीज़ अनुसंधान समुदाय को नए बेंचमार्क बनाने के लिए सूचित और प्रेरित करेगी.IndQA शैली के प्रश्न विशेष रूप से उन भाषाओं या सांस्कृतिक डोमेन में मूल्यवान होते हैं जो मौजूदा एआई बेंचमार्क द्वारा अच्छी तरह से कवर नहीं किए गए हैं.IndQA के समान बेंचमार्क बनाने से AI अनुसंधान प्रयोगशालाओं को उन भाषाओं और डोमेन मॉडलों के बारे में अधिक जानने में मदद मिल सकती है, जिनके साथ वे आज संघर्ष कर रहे हैं, और यह भविष्य में सुधार के लिए एक दिशा-निर्देशक तारा प्रदान कर सकता है.


