3 नवंबर 2025

पेश है IndQA

भारतीय संस्कृति और भाषाओं पर AI सिस्टम्स के मूल्यांकन के लिए एक नया बेंचमार्क.

गोलाकार वर्ग बटनों का एक 3x4 ग्रिड, जिनमें से प्रत्येक में किसी भिन्न भारतीय लिपि या लैटिन वर्णमाला का एक अक्षर है.पात्रों में बंगाली (অ), अंग्रेज़ी (En), हिंदी (ह), कन्नड़ (Hi), और विभिन्न भारतीय भाषाओं का प्रतिनिधित्व करने वाले अन्य शामिल हैं, जो हल्के भूरे रंग की पृष्ठभूमि पर सेट किए गए हैं. इमेज बहुभाषी सपोर्ट या भाषा चयन का सुझाव देती है.

लोड किया जा रहा है...

हमारा मिशन है कि AGI पूरी मानवता के लिए लाभकारी हो.अगर AI सबके लिए उपयोगी बनना है, तो उसे अलग-अलग भाषाओं और संस्कृतियों में अच्छी तरह काम करना होगा. दुनिया के लगभग 80 प्रतिशत लोग अंग्रेज़ी को अपनी मुख्य भाषा के रूप में नहीं बोलते, फिर भी ज़्यादातर मौजूदा बेंचमार्क गैर-अंग्रेज़ी भाषाओं की क्षमताओं को सही तरह से माप नहीं पाते.

MMMLU⁠(एक नई विंडो में खुलेगा) जैसे मौजूदा बहुभाषी बेंचमार्क अब संतृप्त हो गए हैं—शीर्ष मॉडल उच्च स्कोर के करीब समूहित हैं—जो वास्तविक प्रगति को मापने के लिए उन्हें कम उपयोगी बनाते हैं.इसके अलावा, वर्तमान बेंचमार्क ज़्यादातर ट्रांसलेशन या मल्टीपल-चॉइस टास्क पर केंद्रित हैं.वे यह सही तरह से नहीं दिखा पाते कि किसी AI सिस्टम की भाषा क्षमता को परखने के लिए असल में क्या ज़रूरी है—संदर्भ, संस्कृति, इतिहास और उन चीज़ों को समझना जो लोगों के लिए महत्वपूर्ण हैं, जहाँ वे रहते हैं.

इसी वजह से हमने IndQA बनाया—एक नया बेंचमार्क जो यह परखने के लिए बनाया गया है कि AI मॉडल भारतीय भाषाओं में महत्वपूर्ण सवालों को कितनी अच्छी तरह समझते हैं और उनके बारे में रीज़निंग कर पाते हैं, वह भी अलग-अलग सांस्कृतिक क्षेत्रों में.हमारा लक्ष्य दूसरी भाषाओं और क्षेत्रों के लिए भी ऐसे ही बेंचमार्क बनाना है, लेकिन भारत इसके लिए एक स्वाभाविक शुरुआती बिंदु है.भारत में लगभग एक अरब लोग हैं जो अंग्रेज़ी को अपनी मुख्य भाषा के रूप में इस्तेमाल नहीं करते. यहाँ 22 आधिकारिक भाषाएँ हैं (जिनमें से कम से कम सात भाषाएँ ऐसी हैं जिन्हें 5 करोड़ से ज़्यादा लोग बोलते हैं), और यह ChatGPT का दूसरा सबसे बड़ा मार्केट है.

यह पहल भारतीय यूज़र्स के लिए हमारे प्रॉडक्ट्स और टूल्स को बेहतर बनाने और पूरे देश में हमारी टेक्नोलॉजी को ज़्यादा सुलभ बनाने के हमारे लगातार प्रयास का हिस्सा है.

ये कैसे काम करता है

भारतीय संस्कृति और रोज़मर्रा की ज़िंदगी से जुड़ी जानकारी और रीज़निंग को भारतीय भाषाओं में परखता है.इसमें 12 भाषाओं और 10 सांस्कृतिक क्षेत्रों में फैले 2,278 सवाल शामिल हैं, जिन्हें पूरे भारत के 261 डोमेन एक्सपर्ट्स के साथ मिलकर तैयार किया गया है.MMMLU और MGSM जैसे मौजूदा बेंचमार्क्स से अलग, इसे इस तरह बनाया गया है कि यह सांस्कृतिक रूप से सूक्ष्म और रीज़निंग-आधारित टास्क को परखे—ऐसे टास्क जिन्हें मौजूदा इवैल्यूएशन्स सही तरह से पकड़ नहीं पाते.

IndQA में सांस्कृतिक रूप से महत्वपूर्ण कई विषय शामिल हैं जैसे आर्किटेक्चर और डिज़ाइन, कला और संस्कृति, रोज़मर्रा की ज़िंदगी, खाना और व्यंजन, इतिहास, कानून और नैतिकता, साहित्य और भाषाविज्ञान, मीडिया और एंटरटेनमेंट, धर्म और अध्यात्म, और स्पोर्ट्स और रिक्रिएशन—जो मूल रूप से बंगाली, अंग्रेज़ी, हिंदी, हिंग्लिश, कन्नड़, मराठी, ओडिया, तेलुगु, गुजराती, मलयालम, पंजाबी और तमिल में लिखे गए हैं. ध्यान दें: बातचीत में कोड-स्विचिंग की व्यापकता को देखते हुए हमने विशेष रूप से हिंग्लिश को जोड़ा है.

प्रत्येक डेटा पॉइंट में एक भारतीय भाषा में सांस्कृतिक रूप से आधारित प्रॉम्प्ट, ऑडिटेबिलिटी के लिए एक अंग्रेज़ी अनुवाद, ग्रेडिंग के लिए रूब्रिक क्राइटेरिया, और एक आदर्श उत्तर शामिल होता है जो विशेषज्ञों की अपेक्षाओं को दर्शाता है.

मूल्यांकन प्रक्रिया को दर्शाने वाला आरेख: एक उदाहरण उपयोगकर्ता-सहायक वार्तालाप, एक उम्मीदवार प्रतिक्रिया, और मापदंडों के अनुसार प्रतिक्रिया को स्कोर करने के लिए उपयोग की जाने वाली रूब्रिक तालिका.

IndQA रूब्रिक-आधारित दृष्टिकोण का उपयोग करता है. प्रत्येक रिस्पांस को उस विशेष प्रश्न के लिए डोमेन विशेषज्ञों द्वारा लिखे गए मानदंडों के आधार पर ग्रेड किया जाता है. मापदंड स्पष्ट करते हैं कि आदर्श उत्तर में क्या शामिल होना चाहिए या क्या नहीं होना चाहिए, और प्रत्येक को उसके महत्व के आधार पर एक भारित अंक मान दिया जाता है. मॉडल-आधारित ग्रेडर यह जाँचता है कि प्रत्येक मापदंड पूरा हुआ है या नहीं. अंतिम स्कोर, कुल संभव मानदंडों में से संतुष्ट किए गए अंकों का योग होता है.

हमने IndQA का निर्माण कैसे किया

विशेषज्ञों द्वारा लिखे गए प्रश्न. हमने भारत में 10 विभिन्न क्षेत्रों में विशेषज्ञों को खोजने के लिए साझेदारों के साथ काम किया.उन्होंने अपने क्षेत्रों और विशेषताओं से जुड़े कठिन, तर्क-आधारित प्रॉम्प्ट का मसौदा तैयार किया.ये विशेषज्ञ प्रासंगिक भाषा (और अंग्रेजी) के मूल-स्तरीय वक्ता हैं और गहन विषय विशेषज्ञता रखते हैं.
एडवर्सरियल फ़िल्टरिंग: प्रत्येक प्रश्न का परीक्षण OpenAI के सबसे मजबूत मॉडलों के निर्माण के समय किया गया था: GPT‑4o, OpenAI o3, GPT‑4.5, और (आंशिक रूप से, सार्वजनिक लॉन्च के बाद) GPT‑5.हमने केवल उन्हीं प्रश्नों को रखा, जहाँ इन मॉडलों के बहुमत ने स्वीकार्य उत्तर देने में असफलता दिखाई, जिससे प्रगति के लिए स्थान सुरक्षित रहा
विस्तृत मानदंड. प्रत्येक प्रश्न के साथ, डोमेन विशेषज्ञों ने मॉडल रिस्पांस को ग्रेड करने के लिए उपयोग किए गए मानदंड प्रदान किए, जो एक निबंध प्रश्न के लिए परीक्षा रूब्रिक के समान है. इन मानदंडों का उपयोग उम्मीदवार मॉडलों के उत्तरों को ग्रेड करने के लिए किया जाता है.
आदर्श उत्तर + समीक्षा. विशेषज्ञों ने आदर्श उत्तर और अंग्रेज़ी अनुवाद जोड़े, इसके बाद सहकर्मी समीक्षा और साइन-ऑफ़ होने तक क्रमिक सुधार किए.

उदाहरण प्रश्न

भाषा: बंगाली

डोमेन: साहित्य एवं भाषाविज्ञान

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

डोमेन: भोजन और पाक कला

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

समय के साथ विकास

हम IndQA का इस्तेमाल करते हैं ये इवैल्यूएट करने के लिए कि हालिया फ्रंटियर मॉडल्स कैसा परफ़ॉर्म करते हैं और पिछले कुछ सालों में प्रोग्रेस का चार्ट तैयार करते हैं. IndQA के साथ हम देख सकते हैं कि समय के साथ भारतीय भाषाओं में OpenAI के मॉडल में काफी सुधार हुआ है (सीमाओं⁠ के साथ), लेकिन फिर भी उनमें सुधार की पर्याप्त गुंजाइश है. हम परफ़ॉर्मेंस को बेहतर बनाने और भविष्य के मॉडल के लिए परिणाम साझा करने के लिए उत्सुक हैं.

हम भाषा और डोमेन के अनुसार IndQA पर प्रदर्शन का स्तरीकरण भी करते हैं, जहाँ GPT‑5 थिंकिंग हाई की तुलना अन्य अग्रणी मॉडलों से की जाती है.

महत्वपूर्ण नोट्स

क्योंकि प्रश्न सभी भाषाओं में समान नहीं होते हैं, IndQA कोई भाषा लीडरबोर्ड नहीं है; क्रॉस-भाषा स्कोर की व्याख्या भाषा क्षमता की सीधी तुलना के रूप में नहीं की जानी चाहिए. इसके बजाय, हम एक मॉडल परिवार या कॉन्फ़िगरेशन के भीतर समय के साथ सुधार को मापने के लिए IndQA का उपयोग करने की योजना बना रहे हैं.

इसके अलावा, क्योंकि प्रश्नों को उन GPT‑4o, OpenAI o3, GPT‑4.5, और (सार्वजनिक लॉन्च के बाद) GPT‑5 के लिए फ़िल्टर किया गया था जो पर्याप्त उत्तर नहीं दे सके, इसलिए प्रश्न चयन इन मॉडलों के खिलाफ प्रतिकूल है.यह संभावित रूप से GPT‑5 के सापेक्ष प्रदर्शन को उलझा सकता है, और गैर-OpenAI मॉडल की तुलना में सभी OpenAI मॉडल को नुकसान पहुँचा सकता है.

IndQA को बनाने वाले विशेषज्ञ

हम 261 भारतीय विशेषज्ञों के आभारी हैं—पत्रकार, भाषाविद, विद्वान, कलाकार, और उद्योग से जुड़े लोग—जिन्होंने IndQA के लिए प्रश्नों को लिखा और उनकी समीक्षा की.हम जिन विशेषज्ञों के साथ काम कर चुके हैं, उनमें से कुछ उदाहरण इस प्रकार हैं:

750 से ज़्यादा फ़िल्मों के साथ नंदी पुरस्कार विजेता तेलुगु अभिनेता और पटकथा लेखक
एक मराठी पत्रकार और तरुण भारत के संपादक
कन्नड़ भाषा विज्ञान के विद्वान और शब्दकोश संपादक
एक अंतरराष्ट्रीय शतरंज ग्रैंडमास्टर जो शीर्ष 100 शतरंज खिलाड़ियों को प्रशिक्षित करता है
एक तमिल लेखक, कवि, और सांस्कृतिक कार्यकर्ता, जो सामाजिक न्याय, जातिगत समानता और साहित्यिक स्वतंत्रता की वकालत करते हैं
एक पुरस्कार विजेता पंजाबी संगीतकार
एक गुजराती विरासत क्यूरेटर और संरक्षण विशेषज्ञ
एक पुरस्कार विजेता मलयालम कवि और प्रदर्शन कलाकार
इतिहास के प्रोफेसर, जो बंगाल की समृद्ध सांस्कृतिक विरासत में विशेषज्ञता रखते हैं
वास्तुकला के एक प्रोफेसर, जो ओडिशा के मंदिरों पर ध्यान केंद्रित कर रहे हैं

अगले स्टेप्स

हमें उम्मीद है कि IndQA की रिलीज़ अनुसंधान समुदाय को नए बेंचमार्क बनाने के लिए सूचित और प्रेरित करेगी.IndQA शैली के प्रश्न विशेष रूप से उन भाषाओं या सांस्कृतिक डोमेन में मूल्यवान होते हैं जो मौजूदा एआई बेंचमार्क द्वारा अच्छी तरह से कवर नहीं किए गए हैं.IndQA के समान बेंचमार्क बनाने से AI अनुसंधान प्रयोगशालाओं को उन भाषाओं और डोमेन मॉडलों के बारे में अधिक जानने में मदद मिल सकती है, जिनके साथ वे आज संघर्ष कर रहे हैं, और यह भविष्य में सुधार के लिए एक दिशा-निर्देशक तारा प्रदान कर सकता है.

लेखक

OpenAI

पढ़ते रहें

सभी देखें

GPT-5.6: अत्याधुनिक इंटेलिजेंस, जो आपकी महत्वाकांक्षा के साथ स्केल होती है

प्रोडक्ट9 जुलाई 2026

कोडिंग मूल्यांकनों में संकेत को शोर से अलग करना

रिसर्च8 जुलाई 2026

GPT-Live का परिचय

प्रोडक्ट8 जुलाई 2026