મુખ્ય વિષય-સામગ્રી પર જાવો
OpenAI

3 નવેમ્બર, 2025

સંશોધનરિલીઝ

IndQA પરિચય

ભારતીય સંસ્કૃતિ અને ભાષાઓ પર AI સિસ્ટમોનું મૂલ્યાંકન કરવા માટેનું નવું બેન્ચમાર્ક.

ગોળ ખૂણાવાળા ચોરસ બટનોની 3x4 ગ્રીડ, જેમાં દરેકમાં અલગ ભારતીય લિપિ અથવા લેટિન આલ્ફાબેટનો એક અક્ષર છે. અક્ષરોમાં બંગાળી (অ), અંગ્રેજી (En), હિન્દી (ह), કન્નડ (Hi) અને અન્ય વિવિધ ભારતીય ભાષાઓનું પ્રતિનિધિત્વ કરતા અક્ષરો સમાવેશ થાય છે, જે આછા ધૂળિયા પૃષ્ઠભૂમિ પર મૂકાયેલા છે. ચિત્ર બહુભાષી સપોર્ટ અથવા ભાષા પસંદગી સૂચવે છે.
લોડિંગ…

અમારું મિશન એ છે કે AGIનો લાભ સમગ્ર માનવજાતને મળે. જો AI દરેક માટે ઉપયોગી બનવાનું હોય, તો તેને ભાષાઓ અને સંસ્કૃતિઓમાં સારી રીતે કાર્ય કરવું જરૂરી છે. વિશ્વભરમાં આશરે 80 ટકા લોકો અંગ્રેજીને તેમની મુખ્ય ભાષા તરીકે બોલતા નથી, છતાં અંગ્રેજી સિવાયની ભાષાક્ષમતાઓ માપતા મોટા ભાગના વર્તમાન બેન્ચમાર્ક પૂરતા પડતા નથી.

MMMLU(નવી વિન્ડોમાં ખૂલે છે) જેવા હાલના બહુભાષી બેન્ચમાર્ક હવે સંતૃપ્ત થઈ ગયા છે. શ્રેષ્ઠ મોડલ્સ ઊંચા સ્કોરની આસપાસ ગોઠવાઈ જાય છે, તેથી વાસ્તવિક પ્રગતિ માપવામાં તેઓ ઓછા ઉપયોગી રહે છે. ઉપરાંત, વર્તમાન બેન્ચમાર્ક મોટેભાગે અનુવાદ અથવા બહુવિકલ્પી કાર્યો પર ધ્યાન આપે છે. તેઓ AI સિસ્ટમની ભાષાક્ષમતાઓનું મૂલ્યાંકન કરવા ખરેખર જે મહત્વનું છે તેને પૂરતું પકડતા નથી. સંદર્ભ, સંસ્કૃતિ, ઇતિહાસ અને લોકો જ્યાં રહે છે ત્યાં તેમના માટે મહત્વની બાબતોની સમજ.

એટલા માટે અમે IndQA બનાવ્યું. આ એક નવું બેન્ચમાર્ક છે, જે વિવિધ સાંસ્કૃતિક ક્ષેત્રોમાં ભારતીય ભાષાઓમાં મહત્વના પ્રશ્નોને AI મોડલ્સ કેટલા સારી રીતે સમજે છે અને તેના વિશે કેવી રીતે રિઝનિંગ કરે છે તેનું મૂલ્યાંકન કરવા માટે ડિઝાઇન કરવામાં આવ્યું છે. ભલે અમારો હેતુ અન્ય ભાષાઓ અને પ્રદેશો માટે પણ આવા બેન્ચમાર્ક બનાવવા નો હોય, ભારત સ્પષ્ટ શરૂઆતનું સ્થાન છે. ભારતમાં લગભગ એક અબજ લોકો છે જે અંગ્રેજીને તેમની મુખ્ય ભાષા તરીકે ઉપયોગ કરતા નથી, 22 સત્તાવાર ભાષાઓ છે, જેમાં ઓછામાં ઓછી સાતમાં 50 મિલિયનથી વધુ વક્તાઓ છે, અને ChatGPT માટે ભારત બીજું સૌથી મોટું બજાર છે.

આ કાર્ય ભારતીય વપરાશકર્તાઓ માટે અમારા ઉત્પાદનો અને સાધનો સુધારવાની અને દેશભરમાં અમારી ટેક્નોલોજીને વધુ સુલભ બનાવવાની અમારી સતત પ્રતિબદ્ધતાનો ભાગ છે.

તે કેવી રીતે કાર્ય કરે છે

IndQA ભારતીય ભાષાઓમાં ભારતીય સંસ્કૃતિ અને દૈનિક જીવન વિશેના જ્ઞાન અને રિઝનિંગનું મૂલ્યાંકન કરે છે. તેમાં 12 ભાષાઓ અને 10 સાંસ્કૃતિક ડોમેનમાં કુલ 2,278 પ્રશ્નો આવરી લેવાયા છે, જે સમગ્ર ભારતના 261 ડોમેન નિષ્ણાતો સાથે ભાગીદારીમાં બનાવાયા છે. MMMLU અને MGSM જેવા વર્તમાન બેન્ચમાર્કથી અલગ, તે સાંસ્કૃતિક રીતે સૂક્ષ્મ અને રિઝનિંગ-કેન્દ્રિત કાર્યોને તપાસવા માટે રચાયેલ છે, જેને વર્તમાન મૂલ્યાંકનો સારી રીતે પકડી શકતા નથી.

IndQA સાંસ્કૃતિક રીતે સંબંધિત વિષયોની વિશાળ શ્રેણી આવરી લે છે, જેમ કે સ્થાપત્ય અને ડિઝાઇન, કલા અને સંસ્કૃતિ, દૈનિક જીવન, ખોરાક અને ભોજનકળા, ઇતિહાસ, કાયદો અને નૈતિકતા, સાહિત્ય અને ભાષાવિજ્ઞાન, મીડિયા અને મનોરંજન, ધર્મ અને આધ્યાત્મિકતા, અને રમતગમત અને મનોરંજનાત્મક પ્રવૃત્તિઓ. જેમાં પ્રશ્નો મૂળરૂપે બંગાળી, અંગ્રેજી, હિન્દી, હિંગ્લિશ, કન્નડ, મરાઠી, ઓડિયા, તેલુગુ, ગુજરાતી, મલયાલમ, પંજાબી, અને તમિલમાં લખાયા છે. નોંધ: સંવાદોમાં કોડ-સ્વિચિંગના પ્રચલનને ધ્યાનમાં રાખીને અમે ખાસ કરીને હિંગ્લિશ ઉમેર્યું છે.

દરેક ડેટાપોઇન્ટમાં ભારતીય ભાષામાં સાંસ્કૃતિક રીતે આધારિત પ્રોમ્પ્ટ, ઓડિટ કરી શકાય તે માટે અંગ્રેજી અનુવાદ, મૂલ્યાંકન માટે રૂબ્રિક માપદંડ, અને નિષ્ણાતોની અપેક્ષાઓ દર્શાવતો આદર્શ જવાબ સમાવેશ થાય છે.

મૂલ્યાંકન પ્રક્રિયા દર્શાવતું આકૃતિચિત્ર: ઉદાહરણરૂપ વપરાશકર્તા-સહાયક સંવાદ, ઉમેદવાર જવાબ, અને માપદંડ મુજબ જવાબને સ્કોર કરવા ઉપયોગમાં લેવાતી રૂબ્રિક કોષ્ટક.

IndQA રૂબ્રિક આધારિત અભિગમનો ઉપયોગ કરે છે. દરેક જવાબનું મૂલ્યાંકન તે વિશિષ્ટ પ્રશ્ન માટે ડોમેન નિષ્ણાતો દ્વારા લખાયેલા માપદંડો સામે થાય છે. આ માપદંડો દર્શાવે છે કે આદર્શ જવાબમાં શું સમાવેશ થવો જોઈએ અથવા શું ટાળવું જોઈએ, અને દરેકને તેના મહત્વના આધારે વજનિત પોઇન્ટ મૂલ્ય આપવામાં આવે છે. મોડલ આધારિત ગ્રેડર તપાસે છે કે દરેક માપદંડ પૂર્ણ થાય છે કે નહીં. અંતિમ સ્કોર કુલ સંભવિત પોઇન્ટમાંથી પૂર્ણ થયેલા માપદંડોના પોઇન્ટના કુલ સરવાળાથી નક્કી થાય છે.

અમે IndQA કેવી રીતે બનાવ્યું

  • નિષ્ણાતો દ્વારા લખાયેલા પ્રશ્નો. અમે ભાગીદારો સાથે મળીને ભારતમાં 10 અલગ-અલગ ડોમેનના નિષ્ણાતોને શોધ્યા. તેમણે તેમના પ્રદેશો અને વિશેષતાઓ સાથે જોડાયેલા મુશ્કેલ, રિઝનિંગ-કેન્દ્રિત પ્રોમ્પ્ટ તૈયાર કર્યા. આ નિષ્ણાતો સંબંધિત ભાષાના, તેમજ અંગ્રેજીના, મૂળ-સ્તરના વક્તા છે અને ઊંડો વિષયજ્ઞાન ધરાવે છે.
  • પ્રતિસ્પર્ધી ફિલ્ટરિંગ: દરેક પ્રશ્ન તેની રચના સમયે OpenAIના સૌથી શક્તિશાળી મોડલ્સ સામે પરીક્ષણ કરવામાં આવ્યો હતો: GPT‑4o, OpenAI o3, GPT‑4.5, અને જાહેર લોન્ચ પછી અંશતઃ GPT‑5. અમે ફક્ત એ જ પ્રશ્નો રાખ્યા જેમાં આ મોડલ્સમાંના બહુમતી સ્વીકાર્ય જવાબ આપવામાં નિષ્ફળ ગઈ, જેથી પ્રગતિ માટે પૂરતી જગ્યા જળવાઈ રહે.
  • વિગતવાર માપદંડ. દરેક પ્રશ્ન સાથે, ડોમેન નિષ્ણાતોએ મોડલના જવાબનું મૂલ્યાંકન કરવા માટેના માપદંડો આપ્યા, જે નિબંધ આધારિત પરીક્ષાના રૂબ્રિક જેવા છે. આ માપદંડો ઉમેદવાર મોડલ્સના જવાબોનું મૂલ્યાંકન કરવા માટે વપરાય છે.
  • આદર્શ જવાબો + સમીક્ષા. નિષ્ણાતોએ આદર્શ જવાબો અને અંગ્રેજી અનુવાદ ઉમેર્યા, ત્યારબાદ પિયર રિવ્યૂ અને પુનરાવર્તિત સુધારાઓ થયા, જ્યાં સુધી અંતિમ મંજૂરી મળી નહીં.

ઉદાહરણ પ્રશ્નો

ભાષા: બંગાળી

ડોમેન: સાહિત્ય અને ભાષાવિજ્ઞાન

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

ડોમેન: ખોરાક અને ભોજનકળા

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

સમય સાથે સુધારા

અમે IndQAનો ઉપયોગ તાજેતરના અત્યાધુનિક મોડલ્સ કેવી રીતે પ્રદર્શન કરે છે તે માપવા અને છેલ્લા કેટલાક વર્ષોમાં થયેલી પ્રગતિ દર્શાવવા માટે કરીએ છીએ. IndQA દ્વારા આપણે જોઈ શકીએ છીએ કે OpenAIના મોડલ્સ ભારતીય ભાષાઓમાં સમય સાથે નોંધપાત્ર રીતે સુધર્યા છે, જોકે કેવિયેટ્સ છે, પરંતુ સુધારાની હજુ પણ ઘણી જગ્યા બાકી છે. અમે પ્રદર્શન સુધારવાની અને ભવિષ્યના મોડલ્સ માટે પરિણામો શેર કરવાની રાહ જોઈ રહ્યા છીએ.

અમે નીચે ભાષા અને ડોમેન પ્રમાણે IndQA પરનું પ્રદર્શન પણ વહેંચીએ છીએ, જેમાં GPT‑5 Thinking Highની સરખામણી અન્ય અત્યાધુનિક મોડલ્સ સાથે કરીએ છીએ.

કેવિયેટ્સ

કારણ કે પ્રશ્નો ભાષાઓ વચ્ચે એકસરખા નથી, IndQA ભાષા લીડરબોર્ડ નથી. અલગ-અલગ ભાષાના સ્કોરને ભાષાક્ષમતાની સીધી સરખામણી તરીકે સમજવા જોઈએ નહીં. તેના બદલે, અમે મોડલ પરિવાર અથવા રૂપરેખા અંદર સમય સાથેનો સુધારો માપવા માટે IndQAનો ઉપયોગ કરવાની યોજના ધરાવીએ છીએ.

વધુમાં, કારણ કે પ્રશ્નો એવા પસંદ કરવામાં આવ્યા હતા કે જેમના પૂરતા જવાબ GPT‑4o, OpenAI o3, GPT‑4.5 અને જાહેર લોન્ચ પછી GPT‑5 આપી શક્યા નહોતા, પ્રશ્નોની પસંદગી આ મોડલ્સ સામે પ્રતિસ્પર્ધી છે. આ સંજોગો GPT‑5ના સાપેક્ષ પ્રદર્શનને ગૂંચવી શકે છે અને OpenAI સિવાયના મોડલ્સની સરખામણીએ OpenAIના તમામ મોડલ્સને ગેરલાભમાં મૂકી શકે છે.

IndQA પાછળના નિષ્ણાતો

IndQA માટે પ્રશ્નો લખનાર અને સમીક્ષા કરનાર 261 ભારતીય નિષ્ણાતો—પત્રકારો, ભાષાવિજ્ઞાનીઓ, વિદ્વાનો, કલાકારો અને ઉદ્યોગ વ્યવસાયીઓ—પ્રતિ અમે આભારી છીએ. અમે જેમની સાથે કામ કર્યું તેમના કેટલાક ઉદાહરણો આ મુજબ છે:

  • 750થી વધુ ફિલ્મો ધરાવતા નંદી એવોર્ડ વિજેતા તેલુગુ અભિનેતા અને સ્ક્રીનરાઇટર
  • તરুণ ભારતના મરાઠી પત્રકાર અને સંપાદક
  • કન્નડ ભાષાવિજ્ઞાનના વિદ્વાન અને શબ્દકોશ સંપાદક
  • ટોપ-100 ચેસ ખેલાડીઓને તાલીમ આપતા આંતરરાષ્ટ્રીય ચેસ ગ્રાન્ડમાસ્ટર
  • સામાજિક ન્યાય, જાતિ સમાનતા અને સાહિત્યિક સ્વતંત્રતાના સમર્થક તમિલ લેખક, કવિ અને સાંસ્કૃતિક કાર્યકર
  • પુરસ્કાર વિજેતા પંજાબી સંગીત રચયિતા
  • ગુજરાતી વારસા ક્યુરેટર અને સંરક્ષણ નિષ્ણાત
  • પુરસ્કાર વિજેતા મલયાલમ કવિ અને પરફોર્મન્સ કલાકાર
  • બંગાળની સમૃદ્ધ સાંસ્કૃતિક વારસામાં વિશેષતા ધરાવતા ઇતિહાસના પ્રોફેસર
  • ઓડિશાના મંદિરો પર ધ્યાન કેન્દ્રિત કરતા સ્થાપત્યના પ્રોફેસર

આગલા પગલાં

અમને આશા છે કે IndQAનું પ્રકાશન સંશોધન સમુદાયને નવા બેન્ચમાર્ક બનાવવામાં માહિતીપ્રદ અને પ્રેરણાદાયક સાબિત થશે. IndQA પ્રકારના પ્રશ્નો ખાસ કરીને એવી ભાષાઓ અથવા સાંસ્કૃતિક ડોમેનમાં મૂલ્યવાન છે, જે હાલના AI બેન્ચમાર્કમાં ઓછા આવરી લેવાયા છે. IndQA જેવા સમાન બેન્ચમાર્ક બનાવવાથી AI સંશોધન પ્રયોગશાળાઓ આજે મોડલ્સને જ્યાં મુશ્કેલી પડે છે તેવી ભાષાઓ અને ડોમેન વિશે વધુ શીખી શકે છે, અને ભવિષ્યમાં સુધારા માટે દિશાસૂચક ધોરણ પૂરુ પાડી શકે છે.