
અમારું મિશન એ છે કે AGIનો લાભ સમગ્ર માનવજાતને મળે. જો AI દરેક માટે ઉપયોગી બનવાનું હોય, તો તેને ભાષાઓ અને સંસ્કૃતિઓમાં સારી રીતે કાર્ય કરવું જરૂરી છે. વિશ્વભરમાં આશરે 80 ટકા લોકો અંગ્રેજીને તેમની મુખ્ય ભાષા તરીકે બોલતા નથી, છતાં અંગ્રેજી સિવાયની ભાષાક્ષમતાઓ માપતા મોટા ભાગના વર્તમાન બેન્ચમાર્ક પૂરતા પડતા નથી.
MMMLU(નવી વિન્ડોમાં ખૂલે છે) જેવા હાલના બહુભાષી બેન્ચમાર્ક હવે સંતૃપ્ત થઈ ગયા છે. શ્રેષ્ઠ મોડલ્સ ઊંચા સ્કોરની આસપાસ ગોઠવાઈ જાય છે, તેથી વાસ્તવિક પ્રગતિ માપવામાં તેઓ ઓછા ઉપયોગી રહે છે. ઉપરાંત, વર્તમાન બેન્ચમાર્ક મોટેભાગે અનુવાદ અથવા બહુવિકલ્પી કાર્યો પર ધ્યાન આપે છે. તેઓ AI સિસ્ટમની ભાષાક્ષમતાઓનું મૂલ્યાંકન કરવા ખરેખર જે મહત્વનું છે તેને પૂરતું પકડતા નથી. સંદર્ભ, સંસ્કૃતિ, ઇતિહાસ અને લોકો જ્યાં રહે છે ત્યાં તેમના માટે મહત્વની બાબતોની સમજ.
એટલા માટે અમે IndQA બનાવ્યું. આ એક નવું બેન્ચમાર્ક છે, જે વિવિધ સાંસ્કૃતિક ક્ષેત્રોમાં ભારતીય ભાષાઓમાં મહત્વના પ્રશ્નોને AI મોડલ્સ કેટલા સારી રીતે સમજે છે અને તેના વિશે કેવી રીતે રિઝનિંગ કરે છે તેનું મૂલ્યાંકન કરવા માટે ડિઝાઇન કરવામાં આવ્યું છે. ભલે અમારો હેતુ અન્ય ભાષાઓ અને પ્રદેશો માટે પણ આવા બેન્ચમાર્ક બનાવવા નો હોય, ભારત સ્પષ્ટ શરૂઆતનું સ્થાન છે. ભારતમાં લગભગ એક અબજ લોકો છે જે અંગ્રેજીને તેમની મુખ્ય ભાષા તરીકે ઉપયોગ કરતા નથી, 22 સત્તાવાર ભાષાઓ છે, જેમાં ઓછામાં ઓછી સાતમાં 50 મિલિયનથી વધુ વક્તાઓ છે, અને ChatGPT માટે ભારત બીજું સૌથી મોટું બજાર છે.
આ કાર્ય ભારતીય વપરાશકર્તાઓ માટે અમારા ઉત્પાદનો અને સાધનો સુધારવાની અને દેશભરમાં અમારી ટેક્નોલોજીને વધુ સુલભ બનાવવાની અમારી સતત પ્રતિબદ્ધતાનો ભાગ છે.
IndQA ભારતીય ભાષાઓમાં ભારતીય સંસ્કૃતિ અને દૈનિક જીવન વિશેના જ્ઞાન અને રિઝનિંગનું મૂલ્યાંકન કરે છે. તેમાં 12 ભાષાઓ અને 10 સાંસ્કૃતિક ડોમેનમાં કુલ 2,278 પ્રશ્નો આવરી લેવાયા છે, જે સમગ્ર ભારતના 261 ડોમેન નિષ્ણાતો સાથે ભાગીદારીમાં બનાવાયા છે. MMMLU અને MGSM જેવા વર્તમાન બેન્ચમાર્કથી અલગ, તે સાંસ્કૃતિક રીતે સૂક્ષ્મ અને રિઝનિંગ-કેન્દ્રિત કાર્યોને તપાસવા માટે રચાયેલ છે, જેને વર્તમાન મૂલ્યાંકનો સારી રીતે પકડી શકતા નથી.
IndQA સાંસ્કૃતિક રીતે સંબંધિત વિષયોની વિશાળ શ્રેણી આવરી લે છે, જેમ કે સ્થાપત્ય અને ડિઝાઇન, કલા અને સંસ્કૃતિ, દૈનિક જીવન, ખોરાક અને ભોજનકળા, ઇતિહાસ, કાયદો અને નૈતિકતા, સાહિત્ય અને ભાષાવિજ્ઞાન, મીડિયા અને મનોરંજન, ધર્મ અને આધ્યાત્મિકતા, અને રમતગમત અને મનોરંજનાત્મક પ્રવૃત્તિઓ. જેમાં પ્રશ્નો મૂળરૂપે બંગાળી, અંગ્રેજી, હિન્દી, હિંગ્લિશ, કન્નડ, મરાઠી, ઓડિયા, તેલુગુ, ગુજરાતી, મલયાલમ, પંજાબી, અને તમિલમાં લખાયા છે. નોંધ: સંવાદોમાં કોડ-સ્વિચિંગના પ્રચલનને ધ્યાનમાં રાખીને અમે ખાસ કરીને હિંગ્લિશ ઉમેર્યું છે.
દરેક ડેટાપોઇન્ટમાં ભારતીય ભાષામાં સાંસ્કૃતિક રીતે આધારિત પ્રોમ્પ્ટ, ઓડિટ કરી શકાય તે માટે અંગ્રેજી અનુવાદ, મૂલ્યાંકન માટે રૂબ્રિક માપદંડ, અને નિષ્ણાતોની અપેક્ષાઓ દર્શાવતો આદર્શ જવાબ સમાવેશ થાય છે.
IndQA રૂબ્રિક આધારિત અભિગમનો ઉપયોગ કરે છે. દરેક જવાબનું મૂલ્યાંકન તે વિશિષ્ટ પ્રશ્ન માટે ડોમેન નિષ્ણાતો દ્વારા લખાયેલા માપદંડો સામે થાય છે. આ માપદંડો દર્શાવે છે કે આદર્શ જવાબમાં શું સમાવેશ થવો જોઈએ અથવા શું ટાળવું જોઈએ, અને દરેકને તેના મહત્વના આધારે વજનિત પોઇન્ટ મૂલ્ય આપવામાં આવે છે. મોડલ આધારિત ગ્રેડર તપાસે છે કે દરેક માપદંડ પૂર્ણ થાય છે કે નહીં. અંતિમ સ્કોર કુલ સંભવિત પોઇન્ટમાંથી પૂર્ણ થયેલા માપદંડોના પોઇન્ટના કુલ સરવાળાથી નક્કી થાય છે.
- નિષ્ણાતો દ્વારા લખાયેલા પ્રશ્નો. અમે ભાગીદારો સાથે મળીને ભારતમાં 10 અલગ-અલગ ડોમેનના નિષ્ણાતોને શોધ્યા. તેમણે તેમના પ્રદેશો અને વિશેષતાઓ સાથે જોડાયેલા મુશ્કેલ, રિઝનિંગ-કેન્દ્રિત પ્રોમ્પ્ટ તૈયાર કર્યા. આ નિષ્ણાતો સંબંધિત ભાષાના, તેમજ અંગ્રેજીના, મૂળ-સ્તરના વક્તા છે અને ઊંડો વિષયજ્ઞાન ધરાવે છે.
- પ્રતિસ્પર્ધી ફિલ્ટરિંગ: દરેક પ્રશ્ન તેની રચના સમયે OpenAIના સૌથી શક્તિશાળી મોડલ્સ સામે પરીક્ષણ કરવામાં આવ્યો હતો: GPT‑4o, OpenAI o3, GPT‑4.5, અને જાહેર લોન્ચ પછી અંશતઃ GPT‑5. અમે ફક્ત એ જ પ્રશ્નો રાખ્યા જેમાં આ મોડલ્સમાંના બહુમતી સ્વીકાર્ય જવાબ આપવામાં નિષ્ફળ ગઈ, જેથી પ્રગતિ માટે પૂરતી જગ્યા જળવાઈ રહે.
- વિગતવાર માપદંડ. દરેક પ્રશ્ન સાથે, ડોમેન નિષ્ણાતોએ મોડલના જવાબનું મૂલ્યાંકન કરવા માટેના માપદંડો આપ્યા, જે નિબંધ આધારિત પરીક્ષાના રૂબ્રિક જેવા છે. આ માપદંડો ઉમેદવાર મોડલ્સના જવાબોનું મૂલ્યાંકન કરવા માટે વપરાય છે.
- આદર્શ જવાબો + સમીક્ષા. નિષ્ણાતોએ આદર્શ જવાબો અને અંગ્રેજી અનુવાદ ઉમેર્યા, ત્યારબાદ પિયર રિવ્યૂ અને પુનરાવર્તિત સુધારાઓ થયા, જ્યાં સુધી અંતિમ મંજૂરી મળી નહીં.
ભાષા: બંગાળી
ડોમેન: સાહિત્ય અને ભાષાવિજ્ઞાન
ડોમેન: ખોરાક અને ભોજનકળા
અમે IndQAનો ઉપયોગ તાજેતરના અત્યાધુનિક મોડલ્સ કેવી રીતે પ્રદર્શન કરે છે તે માપવા અને છેલ્લા કેટલાક વર્ષોમાં થયેલી પ્રગતિ દર્શાવવા માટે કરીએ છીએ. IndQA દ્વારા આપણે જોઈ શકીએ છીએ કે OpenAIના મોડલ્સ ભારતીય ભાષાઓમાં સમય સાથે નોંધપાત્ર રીતે સુધર્યા છે, જોકે કેવિયેટ્સ છે, પરંતુ સુધારાની હજુ પણ ઘણી જગ્યા બાકી છે. અમે પ્રદર્શન સુધારવાની અને ભવિષ્યના મોડલ્સ માટે પરિણામો શેર કરવાની રાહ જોઈ રહ્યા છીએ.
અમે નીચે ભાષા અને ડોમેન પ્રમાણે IndQA પરનું પ્રદર્શન પણ વહેંચીએ છીએ, જેમાં GPT‑5 Thinking Highની સરખામણી અન્ય અત્યાધુનિક મોડલ્સ સાથે કરીએ છીએ.
કારણ કે પ્રશ્નો ભાષાઓ વચ્ચે એકસરખા નથી, IndQA ભાષા લીડરબોર્ડ નથી. અલગ-અલગ ભાષાના સ્કોરને ભાષાક્ષમતાની સીધી સરખામણી તરીકે સમજવા જોઈએ નહીં. તેના બદલે, અમે મોડલ પરિવાર અથવા રૂપરેખા અંદર સમય સાથેનો સુધારો માપવા માટે IndQAનો ઉપયોગ કરવાની યોજના ધરાવીએ છીએ.
વધુમાં, કારણ કે પ્રશ્નો એવા પસંદ કરવામાં આવ્યા હતા કે જેમના પૂરતા જવાબ GPT‑4o, OpenAI o3, GPT‑4.5 અને જાહેર લોન્ચ પછી GPT‑5 આપી શક્યા નહોતા, પ્રશ્નોની પસંદગી આ મોડલ્સ સામે પ્રતિસ્પર્ધી છે. આ સંજોગો GPT‑5ના સાપેક્ષ પ્રદર્શનને ગૂંચવી શકે છે અને OpenAI સિવાયના મોડલ્સની સરખામણીએ OpenAIના તમામ મોડલ્સને ગેરલાભમાં મૂકી શકે છે.
IndQA માટે પ્રશ્નો લખનાર અને સમીક્ષા કરનાર 261 ભારતીય નિષ્ણાતો—પત્રકારો, ભાષાવિજ્ઞાનીઓ, વિદ્વાનો, કલાકારો અને ઉદ્યોગ વ્યવસાયીઓ—પ્રતિ અમે આભારી છીએ. અમે જેમની સાથે કામ કર્યું તેમના કેટલાક ઉદાહરણો આ મુજબ છે:
- 750થી વધુ ફિલ્મો ધરાવતા નંદી એવોર્ડ વિજેતા તેલુગુ અભિનેતા અને સ્ક્રીનરાઇટર
- તરুণ ભારતના મરાઠી પત્રકાર અને સંપાદક
- કન્નડ ભાષાવિજ્ઞાનના વિદ્વાન અને શબ્દકોશ સંપાદક
- ટોપ-100 ચેસ ખેલાડીઓને તાલીમ આપતા આંતરરાષ્ટ્રીય ચેસ ગ્રાન્ડમાસ્ટર
- સામાજિક ન્યાય, જાતિ સમાનતા અને સાહિત્યિક સ્વતંત્રતાના સમર્થક તમિલ લેખક, કવિ અને સાંસ્કૃતિક કાર્યકર
- પુરસ્કાર વિજેતા પંજાબી સંગીત રચયિતા
- ગુજરાતી વારસા ક્યુરેટર અને સંરક્ષણ નિષ્ણાત
- પુરસ્કાર વિજેતા મલયાલમ કવિ અને પરફોર્મન્સ કલાકાર
- બંગાળની સમૃદ્ધ સાંસ્કૃતિક વારસામાં વિશેષતા ધરાવતા ઇતિહાસના પ્રોફેસર
- ઓડિશાના મંદિરો પર ધ્યાન કેન્દ્રિત કરતા સ્થાપત્યના પ્રોફેસર
અમને આશા છે કે IndQAનું પ્રકાશન સંશોધન સમુદાયને નવા બેન્ચમાર્ક બનાવવામાં માહિતીપ્રદ અને પ્રેરણાદાયક સાબિત થશે. IndQA પ્રકારના પ્રશ્નો ખાસ કરીને એવી ભાષાઓ અથવા સાંસ્કૃતિક ડોમેનમાં મૂલ્યવાન છે, જે હાલના AI બેન્ચમાર્કમાં ઓછા આવરી લેવાયા છે. IndQA જેવા સમાન બેન્ચમાર્ક બનાવવાથી AI સંશોધન પ્રયોગશાળાઓ આજે મોડલ્સને જ્યાં મુશ્કેલી પડે છે તેવી ભાષાઓ અને ડોમેન વિશે વધુ શીખી શકે છે, અને ભવિષ્યમાં સુધારા માટે દિશાસૂચક ધોરણ પૂરુ પાડી શકે છે.


