
Il-missjoni tagħna hi li nagħmlu l-AGI jibbenefika lill-umanità kollha. Jekk l-IA se tkun utli għal kulħadd, trid taħdem tajjeb bejn lingwi u kulturi differenti. Madwar 80 fil-mija tan-nies madwar id-dinja ma jitkellmux bl-Ingliż bħala l-lingwa primarja tagħhom, iżda l-biċċa l-kbira tal-benchmarks eżistenti li jkejlu l-kapaċitajiet f’lingwi mhux bl-Ingliż mhumiex biżżejjed.
Benchmarks multilingwi eżistenti bħal MMMLU(jinfetaħ f’tieqa ġdida) issa huma saturati—l-aqwa mudelli jinġabru qrib punteġġi għoljin—u dan jagħmilhom inqas utli biex jitkejjel il-progress reali. Barra minn hekk, il-benchmarks attwali l-aktar jiffukaw fuq traduzzjoni jew kompiti b’għażla multipla. Huma ma jaqbdux biżżejjed dak li verament jgħodd biex tiġi evalwata l-kapaċità lingwistika ta’ sistema tal-IA—li tifhem il-kuntest, il-kultura, l-istorja, u l-affarijiet li jimportaw lin-nies fejn jgħixu.
Għalhekk bnejna IndQA, benchmark ġdid iddisinjat biex jevalwa kemm il-mudelli tal-IA jifhmu u jirraġunaw dwar mistoqsijiet li jgħoddu fil-lingwi Indjani, fuq firxa wiesgħa ta’ dominji kulturali. Filwaqt li l-għan tagħna hu li noħolqu benchmarks simili għal lingwi u reġjuni oħra, l-Indja hija punt tat-tluq ovvju. L-Indja għandha madwar biljun persuna li ma jużawx l-Ingliż bħala l-lingwa primarja tagħhom, 22 lingwa uffiċjali (inklużi mill-inqas sebgħa b’aktar minn 50 miljun kelliem), u hija t-tieni l-akbar suq ta’ ChatGPT.
Dan ix-xogħol huwa parti mill-impenn kontinwu tagħna biex intejbu l-prodotti u l-għodod tagħna għall-utenti fl-Indja, u biex nagħmlu t-teknoloġija tagħna aktar aċċessibbli madwar il-pajjiż kollu.
IndQA jevalwa l-għarfien u r-raġunament dwar il-kultura Indjana u l-ħajja ta’ kuljum fil-lingwi Indjani. Jinkludi 2,278 mistoqsija f’12-il lingwa u 10 dominji kulturali, maħluqa fi sħubija ma’ 261 espert tad-dominju minn madwar l-Indja kollha. B’differenza minn benchmarks eżistenti bħal MMMLU u MGSM, huwa mfassal biex jesplora kompiti b’sfumaturi kulturali u b’ħtieġa qawwija ta’ raġunament li l-evalwazzjonijiet eżistenti jsibuha diffiċli jaqbdu.
IndQA jkopri firxa wiesgħa ta’ suġġetti kulturalment rilevanti, bħal Arkitettura u Disinn, Arti u Kultura, Ħajja ta’ Kuljum, Ikel u Kċina, Storja, Liġi u Etika, Letteratura u Lingwistika, Midja u Divertiment, Reliġjon u Spiritwalità, u Sport u Rikreazzjoni—b’oġġetti miktuba b’mod nattiv bil-Bengali, Ingliż, Ħindi, Hinglish, Kannada, Marathi, Odia, Telugu, Gujarati, Malayalam, Punjabi, u Tamil. Nota: Żidna speċifikament il-Hinglish minħabba l-prevalenza tal-code-switching fil-konversazzjonijiet.
Kull datapoint jinkludi prompt ibbażat fil-kultura f’lingwa Indjana, traduzzjoni bl-Ingliż għall-awditabbiltà, kriterji tar-rubrika għall-għoti tal-marki, u tweġiba ideali li tirrifletti l-aspettattivi tal-esperti.
IndQA juża approċċ ibbażat fuq rubrika. Kull tweġiba tingħata marka skont kriterji miktuba minn esperti tad-dominju għal dik il-mistoqsija speċifika. Il-kriterji jispjegaw x’għandha tinkludi jew tevita tweġiba ideali, u kull wieħed jingħata valur ta’ punti ppeżat skont l-importanza tiegħu. Grader ibbażat fuq mudell jiċċekkja jekk kull kriterju jkunx intlaħaq. Il-punteġġ finali huwa s-somma tal-punti għall-kriterji sodisfatti mit-total possibbli.
- Mistoqsijiet miktuba minn esperti. Ħdimna ma’ sħab biex insibu esperti fl-Indja f’10 dominji differenti. Huma abbozzaw prompts diffiċli, iffukati fuq ir-raġunament, marbuta mar-reġjuni u l-ispeċjalitajiet tagħhom. Dawn l-esperti huma kelliema fil-livell nattiv tal-lingwa rilevanti (u tal-Ingliż) u jġibu magħhom għarfien profond tas-suġġett.
- Iffiltrar avversarju: Kull mistoqsija ġiet ittestjata kontra l-aktar mudelli b’saħħithom ta’ OpenAI fiż-żmien tal-ħolqien tagħhom: GPT‑4o, OpenAI o3, GPT‑4.5, u (parzjalment, wara t-tnedija pubblika) GPT‑5. Żammejna biss dawk il-mistoqsijiet fejn il-maġġoranza ta’ dawn il-mudelli naqsu milli jipproduċu tweġibiet aċċettabbli, biex inżommu spazju għal progress
- Kriterji dettaljati. Flimkien ma’ kull mistoqsija, l-esperti tad-dominju pprovdew kriterji użati biex tingħata marka lit-tweġiba tal-mudell, simili għal rubrika ta’ eżami għal mistoqsija ta’ komponiment. Dawn il-kriterji jintużaw biex jingħataw marki lit-tweġibiet minn mudelli kandidati.
- Tweġibiet ideali + reviżjoni. L-esperti żiedu tweġibiet ideali u traduzzjonijiet bl-Ingliż, segwiti minn peer review u tiswijiet iterattivi sakemm ingħata l-approvazzjoni finali.
Lingwa: Bengali
Dominju: Letteratura u lingwistika
Dominju: Ikel u kċina
Nużaw IndQA biex nevalwaw kif iwettqu l-mudelli fruntiera reċenti u biex nippjanaw il-progress matul dawn l-aħħar ftit snin. Bl-IndQA nistgħu naraw li l-mudelli ta’ OpenAI tjiebu b’mod sinifikanti maż-żmien fil-lingwi Indjani (b’twissijiet), iżda għad fadlilhom spazju sostanzjali għal titjib. Nistennew bil-ħerqa li ntejbu l-prestazzjoni u naqsmu r-riżultati għal mudelli futuri.
Aħna nissegmentaw ukoll il-prestazzjoni fuq IndQA skont il-Lingwa u d-Dominju hawn taħt, billi nqabblu GPT‑5 Thinking High ma’ mudelli oħra fruntiera.
Minħabba li l-mistoqsijiet mhumiex identiċi bejn il-lingwi, IndQA mhuwiex leaderboard tal-lingwi; punteġġi bejn lingwa u oħra m’għandhomx jiġu interpretati bħala tqabbil dirett tal-ħila lingwistika. Minflok, qed nippjanaw li nużaw IndQA biex inkejlu titjib maż-żmien fi ħdan familja ta’ mudelli jew konfigurazzjoni.
Barra minn hekk, minħabba li l-mistoqsijiet ġew iffiltrati għal dawk li GPT‑4o, OpenAI o3, GPT‑4.5, u (wara t-tnedija pubblika) GPT‑5 ma setgħux iwieġbu biżżejjed, l-għażla tal-mistoqsijiet hija avversarja kontra dawn il-mudelli. Dan jista’ jħawwad il-prestazzjoni relattiva ta’ GPT‑5, u jista’ jqiegħed lill-mudelli kollha ta’ OpenAI fi żvantaġġ meta mqabbla ma’ mudelli mhux ta’ OpenAI.
Aħna grati lejn il-261 espert Indjan—ġurnalisti, lingwisti, studjużi, artisti, u prattikanti tal-industrija—li kitbu u rrevedew mistoqsijiet għal IndQA. Xi ftit eżempji tal-esperti li ħdimna magħhom jinkludu:
- Attur u screenwriter Telugu rebbieħ ta’ Nandi Award b’aktar minn 750 film
- Ġurnalist u editur Marathi f’Tarun Bharat
- Studjuż tal-lingwistika Kannada u editur ta’ dizzjunarju
- Grandmaster internazzjonali taċ-ċess li jħarreġ plejers taċ-ċess top-100
- Kittieb, poeta u attivist kulturali Tamil li jippromwovi l-ġustizzja soċjali, l-ugwaljanza tal-kasta, u l-libertà letterarja
- Kompożitur tal-mużika Punjabi rebbieħ ta’ premjijiet
- Kuratur tal-wirt Gujarati u speċjalista fil-konservazzjoni
- Poeta u artist tal-performance Malayalam rebbieħ ta’ premjijiet
- Professur tal-istorja, speċjalizzat fil-wirt kulturali għani tal-Bengal
- Professur tal-arkitettura, b’fokus fuq it-tempji ta’ Odisha
Nittamaw li r-rilaxx ta’ IndQA jinforma u jispira l-ħolqien ta’ benchmarks ġodda mill-komunità tar-riċerka. Mistoqsijiet fl-istil ta’ IndQA huma speċjalment ta’ valur f’lingwi jew dominji kulturali li huma koperti ħażin mill-benchmarks eżistenti tal-IA. Il-ħolqien ta’ benchmarks simili għal IndQA jista’ jgħin lil-laboratorji tar-riċerka tal-IA jitgħallmu aktar dwar il-lingwi u d-dominji li bihom il-mudelli jissieltu llum, u jipprovdi stilla tat-tramuntana għal titjib fil-futur.


