Aqbeż għall-kontenut prinċipali
OpenAI

3 ta’ Novembru 2025

RiċerkaRilaxx

Nintroduċu IndQA

Benchmark ġdid għall-valutazzjoni ta’ sistemi tal-IA dwar il-kultura u l-lingwi Indjani.

Gradilja 3x4 ta’ buttuni kwadri bit-truf imdawra, kull wieħed fih karattru minn skrittura Indjana differenti jew mill-alfabett Latin. Il-karattri jinkludu Bengali (অ), Ingliż (En), Ħindi (ह), Kannada (Hi), u oħrajn li jirrappreżentaw diversi lingwi Indjani, fuq sfond griż ċar. L-immaġni tissuġġerixxi appoġġ multilingwi jew għażla tal-lingwa.
Qed jillowdja…

Il-missjoni tagħna hi li nagħmlu l-AGI jibbenefika lill-umanità kollha. Jekk l-IA se tkun utli għal kulħadd, trid taħdem tajjeb bejn lingwi u kulturi differenti. Madwar 80 fil-mija tan-nies madwar id-dinja ma jitkellmux bl-Ingliż bħala l-lingwa primarja tagħhom, iżda l-biċċa l-kbira tal-benchmarks eżistenti li jkejlu l-kapaċitajiet f’lingwi mhux bl-Ingliż mhumiex biżżejjed. 

Benchmarks multilingwi eżistenti bħal MMMLU(jinfetaħ f’tieqa ġdida) issa huma saturati—l-aqwa mudelli jinġabru qrib punteġġi għoljin—u dan jagħmilhom inqas utli biex jitkejjel il-progress reali. Barra minn hekk, il-benchmarks attwali l-aktar jiffukaw fuq traduzzjoni jew kompiti b’għażla multipla. Huma ma jaqbdux biżżejjed dak li verament jgħodd biex tiġi evalwata l-kapaċità lingwistika ta’ sistema tal-IA—li tifhem il-kuntest, il-kultura, l-istorja, u l-affarijiet li jimportaw lin-nies fejn jgħixu.

Għalhekk bnejna IndQA, benchmark ġdid iddisinjat biex jevalwa kemm il-mudelli tal-IA jifhmu u jirraġunaw dwar mistoqsijiet li jgħoddu fil-lingwi Indjani, fuq firxa wiesgħa ta’ dominji kulturali. Filwaqt li l-għan tagħna hu li noħolqu benchmarks simili għal lingwi u reġjuni oħra, l-Indja hija punt tat-tluq ovvju. L-Indja għandha madwar biljun persuna li ma jużawx l-Ingliż bħala l-lingwa primarja tagħhom, 22 lingwa uffiċjali (inklużi mill-inqas sebgħa b’aktar minn 50 miljun kelliem), u hija t-tieni l-akbar suq ta’ ChatGPT.  

Dan ix-xogħol huwa parti mill-impenn kontinwu tagħna biex intejbu l-prodotti u l-għodod tagħna għall-utenti fl-Indja, u biex nagħmlu t-teknoloġija tagħna aktar aċċessibbli madwar il-pajjiż kollu.

Kif jaħdem

IndQA jevalwa l-għarfien u r-raġunament dwar il-kultura Indjana u l-ħajja ta’ kuljum fil-lingwi Indjani. Jinkludi 2,278 mistoqsija f’12-il lingwa u 10 dominji kulturali, maħluqa fi sħubija ma’ 261 espert tad-dominju minn madwar l-Indja kollha. B’differenza minn benchmarks eżistenti bħal MMMLU u MGSM, huwa mfassal biex jesplora kompiti b’sfumaturi kulturali u b’ħtieġa qawwija ta’ raġunament li l-evalwazzjonijiet eżistenti jsibuha diffiċli jaqbdu.

IndQA jkopri firxa wiesgħa ta’ suġġetti kulturalment rilevanti, bħal Arkitettura u Disinn, Arti u Kultura, Ħajja ta’ Kuljum, Ikel u Kċina, Storja, Liġi u Etika, Letteratura u Lingwistika, Midja u Divertiment, Reliġjon u Spiritwalità, u Sport u Rikreazzjoni—b’oġġetti miktuba b’mod nattiv bil-Bengali, Ingliż, Ħindi, Hinglish, Kannada, Marathi, Odia, Telugu, Gujarati, Malayalam, Punjabi, u Tamil. Nota: Żidna speċifikament il-Hinglish minħabba l-prevalenza tal-code-switching fil-konversazzjonijiet.

Kull datapoint jinkludi prompt ibbażat fil-kultura f’lingwa Indjana, traduzzjoni bl-Ingliż għall-awditabbiltà, kriterji tar-rubrika għall-għoti tal-marki, u tweġiba ideali li tirrifletti l-aspettattivi tal-esperti.

Dijagramma li turi l-proċess ta’ evalwazzjoni: eżempju ta’ konversazzjoni bejn utent u assistent, tweġiba kandidata, u tabella tar-rubrika użata biex tagħti punteġġ lit-tweġiba skont il-kriterji.

IndQA juża approċċ ibbażat fuq rubrika. Kull tweġiba tingħata marka skont kriterji miktuba minn esperti tad-dominju għal dik il-mistoqsija speċifika. Il-kriterji jispjegaw x’għandha tinkludi jew tevita tweġiba ideali, u kull wieħed jingħata valur ta’ punti ppeżat skont l-importanza tiegħu. Grader ibbażat fuq mudell jiċċekkja jekk kull kriterju jkunx intlaħaq. Il-punteġġ finali huwa s-somma tal-punti għall-kriterji sodisfatti mit-total possibbli.

Kif bnejna IndQA

  • Mistoqsijiet miktuba minn esperti. Ħdimna ma’ sħab biex insibu esperti fl-Indja f’10 dominji differenti. Huma abbozzaw prompts diffiċli, iffukati fuq ir-raġunament, marbuta mar-reġjuni u l-ispeċjalitajiet tagħhom. Dawn l-esperti huma kelliema fil-livell nattiv tal-lingwa rilevanti (u tal-Ingliż) u jġibu magħhom għarfien profond tas-suġġett.
  • Iffiltrar avversarju: Kull mistoqsija ġiet ittestjata kontra l-aktar mudelli b’saħħithom ta’ OpenAI fiż-żmien tal-ħolqien tagħhom: GPT‑4o, OpenAI o3, GPT‑4.5, u (parzjalment, wara t-tnedija pubblika) GPT‑5. Żammejna biss dawk il-mistoqsijiet fejn il-maġġoranza ta’ dawn il-mudelli naqsu milli jipproduċu tweġibiet aċċettabbli, biex inżommu spazju għal progress
  • Kriterji dettaljati. Flimkien ma’ kull mistoqsija, l-esperti tad-dominju pprovdew kriterji użati biex tingħata marka lit-tweġiba tal-mudell, simili għal rubrika ta’ eżami għal mistoqsija ta’ komponiment. Dawn il-kriterji jintużaw biex jingħataw marki lit-tweġibiet minn mudelli kandidati.
  • Tweġibiet ideali + reviżjoni. L-esperti żiedu tweġibiet ideali u traduzzjonijiet bl-Ingliż, segwiti minn peer review u tiswijiet iterattivi sakemm ingħata l-approvazzjoni finali.

Eżempji ta’ mistoqsijiet

Lingwa: Bengali

Dominju: Letteratura u lingwistika

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Dominju: Ikel u kċina

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Titjib maż-żmien

Nużaw IndQA biex nevalwaw kif iwettqu l-mudelli fruntiera reċenti u biex nippjanaw il-progress matul dawn l-aħħar ftit snin. Bl-IndQA nistgħu naraw li l-mudelli ta’ OpenAI tjiebu b’mod sinifikanti maż-żmien fil-lingwi Indjani (b’twissijiet), iżda għad fadlilhom spazju sostanzjali għal titjib. Nistennew bil-ħerqa li ntejbu l-prestazzjoni u naqsmu r-riżultati għal mudelli futuri.

Aħna nissegmentaw ukoll il-prestazzjoni fuq IndQA skont il-Lingwa u d-Dominju hawn taħt, billi nqabblu GPT‑5 Thinking High ma’ mudelli oħra fruntiera.

Twissijiet

Minħabba li l-mistoqsijiet mhumiex identiċi bejn il-lingwi, IndQA mhuwiex leaderboard tal-lingwi; punteġġi bejn lingwa u oħra m’għandhomx jiġu interpretati bħala tqabbil dirett tal-ħila lingwistika. Minflok, qed nippjanaw li nużaw IndQA biex inkejlu titjib maż-żmien fi ħdan familja ta’ mudelli jew konfigurazzjoni.

Barra minn hekk, minħabba li l-mistoqsijiet ġew iffiltrati għal dawk li GPT‑4o, OpenAI o3, GPT‑4.5, u (wara t-tnedija pubblika) GPT‑5 ma setgħux iwieġbu biżżejjed, l-għażla tal-mistoqsijiet hija avversarja kontra dawn il-mudelli. Dan jista’ jħawwad il-prestazzjoni relattiva ta’ GPT‑5, u jista’ jqiegħed lill-mudelli kollha ta’ OpenAI fi żvantaġġ meta mqabbla ma’ mudelli mhux ta’ OpenAI.

L-esperti wara IndQA

Aħna grati lejn il-261 espert Indjan—ġurnalisti, lingwisti, studjużi, artisti, u prattikanti tal-industrija—li kitbu u rrevedew mistoqsijiet għal IndQA. Xi ftit eżempji tal-esperti li ħdimna magħhom jinkludu:

  • Attur u screenwriter Telugu rebbieħ ta’ Nandi Award b’aktar minn 750 film
  • Ġurnalist u editur Marathi f’Tarun Bharat 
  • Studjuż tal-lingwistika Kannada u editur ta’ dizzjunarju
  • Grandmaster internazzjonali taċ-ċess li jħarreġ plejers taċ-ċess top-100
  • Kittieb, poeta u attivist kulturali Tamil li jippromwovi l-ġustizzja soċjali, l-ugwaljanza tal-kasta, u l-libertà letterarja
  • Kompożitur tal-mużika Punjabi rebbieħ ta’ premjijiet
  • Kuratur tal-wirt Gujarati u speċjalista fil-konservazzjoni
  • Poeta u artist tal-performance Malayalam rebbieħ ta’ premjijiet
  • Professur tal-istorja, speċjalizzat fil-wirt kulturali għani tal-Bengal
  • Professur tal-arkitettura, b’fokus fuq it-tempji ta’ Odisha

Il-passi li jmiss

Nittamaw li r-rilaxx ta’ IndQA jinforma u jispira l-ħolqien ta’ benchmarks ġodda mill-komunità tar-riċerka. Mistoqsijiet fl-istil ta’ IndQA huma speċjalment ta’ valur f’lingwi jew dominji kulturali li huma koperti ħażin mill-benchmarks eżistenti tal-IA. Il-ħolqien ta’ benchmarks simili għal IndQA jista’ jgħin lil-laboratorji tar-riċerka tal-IA jitgħallmu aktar dwar il-lingwi u d-dominji li bihom il-mudelli jissieltu llum, u jipprovdi stilla tat-tramuntana għal titjib fil-futur.