Predstavljamo IndQA
Novo merilo za evaluaciju AI sistema na indijskoj kulturi i jezicima.

Naša misija je da AGI koristi celom čovečanstvu. Ako će AI biti koristan za sve, mora dobro da funkcioniše na različitim jezicima i u različitim kulturama. Oko 80 odsto ljudi širom sveta ne govori engleski kao primarni jezik, a ipak većina postojećih merila za merenje sposobnosti na neengleskim jezicima nije dovoljna.
Postojeća višejezična merila kao što je MMMLU(отвара се у новом прозору) sada su zasićena — najbolji modeli grupišu se oko visokih rezultata — što ih čini manje korisnim za merenje stvarnog napretka. Pored toga, trenutna merila se uglavnom fokusiraju na prevođenje ili zadatke sa višestrukim izborom. Ona ne obuhvataju dovoljno ono što je zaista važno za procenu jezičkih sposobnosti AI sistema — razumevanje konteksta, kulture, istorije i stvari koje su ljudima važne tamo gde žive.
Zato smo napravili IndQA, novo merilo osmišljeno da proceni koliko dobro AI modeli razumeju i rezonuju o pitanjima koja su važna na indijskim jezicima, u širokom rasponu kulturnih oblasti. Iako nam je cilj da napravimo slična merila za druge jezike i regione, Indija je očigledna polazna tačka. Indija ima oko milijardu ljudi koji ne koriste engleski kao primarni jezik, 22 zvanična jezika (uključujući najmanje sedam sa više od 50 miliona govornika) i drugo je najveće tržište za ChatGPT.
Ovaj rad je deo naše stalne posvećenosti unapređenju naših proizvoda i alata za korisnike u Indiji, kao i da našu tehnologiju učinimo pristupačnijom širom zemlje.
IndQA procenjuje znanje i rezonovanje o indijskoj kulturi i svakodnevnom životu na indijskim jezicima. Obuhvata 2.278 pitanja na 12 jezika i u 10 kulturnih oblasti, nastalih u saradnji sa 261 stručnjakom iz različitih oblasti iz cele Indije. Za razliku od postojećih merila kao što su MMMLU i MGSM, osmišljeno je da ispituje kulturno nijansirane zadatke sa naglašenim rezonovanjem, koje postojeće evaluacije teško obuhvataju.
IndQA pokriva širok raspon kulturno relevantnih tema, kao što su Arhitektura i dizajn, Umetnost i kultura, Svakodnevni život, Hrana i kuhinja, Istorija, Pravo i etika, Književnost i lingvistika, Mediji i zabava, Religija i duhovnost i Sport i rekreacija — sa stavkama izvorno napisanim na bengalskom, engleskom, hindiju, Hinglish-u, kanadi, maratiju, odiji, teluguu, gudžaratiju, malajalamu, pandžabiju i tamilskom. Napomena: Hinglish smo posebno dodali zbog rasprostranjenosti prebacivanja između kodova u razgovorima.
Svaka podatkovna stavka uključuje kulturno utemeljenu instrukciju na indijskom jeziku, engleski prevod radi proverljivosti, kriterijume rubrike za ocenjivanje i idealan odgovor koji odražava očekivanja stručnjaka.
IndQA koristi pristup zasnovan na rubrici. Svaki odgovor se ocenjuje prema kriterijumima koje su za to konkretno pitanje napisali stručnjaci iz te oblasti. Kriterijumi preciziraju šta idealan odgovor treba da sadrži ili izbegne, a svakom se dodeljuje ponderisana vrednost bodova na osnovu njegovog značaja. Ocenjivač zasnovan na modelu proverava da li je svaki kriterijum ispunjen. Konačni rezultat je zbir bodova za ispunjene kriterijume od ukupnog mogućeg broja.
- Pitanja su sastavili stručnjaci. Radili smo sa partnerima kako bismo pronašli stručnjake u Indiji u 10 različitih oblasti. Oni su sastavili teške instrukcije usmerene na rezonovanje, vezane za svoje regione i specijalnosti. Ovi stručnjaci govore relevantni jezik (i engleski) na nivou izvornog govornika i donose duboku stručnost u oblasti.
- Adverzarialno filtriranje: Svako pitanje je testirano na najjačim OpenAI modelima u vreme njegovog nastanka: GPT‑4o, OpenAI o3, GPT‑4.5 i (delimično, nakon javnog lansiranja) GPT‑5. Zadržali smo samo ona pitanja kod kojih većina ovih modela nije uspela da proizvede prihvatljive odgovore, čime smo sačuvali prostor za napredak
- Detaljni kriterijumi. Uz svako pitanje, stručnjaci iz oblasti dali su kriterijume koji se koriste za ocenjivanje odgovora modela, slično ispitnoj rubrici za esejističko pitanje. Ovi kriterijumi se koriste za ocenjivanje odgovora kandidatskih modela.
- Idealni odgovori + pregled. Stručnjaci su dodali idealne odgovore i prevode na engleski, nakon čega su usledili kolegijalna recenzija i iterativne ispravke do konačnog odobrenja.
Jezik: bengalski
Oblast: Književnost i lingvistika
Oblast: Hrana i kuhinja
Koristimo IndQA da procenimo kako noviji granični modeli funkcionišu i da pratimo napredak tokom poslednjih nekoliko godina. Uz IndQA možemo da vidimo da su se OpenAI modeli značajno poboljšali tokom vremena na indijskim jezicima (uz ograde), ali i dalje postoji značajan prostor za napredak. Radujemo se daljem unapređenju performansi i deljenju rezultata za buduće modele.
Takođe u nastavku raščlanjujemo performanse na IndQA po jeziku i oblasti, poredeći GPT‑5 Thinking High sa drugim graničnim modelima.
Pošto pitanja nisu identična na svim jezicima, IndQA nije rang-lista jezika; rezultate između jezika ne treba tumačiti kao direktna poređenja jezičkih sposobnosti. Umesto toga, planiramo da koristimo IndQA za merenje poboljšanja tokom vremena unutar porodice modela ili konfiguracije.
Dodatno, pošto su pitanja filtrirana tako da GPT‑4o, OpenAI o3, GPT‑4.5 i (nakon javnog lansiranja) GPT‑5 nisu mogli dovoljno dobro da odgovore, izbor pitanja je adverzarialan prema ovim modelima. To potencijalno zamagljuje relativne performanse GPT‑5 i može staviti sve OpenAI modele u nepovoljniji položaj u odnosu na modele koji nisu OpenAI.
Zahvalni smo 261 indijskom stručnjaku — novinarima, lingvistima, naučnicima, umetnicima i praktičarima iz industrije — koji su sastavljali i pregledali pitanja za IndQA. Nekoliko primera stručnjaka sa kojima smo radili uključuje:
- Dobitnika nagrade Nandi, glumca i scenaristu na teluguu sa više od 750 filmova
- Marati novinara i urednika u Tarun Bharatu
- Stručnjaka za kanada lingvistiku i urednika rečnika
- Međunarodnog velemajstora u šahu koji trenira šahiste iz top 100
- தமிழskog pisca, pesnika i kulturnog aktivistu koji se zalaže za socijalnu pravdu, kastinsku jednakost i književnu slobodu
- Nagrađivanog kompozitora pandžabske muzike
- Kustosa gudžaratskog nasleđa i stručnjaka za konzervaciju
- Nagrađivanog pesnika na malajalamu i izvođačkog umetnika
- Profesora istorije, specijalizovanog za bogato kulturno nasleđe Bengala
- Profesora arhitekture, sa fokusom na hramove Odiše
Nadamo se da će objavljivanje IndQA doprineti i inspirisati istraživačku zajednicu da stvara nova merila. Pitanja u stilu IndQA posebno su vredna u jezicima ili kulturnim oblastima koje su slabo obuhvaćene postojećim AI merilima. Stvaranje merila sličnih IndQA može pomoći AI istraživačkim laboratorijama da nauče više o jezicima i oblastima sa kojima se modeli danas muče i da obezbede zvezdu vodilju za buduća poboljšanja.


