Пређите на главни садржај
OpenAI

3. новембар 2025.

ИстраживањеИздање

Predstavljamo IndQA

Novo merilo za evaluaciju AI sistema na indijskoj kulturi i jezicima.

Mreža 3x4 zaobljenih kvadratnih dugmadi, od kojih svako sadrži znak iz drugog indijskog pisma ili latiničnog alfabeta. Znakovi uključuju bengalski (অ), engleski (En), hindi (ह), kanada (Hi) i druge koji predstavljaju različite indijske jezike, na svetlosivoj pozadini. Slika sugeriše višejezičnu podršku ili izbor jezika.
Учитавање…

Naša misija je da AGI koristi celom čovečanstvu. Ako će AI biti koristan za sve, mora dobro da funkcioniše na različitim jezicima i u različitim kulturama. Oko 80 odsto ljudi širom sveta ne govori engleski kao primarni jezik, a ipak većina postojećih merila za merenje sposobnosti na neengleskim jezicima nije dovoljna.

Postojeća višejezična merila kao što je MMMLU(отвара се у новом прозору) sada su zasićena — najbolji modeli grupišu se oko visokih rezultata — što ih čini manje korisnim za merenje stvarnog napretka. Pored toga, trenutna merila se uglavnom fokusiraju na prevođenje ili zadatke sa višestrukim izborom. Ona ne obuhvataju dovoljno ono što je zaista važno za procenu jezičkih sposobnosti AI sistema — razumevanje konteksta, kulture, istorije i stvari koje su ljudima važne tamo gde žive.

Zato smo napravili IndQA, novo merilo osmišljeno da proceni koliko dobro AI modeli razumeju i rezonuju o pitanjima koja su važna na indijskim jezicima, u širokom rasponu kulturnih oblasti. Iako nam je cilj da napravimo slična merila za druge jezike i regione, Indija je očigledna polazna tačka. Indija ima oko milijardu ljudi koji ne koriste engleski kao primarni jezik, 22 zvanična jezika (uključujući najmanje sedam sa više od 50 miliona govornika) i drugo je najveće tržište za ChatGPT.

Ovaj rad je deo naše stalne posvećenosti unapređenju naših proizvoda i alata za korisnike u Indiji, kao i da našu tehnologiju učinimo pristupačnijom širom zemlje.

Kako funkcioniše

IndQA procenjuje znanje i rezonovanje o indijskoj kulturi i svakodnevnom životu na indijskim jezicima. Obuhvata 2.278 pitanja na 12 jezika i u 10 kulturnih oblasti, nastalih u saradnji sa 261 stručnjakom iz različitih oblasti iz cele Indije. Za razliku od postojećih merila kao što su MMMLU i MGSM, osmišljeno je da ispituje kulturno nijansirane zadatke sa naglašenim rezonovanjem, koje postojeće evaluacije teško obuhvataju.

IndQA pokriva širok raspon kulturno relevantnih tema, kao što su Arhitektura i dizajn, Umetnost i kultura, Svakodnevni život, Hrana i kuhinja, Istorija, Pravo i etika, Književnost i lingvistika, Mediji i zabava, Religija i duhovnost i Sport i rekreacija — sa stavkama izvorno napisanim na bengalskom, engleskom, hindiju, Hinglish-u, kanadi, maratiju, odiji, teluguu, gudžaratiju, malajalamu, pandžabiju i tamilskom. Napomena: Hinglish smo posebno dodali zbog rasprostranjenosti prebacivanja između kodova u razgovorima.

Svaka podatkovna stavka uključuje kulturno utemeljenu instrukciju na indijskom jeziku, engleski prevod radi proverljivosti, kriterijume rubrike za ocenjivanje i idealan odgovor koji odražava očekivanja stručnjaka.

Dijagram koji ilustruje proces evaluacije: primer razgovora korisnika i asistenta, kandidatski odgovor i tabelu rubrika koja se koristi za ocenjivanje odgovora prema kriterijumima.

IndQA koristi pristup zasnovan na rubrici. Svaki odgovor se ocenjuje prema kriterijumima koje su za to konkretno pitanje napisali stručnjaci iz te oblasti. Kriterijumi preciziraju šta idealan odgovor treba da sadrži ili izbegne, a svakom se dodeljuje ponderisana vrednost bodova na osnovu njegovog značaja. Ocenjivač zasnovan na modelu proverava da li je svaki kriterijum ispunjen. Konačni rezultat je zbir bodova za ispunjene kriterijume od ukupnog mogućeg broja.

Kako smo napravili IndQA

  • Pitanja su sastavili stručnjaci. Radili smo sa partnerima kako bismo pronašli stručnjake u Indiji u 10 različitih oblasti. Oni su sastavili teške instrukcije usmerene na rezonovanje, vezane za svoje regione i specijalnosti. Ovi stručnjaci govore relevantni jezik (i engleski) na nivou izvornog govornika i donose duboku stručnost u oblasti.
  • Adverzarialno filtriranje: Svako pitanje je testirano na najjačim OpenAI modelima u vreme njegovog nastanka: GPT‑4o, OpenAI o3, GPT‑4.5 i (delimično, nakon javnog lansiranja) GPT‑5. Zadržali smo samo ona pitanja kod kojih većina ovih modela nije uspela da proizvede prihvatljive odgovore, čime smo sačuvali prostor za napredak
  • Detaljni kriterijumi. Uz svako pitanje, stručnjaci iz oblasti dali su kriterijume koji se koriste za ocenjivanje odgovora modela, slično ispitnoj rubrici za esejističko pitanje. Ovi kriterijumi se koriste za ocenjivanje odgovora kandidatskih modela.
  • Idealni odgovori + pregled. Stručnjaci su dodali idealne odgovore i prevode na engleski, nakon čega su usledili kolegijalna recenzija i iterativne ispravke do konačnog odobrenja.

Primeri pitanja

Jezik: bengalski

Oblast: Književnost i lingvistika

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Oblast: Hrana i kuhinja

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Poboljšanja tokom vremena

Koristimo IndQA da procenimo kako noviji granični modeli funkcionišu i da pratimo napredak tokom poslednjih nekoliko godina. Uz IndQA možemo da vidimo da su se OpenAI modeli značajno poboljšali tokom vremena na indijskim jezicima (uz ograde), ali i dalje postoji značajan prostor za napredak. Radujemo se daljem unapređenju performansi i deljenju rezultata za buduće modele.

Takođe u nastavku raščlanjujemo performanse na IndQA po jeziku i oblasti, poredeći GPT‑5 Thinking High sa drugim graničnim modelima.

Ograde

Pošto pitanja nisu identična na svim jezicima, IndQA nije rang-lista jezika; rezultate između jezika ne treba tumačiti kao direktna poređenja jezičkih sposobnosti. Umesto toga, planiramo da koristimo IndQA za merenje poboljšanja tokom vremena unutar porodice modela ili konfiguracije.

Dodatno, pošto su pitanja filtrirana tako da GPT‑4o, OpenAI o3, GPT‑4.5 i (nakon javnog lansiranja) GPT‑5 nisu mogli dovoljno dobro da odgovore, izbor pitanja je adverzarialan prema ovim modelima. To potencijalno zamagljuje relativne performanse GPT‑5 i može staviti sve OpenAI modele u nepovoljniji položaj u odnosu na modele koji nisu OpenAI.

Stručnjaci iza IndQA

Zahvalni smo 261 indijskom stručnjaku — novinarima, lingvistima, naučnicima, umetnicima i praktičarima iz industrije — koji su sastavljali i pregledali pitanja za IndQA. Nekoliko primera stručnjaka sa kojima smo radili uključuje:

  • Dobitnika nagrade Nandi, glumca i scenaristu na teluguu sa više od 750 filmova
  • Marati novinara i urednika u Tarun Bharatu
  • Stručnjaka za kanada lingvistiku i urednika rečnika
  • Međunarodnog velemajstora u šahu koji trenira šahiste iz top 100
  • தமிழskog pisca, pesnika i kulturnog aktivistu koji se zalaže za socijalnu pravdu, kastinsku jednakost i književnu slobodu
  • Nagrađivanog kompozitora pandžabske muzike
  • Kustosa gudžaratskog nasleđa i stručnjaka za konzervaciju
  • Nagrađivanog pesnika na malajalamu i izvođačkog umetnika
  • Profesora istorije, specijalizovanog za bogato kulturno nasleđe Bengala
  • Profesora arhitekture, sa fokusom na hramove Odiše

Sledeći koraci

Nadamo se da će objavljivanje IndQA doprineti i inspirisati istraživačku zajednicu da stvara nova merila. Pitanja u stilu IndQA posebno su vredna u jezicima ili kulturnim oblastima koje su slabo obuhvaćene postojećim AI merilima. Stvaranje merila sličnih IndQA može pomoći AI istraživačkim laboratorijama da nauče više o jezicima i oblastima sa kojima se modeli danas muče i da obezbede zvezdu vodilju za buduća poboljšanja.