
Vårt oppdrag er å gjøre AGI til fordel for hele menneskeheten. Hvis AI skal være nyttig for alle, må systemet fungere godt på tvers av språk og kulturer. Omtrent 80 prosent av mennesker over hele verden har ikke engelsk som sitt primære språk, men de fleste eksisterende referansepunkter som måler evner i ikke-engelske språk kommer til kort.
Eksisterende flerspråklige ytelsesmålinger som MMMLU(åpnes i et nytt vindu) er nå mettet – toppmodellene samler seg nær høy score – noe som gjør dem mindre nyttige for å måle reell fremgang. I tillegg fokuserer nåværende referansepunkter for det meste på oversettelse eller flervalgsoppgaver. De fanger ikke tilstrekkelig det som virkelig betyr noe for å evaluere språklige evner ved et AI-system – å forstå kontekst, kultur, historikk og de tingene som betyr noe for folk der de bor.
Derfor utviklet vi IndQA, en ny referansepunkt designet for å evaluere hvor godt AI-modeller forstår og resonerer om spørsmål som betyr noe på indiske språk, på tvers av et bredt spekter av kulturelle domener. Mens vårt mål er å opprette lignende referanseverdier for andre språk og regioner, er India et åpenbart utgangspunkt. India har omtrent en milliard mennesker som ikke bruker engelsk som hovedspråk, 22 offisielle språk (inkludert minst syv med over 50 millioner talere), og er ChatGPTs nest største marked.
Dette arbeidet er en del av vårt pågående engasjement for å forbedre produktene og verktøyene våre for indiske brukere, og for å gjøre teknologien vår mer tilgjengelig over hele landet.
IndQA evaluerer kunnskap og resonnement om indisk kultur og hverdagsliv på indiske språk. Den omfatter 2278 spørsmål på 12 språk og 10 kulturelle domener, opprettet i samarbeid med 261 domeneeksperter fra hele India. I motsetning til eksisterende referansemålinger som MMMLU og MGSM, er den utformet for å undersøke kulturelt nyanserte, resonnementstunge oppgaver som eksisterende evalueringer har problemer med å fange opp.
IndQA dekker et bredt spekter av kulturelt relevante emner, som arkitektur og design, kunst og kultur, hverdagsliv, mat og matlaging, historie, lov og etikk, litteratur og språkvitenskap, media og underholdning, religion og åndelighet, og sport og fritid – med artikler skrevet på bengali, engelsk, hindi, hinglish, kannada, marathi, odia, telugu, gujarati, malayalam, punjabi og tamil. Merk: Vi la spesifikt til hinglish gitt utbredelsen av kodeveksling i samtaler.
Hvert datapunkt inkluderer en kulturelt forankret melding på et indisk språk, en engelsk oversettelse for revisjon, rubrikkriterier for vurdering, og et ideelt svar som reflekterer ekspertenes forventninger.
IndQA bruker en rubrikkbasert tilnærming. Hvert svar vurderes etter kriterier skrevet av domeneeksperter for det spesifikke spørsmålet. Kriteriene beskriver hva et ideelt svar bør inkludere eller unngå, og hver av dem får en vektet poengverdi basert på viktigheten. En modellbasert vurderingsenhet sjekker om hvert kriterium er oppfylt. Den endelige poengsummen er summen av poengene for oppfylte kriterier av det totale mulige.
- Ekspertforfattede spørsmål. Vi samarbeidet med partnere for å finne eksperter i India innen 10 forskjellige domener. De utarbeidet vanskelige, resonneringsfokuserte oppgaver knyttet til regionene og spesialitetene sine. Disse ekspertene snakker det aktuelle språket (og engelsk) på morsmålsnivå og har dyp fagkompetanse.
- Motstridende filtrering: Hvert spørsmål ble testet mot OpenAIs sterkeste modeller på tidspunktet for opprettelsen: GPT‑4o, OpenAI o3, GPT‑4.5 og (delvis etter offentlig lansering) GPT‑5. Vi beholdt bare spørsmålene der et flertall av disse modellene ikke klarte å gi akseptable svar, og dermed rom til videre utvikling
- Detaljerte kriterier. Sammen med hvert spørsmål ga domeneeksperter kriterier som ble brukt til å vurdere modellsvar, på samme måte som en eksamensrubrikk for et essayspørsmål. Disse kriteriene brukes til å vurdere svar fra kandidatmodeller.
- Ideale svar + gjennomgang. Eksperter la til ideelle svar og engelske oversettelser, etterfulgt av fagfellevurdering og iterative rettelser frem til endelig godkjenning.
Språk: Bengali
Domene: Litteratur og språkvitenskap
Domene: Mat og matlaging
Vi bruker IndQA til å evaluere hvordan nyere banebrytende modeller presterer og kartlegger fremgang i løpet av de siste par årene. Med IndQA kan vi se at OpenAIs modeller har forbedret seg betydelig over tid på indiske språk (med forbehold), men har fortsatt betydelig rom for forbedring. Vi ser frem til å forbedre ytelsen og dele resultater for fremtidige modeller.
Vi stratifiserer også ytelsen på IndQA etter språk og domene nedenfor, og sammenligner GPT‑5 Thinking High med andre fremtidsmodeller.
Fordi spørsmål ikke er identiske på tvers av språk, er IndQA ikke en språklig ledertavle – score på tvers av språk skal ikke tolkes som direkte sammenligninger av språkferdigheter. I stedet planlegger vi å bruke IndQA til å måle forbedring over tid innenfor en modellfamilie eller konfigurasjon.
Fordi spørsmål ble filtrert til de som GPT‑4o, OpenAI o3, GPT‑4.5 og (etter offentlig lansering) GPT‑5 ikke kunne svare tilstrekkelig på, er spørsmålsutvalget også utformet for å være motstridende mot disse modellene. Dette kan potensielt forvirre den relative ytelsen til GPT‑5, og kan være til ulempe for alle OpenAI-modeller sammenlignet med ikke-OpenAI-modeller.
Vi er takknemlige for de 261 indiske ekspertene – journalister, lingvister, forskere, kunstnere og bransjeutøvere – som har skrevet og gjennomgått spørsmål for IndQA. Noen eksempler på ekspertene vi har samarbeidet med inkluderer:
- En Nandi Award-vinnende Telugu-skuespiller og manusforfatter med over 750 filmer
- En marathisk journalist og redaktør i Tarun Bharat
- En lærd i kannadaspråket og innen ordbokredigering
- En internasjonal stormester i sjakk som lærer opp topp 100 sjakkspillere
- En tamilsk forfatter, poet og kulturaktivist som kjemper for sosial rettferdighet, kastelikhet og litterær frihet
- En prisvinnende punjabi musikkkomponist
- En kurator for gujaratisk kulturarv og bevaringsspesialist
- En prisvinnende malayalamsk poet og performancekunstner
- Professor i historie, med bengalias rike kulturarv som spesialfelt
- En professor i arkitektur, med fokus på Odishan-templer
Vi håper at utgivelsen av IndQA vil informere og inspirere til ny referanseskaping fra forskningsmiljøet. IndQA-stilspørsmål er spesielt verdifulle i språk eller kulturelle domener som er dårlig dekket av eksisterende AI-referanser. Å opprette lignende referansepunkter som IndQA kan hjelpe AI-forskningslaboratorier med å lære mer om språk og domener som modeller sliter med i dag, og gi en ledestjerne for forbedringer i fremtiden.


