3. november 2025

Vi presenterer IndQA

En ny referansemåling for evaluering av AI-systemer på indisk kultur og språk.

Et 3x4 rutenett av avrundede, firkantede knapper, hver med et tegn fra en annen indisk skrift eller det latinske alfabetet. Tegnene inkluderer bengalsk (অ), engelsk (En), hindi (ह), kannada (Hi) og andre som representerer ulike indiske språk, satt mot en lys grå bakgrunn. Bildet antyder flerspråklig støtte eller valg av språk.

Laster inn …

Vårt oppdrag er å gjøre AGI til fordel for hele menneskeheten. Hvis AI skal være nyttig for alle, må systemet fungere godt på tvers av språk og kulturer. Omtrent 80 prosent av mennesker over hele verden har ikke engelsk som sitt primære språk, men de fleste eksisterende referansepunkter som måler evner i ikke-engelske språk kommer til kort.

Eksisterende flerspråklige ytelsesmålinger som MMMLU⁠(åpnes i et nytt vindu) er nå mettet – toppmodellene samler seg nær høy score – noe som gjør dem mindre nyttige for å måle reell fremgang. I tillegg fokuserer nåværende referansepunkter for det meste på oversettelse eller flervalgsoppgaver. De fanger ikke tilstrekkelig det som virkelig betyr noe for å evaluere språklige evner ved et AI-system – å forstå kontekst, kultur, historikk og de tingene som betyr noe for folk der de bor.

Derfor utviklet vi IndQA, en ny referansepunkt designet for å evaluere hvor godt AI-modeller forstår og resonerer om spørsmål som betyr noe på indiske språk, på tvers av et bredt spekter av kulturelle domener. Mens vårt mål er å opprette lignende referanseverdier for andre språk og regioner, er India et åpenbart utgangspunkt. India har omtrent en milliard mennesker som ikke bruker engelsk som hovedspråk, 22 offisielle språk (inkludert minst syv med over 50 millioner talere), og er ChatGPTs nest største marked.

Dette arbeidet er en del av vårt pågående engasjement for å forbedre produktene og verktøyene våre for indiske brukere, og for å gjøre teknologien vår mer tilgjengelig over hele landet.

Slik fungerer det

IndQA evaluerer kunnskap og resonnement om indisk kultur og hverdagsliv på indiske språk. Den omfatter 2278 spørsmål på 12 språk og 10 kulturelle domener, opprettet i samarbeid med 261 domeneeksperter fra hele India. I motsetning til eksisterende referansemålinger som MMMLU og MGSM, er den utformet for å undersøke kulturelt nyanserte, resonnementstunge oppgaver som eksisterende evalueringer har problemer med å fange opp.

IndQA dekker et bredt spekter av kulturelt relevante emner, som arkitektur og design, kunst og kultur, hverdagsliv, mat og matlaging, historie, lov og etikk, litteratur og språkvitenskap, media og underholdning, religion og åndelighet, og sport og fritid – med artikler skrevet på bengali, engelsk, hindi, hinglish, kannada, marathi, odia, telugu, gujarati, malayalam, punjabi og tamil. Merk: Vi la spesifikt til hinglish gitt utbredelsen av kodeveksling i samtaler.

Hvert datapunkt inkluderer en kulturelt forankret melding på et indisk språk, en engelsk oversettelse for revisjon, rubrikkriterier for vurdering, og et ideelt svar som reflekterer ekspertenes forventninger.

Diagram som illustrerer evalueringsprosessen: Et eksempel på en bruker-assistent-samtale, et kandidatsvar, og en rubrikktabell som brukes til å score svaret etter kriterier.

IndQA bruker en rubrikkbasert tilnærming. Hvert svar vurderes etter kriterier skrevet av domeneeksperter for det spesifikke spørsmålet. Kriteriene beskriver hva et ideelt svar bør inkludere eller unngå, og hver av dem får en vektet poengverdi basert på viktigheten. En modellbasert vurderingsenhet sjekker om hvert kriterium er oppfylt. Den endelige poengsummen er summen av poengene for oppfylte kriterier av det totale mulige.

Hvordan vi bygde IndQA

Ekspertforfattede spørsmål. Vi samarbeidet med partnere for å finne eksperter i India innen 10 forskjellige domener. De utarbeidet vanskelige, resonneringsfokuserte oppgaver knyttet til regionene og spesialitetene sine. Disse ekspertene snakker det aktuelle språket (og engelsk) på morsmålsnivå og har dyp fagkompetanse.
Motstridende filtrering: Hvert spørsmål ble testet mot OpenAIs sterkeste modeller på tidspunktet for opprettelsen: GPT‑4o, OpenAI o3, GPT‑4.5 og (delvis etter offentlig lansering) GPT‑5. Vi beholdt bare spørsmålene der et flertall av disse modellene ikke klarte å gi akseptable svar, og dermed rom til videre utvikling
Detaljerte kriterier. Sammen med hvert spørsmål ga domeneeksperter kriterier som ble brukt til å vurdere modellsvar, på samme måte som en eksamensrubrikk for et essayspørsmål. Disse kriteriene brukes til å vurdere svar fra kandidatmodeller.
Ideale svar + gjennomgang. Eksperter la til ideelle svar og engelske oversettelser, etterfulgt av fagfellevurdering og iterative rettelser frem til endelig godkjenning.

Eksempelspørsmål

Språk: Bengali

Domene: Litteratur og språkvitenskap

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Domene: Mat og matlaging

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Forbedringer over tid

Vi bruker IndQA til å evaluere hvordan nyere banebrytende modeller presterer og kartlegger fremgang i løpet av de siste par årene. Med IndQA kan vi se at OpenAIs modeller har forbedret seg betydelig over tid på indiske språk (med forbehold⁠), men har fortsatt betydelig rom for forbedring. Vi ser frem til å forbedre ytelsen og dele resultater for fremtidige modeller.

Vi stratifiserer også ytelsen på IndQA etter språk og domene nedenfor, og sammenligner GPT‑5 Thinking High med andre fremtidsmodeller.

Forbehold

Fordi spørsmål ikke er identiske på tvers av språk, er IndQA ikke en språklig ledertavle – score på tvers av språk skal ikke tolkes som direkte sammenligninger av språkferdigheter. I stedet planlegger vi å bruke IndQA til å måle forbedring over tid innenfor en modellfamilie eller konfigurasjon.

Fordi spørsmål ble filtrert til de som GPT‑4o, OpenAI o3, GPT‑4.5 og (etter offentlig lansering) GPT‑5 ikke kunne svare tilstrekkelig på, er spørsmålsutvalget også utformet for å være motstridende mot disse modellene. Dette kan potensielt forvirre den relative ytelsen til GPT‑5, og kan være til ulempe for alle OpenAI-modeller sammenlignet med ikke-OpenAI-modeller.

Ekspertene bak IndQA

Vi er takknemlige for de 261 indiske ekspertene – journalister, lingvister, forskere, kunstnere og bransjeutøvere – som har skrevet og gjennomgått spørsmål for IndQA. Noen eksempler på ekspertene vi har samarbeidet med inkluderer:

En Nandi Award-vinnende Telugu-skuespiller og manusforfatter med over 750 filmer
En marathisk journalist og redaktør i Tarun Bharat
En lærd i kannadaspråket og innen ordbokredigering
En internasjonal stormester i sjakk som lærer opp topp 100 sjakkspillere
En tamilsk forfatter, poet og kulturaktivist som kjemper for sosial rettferdighet, kastelikhet og litterær frihet
En prisvinnende punjabi musikkkomponist
En kurator for gujaratisk kulturarv og bevaringsspesialist
En prisvinnende malayalamsk poet og performancekunstner
Professor i historie, med bengalias rike kulturarv som spesialfelt
En professor i arkitektur, med fokus på Odishan-templer

Neste trinn

Vi håper at utgivelsen av IndQA vil informere og inspirere til ny referanseskaping fra forskningsmiljøet. IndQA-stilspørsmål er spesielt verdifulle i språk eller kulturelle domener som er dårlig dekket av eksisterende AI-referanser. Å opprette lignende referansepunkter som IndQA kan hjelpe AI-forskningslaboratorier med å lære mer om språk og domener som modeller sliter med i dag, og gi en ledestjerne for forbedringer i fremtiden.

Forfatter

OpenAI

Les videre

Se alle

GPT-5.6: Banebrytende intelligens som skalerer med ambisjonene dine

Produkt9. juli 2026

Skille signal fra støy i kodeevalueringer

Research8. juli 2026

Vi introduserer GPT-Live

Produkt8. juli 2026