
Vores mission er at gøre AGI til gavn for hele menneskeheden. Hvis AI skal være nyttigt for alle, skal det fungere godt på tværs af sprog og kulturer. Omkring 80 procent af verdens befolkning taler ikke engelsk som deres primære sprog, men de fleste eksisterende benchmarks, der måler ikke-engelsksproglige færdigheder, lever ikke op til forventningerne.
Eksisterende flersprogede benchmarks som MMMLU(åbner i et nyt vindue) er nu mættede – de bedste modeller ligger tæt på de højeste scores, hvilket gør dem mindre nyttige til at måle reelle fremskridt. Derudover fokuserer de nuværende benchmarks primært på oversættelse eller multiple-choice opgaver. De indfanger ikke tilstrækkeligt, hvad der virkelig betyder noget for at evaluere et AI-systems sproglige evner – forståelse af kontekst, kultur, historie og de ting, der betyder noget for folk, hvor de bor.
Derfor har vi udviklet IndQA, et nyt benchmark designet til at evaluere, hvor godt AI-modeller forstår og anvender avanceret tænkning om spørgsmål, der betyder noget på indiske sprog, på tværs af en bred vifte af kulturelle domæner. Mens vores mål er at skabe lignende benchmarks for andre sprog og regioner, er Indien et oplagt udgangspunkt. Indien har omkring en milliard mennesker, der ikke bruger engelsk som deres primære sprog, 22 officielle sprog (herunder mindst syv med over 50 millioner, der taler det pågældende sprog), og er ChatGPT's næststørste marked.
Dette arbejde er en del af vores løbende engagement i at forbedre vores produkter og værktøjer for indiske brugere og gøre vores teknologi mere tilgængelig i hele landet.
IndQA evaluerer viden og ræsonnement om indisk kultur og hverdagsliv på indiske sprog. Det omfatter 2.278 spørgsmål på tværs af 12 sprog og 10 kulturelle domæner, skabt i samarbejde med 261 domæneeksperter fra hele Indien. I modsætning til eksisterende benchmarks som MMMLU og MGSM er det designet til at undersøge kulturelt nuancerede, komplekse opgaver, som eksisterende evalueringer har svært ved at fange.
IndQA dækker en bred vifte af kulturelt relevante emner, såsom arkitektur og design, kunst og kultur, hverdagsliv, mad og køkken, historie, jura og etik, litteratur og lingvistik, medier og underholdning, religion og spiritualitet samt sport og fritid – med artikler skrevet på bengali, engelsk, hindi, hinglish, kannada, marathi, odia, telugu, gujarati, malayalam, punjabi og tamil. Bemærk: Vi tilføjede specifikt Hinglish på grund af den udbredte brug af kodeskift i samtaler.
Hvert datapunkt indeholder en kulturelt forankret prompt på et indisk sprog, en engelsk oversættelse for at sikre revisionsbarhed, rubrikkriterier for bedømmelse og et ideelt svar , der afspejler eksperternes forventninger.
IndQA bruger en rubrikbaseret tilgang. Hvert svar bedømmes ud fra kriterier, der er udarbejdet af eksperter inden for det pågældende område for det specifikke spørgsmål. Kriterierne angiver, hvad et ideelt svar skal indeholde eller undgå, og hver enkelt får en vægtet pointværdi baseret på dens betydning. En modelbaseret bedømmer tjekker, om hvert kriterium er opfyldt. Den endelige score er summen af pointene for de kriterier, der er opfyldt, ud af det samlede mulige antal.
- Ekspertforfattede spørgsmål. Vi arbejdede sammen med partnere for at finde eksperter i Indien inden for 10 forskellige domæner. De udarbejdede svære, ræsonneringsfokuserede forespørgsler knyttet til deres regioner og specialer. Disse eksperter har det relevante sprog (og engelsk) som modersmål og bidrager med dybdegående fagekspertise.
- Modstridende filtrering: Hvert spørgsmål blev testet mod OpenAI's stærkeste modeller på tidspunktet for deres oprettelse: GPT‑4o, OpenAI o3, GPT‑4.5 og (delvist, efter offentlig lancering) GPT‑5. Vi beholdt kun de spørgsmål, hvor et flertal af disse modeller ikke kunne give acceptable svar, hvilket giver plads til fremskridt
- Detaljerede kriterier. Sammen med hvert spørgsmål leverede domæneeksperter kriterier, der blev brugt til at bedømme modelresponsen, svarende til en eksamensrubrik for et essayspørgsmål. Disse kriterier bruges til at bedømme svar fra kandidatmodeller.
- Ideelle svar + gennemgang. Eksperter tilføjede ideelle svar og engelske oversættelser, efterfulgt af peer review og iterative rettelser indtil endelig godkendelse.
Sprog: Bengali
Domæne: Litteratur og lingvistik
Domæne: Mad og køkken
Vi bruger IndQA til at evaluere, hvordan de nyeste modeller klarer sig og kortlægger fremskridt i de seneste par år. Med IndQA kan vi se, at OpenAI's modeller er blevet betydeligt forbedret over tid på indiske sprog (med forbehold), men de har stadig betydelig plads til forbedring. Vi ser frem til at forbedre ydeevnen og dele resultaterne for fremtidige modeller.
Vi stratificerer også ydeevnen på IndQA efter sprog og domæne nedenfor og sammenligner GPT‑5 Thinking High med andre banebrydende modeller.
Fordi spørgsmål ikke er identiske på tværs af sprog, er IndQA ikke en sproglig rangliste; scorer på tværs af sprog bør ikke fortolkes som direkte sammenligninger af sproglige evner. I stedet planlægger vi at bruge IndQA til at måle forbedring over tid inden for en modelfamilie eller konfiguration.
Da spørgsmålene blev filtreret til dem, som GPT‑4o, OpenAI o3, GPT‑4.5 og (efter offentlig lancering) GPT‑5 ikke kunne besvare tilstrækkeligt, er spørgsmålsudvælgelsen desuden modstridende i forhold til disse modeller. Dette kan potentielt forvirre den relative ydeevne af GPT‑5 og kan stille alle OpenAI-modeller dårligere sammenlignet med ikke-OpenAI-modeller.
Vi er taknemmelige for de 261 indiske eksperter – journalister, lingvister, akademikere, kunstnere og praktikere fra branchen – som har forfattet og gennemgået spørgsmål til IndQA. Et par eksempler på de eksperter, vi har arbejdet med, omfatter:
- En Nandi Award-vindende Telugu-skuespiller og manuskriptforfatter med mere end 750 film
- En marathisk journalist og redaktør hos Tarun Bharat
- En forsker inden for kannada-lingvistik og redaktør af ordbøger
- En international skakstormester, der træner skakspillere blandt de 100 bedste
- En tamilsk forfatter, digter og kulturaktivist, der kæmper for social retfærdighed, kaste-lighed og litterær frihed
- En prisvindende punjabi musikkomponist
- En gujaratisk kulturarvskurator og bevaringsspecialist
- En prisvindende malayalamsk digter og performancekunstner
- En historieprofessor, der specialiserer sig i Bengals rige kulturarv
- En professor i arkitektur, der fokuserer på Odishan-templer
Vi håber, at udgivelsen af IndQA vil informere og inspirere til oprettelse af nye benchmarks fra forskningsmiljøet. IndQA-lignende spørgsmål er særligt værdifulde på sprog eller kulturelle domæner, der er dårligt dækket af eksisterende AI-benchmarks. Ved at skabe benchmarks, der ligner IndQA, kan AI-forskningslaboratorier lære mere om de sprog og domæner, som modellerne har svært ved i dag, og få en rettesnor for fremtidige forbedringer.


