
Vårt uppdrag är att göra AGI till nytta för hela mänskligheten. Om AI ska vara användbart för alla måste det fungera bra med olika språk och kulturer. Cirka 80 procent av alla människor världen över talar inte engelska som första språk och de flesta befintliga riktmärken som mäter språkkunskaper i andra språk än engelska når inte upp till förväntningarna.
Befintliga flerspråkiga riktmärken såsom MMMLU(öppnas i ett nytt fönster) är nu mättade (toppmodeller klustrar nära höga poäng) vilket gör dem mindre användbara för att mäta verkliga framsteg. Dessutom fokuserar nuvarande riktmärken mestadels på översättning eller flervalsfrågor. De fångar inte tillräckligt upp det som verkligen är viktigt för att utvärdera ett AI-systems språkliga kapacitet – att förstå sammanhang, kultur, historia och saker som är viktiga för människorna där de bor.
Därför skapade vi IndQA, ett nytt riktmärke utformat för att utvärdera hur bra AI-modeller förstår och resonerar kring frågor som är viktiga på indiska språk inom en mängd olika kulturella områden. Vårt mål är att skapa liknande riktmärken för andra språk och regioner men Indien är en självklar utgångspunkt. Indien har cirka en miljard människor som inte använder engelska som primärt språk, 22 officiella språk (inklusive minst sju med över 50 miljoner talare) och är ChatGPT:s näst största marknad.
Det här arbetet är en del av vårt pågående åtagande att förbättra våra produkter och verktyg för indiska användare samt göra vår teknik mer tillgänglig i hela landet.
IndQA utvärderar kunskap och resonemang om indisk kultur och vardagsliv på indiska språk. Den omfattar 2 278 frågor på 12 språk och 10 kulturella områden, den är skapad i samarbete med 261 ämnesexperter från hela Indien. Den är till skillnad från befintliga riktmärken såsom MMMLU och MGSM utformad för att undersöka kulturellt nyanserade och resonemangstunga frågor som befintliga utvärderingar har svårt att fånga upp.
IndQA täcker ett brett spektrum av kulturellt relevanta ämnen såsom arkitektur, design, konst, kultur, vardagsliv, mat, matlagning, historia, juridik, etik, litteratur, lingvistik, media, underhållning, religion och andlighet samt sport och fritid med texter skrivna på bengali, engelska, hindi, hinglish, kannada, marathi, odia, telugu, gujarati, malayalam, punjabi och tamil. Obs: vi lade specifikt till hinglish med tanke på hur vanligt det är med kodbyte i konversationer.
Varje datapunkt innehåller en kulturellt förankrad fråga på ett indiskt språk, en engelsk översättning för granskning, bedömningskriterier för betygsättning och ett perfekt svar som återspeglar experternas förväntningar.
IndQA använder en matrisbaserad metod. Varje svar betygsätts utifrån kriterier skrivna av områdesexperter för den specifika frågan. Kriterierna förklarar vad ett perfekt svar bör innehålla eller undvika och varje kriterium tilldelas ett viktat poängvärde baserat på dess betydelse. En modellbaserad bedömare kontrollerar om varje kriterium är uppfyllt. Slutresultatet är summan av poängen för de kriterier som uppfyllts av det totala möjliga.
- Frågor ställda av experter. Vi samarbetade med partners för att hitta experter i Indien inom 10 olika domäner. De utarbetade svåra och resonemangsfokuserade frågor kopplade till deras regioner och specialiteter. Dessa experter har det relevanta språket (och engelska) som modersmål och djupgående ämnesexpertis.
- Kontradiktorisk filtrering: Varje fråga testades mot OpenAI:s starkaste modeller vid tidpunkten för deras skapande: GPT‑4o, OpenAI o3, GPT‑4.5 och (delvis, efter offentlig lansering) GPT‑5. Vi behöll endast de frågor där majoriteten av dessa modeller inte kunde ge acceptabla svar, vilket gav utrymme för förbättringar.
- Detaljerade kriterier. Tillsammans med varje fråga gav ämnesexperter kriterier som användes för att bedöma modellens svar liknande en betygsmall för en uppsatsfråga. Dessa kriterier används för att bedöma svar från kandidatmodeller.
- Perfekta svar + granskning. Experter lade till perfekta svar och engelska översättningar följt av granskning av kollegor och iterativa korrigeringar fram till godkännande.
Språk: bengali
Område: Litteratur och lingvistik
Område: Mat och matlagning
Vi använder IndQA för att utvärdera hur de senaste avancerade modellerna presterar och spåra framstegen under de senaste åren. Med IndQA kan vi se att OpenAI:s modeller har förbättrats avsevärt över tid på indiska språk (med förbehåll), men det finns fortfarande stort utrymme för förbättring. Vi ser fram emot att förbättra prestationen och dela resultat för framtida modeller.
Vi stratifierar även prestationen hos IndQA efter språk och domän nedan och jämför GPT‑5 Thinking High med andra ledande modeller.
Eftersom frågorna inte är identiska mellan olika språk är IndQA inte en språklig topplista. Poäng över olika språk bör inte tolkas som direkta jämförelser av språkförmåga. Vi planerar istället att använda IndQA för att mäta förbättring över tid inom en modellfamilj eller konfiguration.
Dessutom, eftersom frågorna filtrerades till sådana som GPT‑4o, OpenAI o3, GPT‑4.5 och (efter den offentliga lanseringen) GPT‑5 inte kunde besvara tillräckligt, är frågeurvalet motstridigt mot dessa modeller. Detta kan potentiellt förvirra den relativa prestandan hos GPT‑5 och kan missgynna alla OpenAI-modeller jämfört med icke-OpenAI-modeller.
Vi är tacksamma för de 261 indiska experterna (journalister, lingvister, forskare, konstnärer och branschutövare) som författat och granskat frågor för IndQA. Några exempel på de experter vi arbetar med inkluderar:
- En Nandi Award-vinnande telugu-skådespelare och manusförfattare med över 750 filmer
- En marathisk journalist och redaktör på Tarun Bharat
- En forskare i kannadaspråk och ordboksredaktör
- En internationell schackstormästare som tränar de 100 bästa schackspelarna
- En tamilsk författare, poet och kulturaktivist som förespråkar social rättvisa, kasträttvisa och litterär frihet
- En prisbelönt punjabisk musikkompositör
- En gujaratisk kulturarvsintendent och bevarandespecialist
- En prisbelönt malayalamsk poet och performancekonstnär
- En professor i historia specialiserad på Bengals rika kulturarv
- En professor i arkitektur, med fokus på Odishan-tempel
Vi hoppas att lanseringen av IndQA kommer att informera och inspirera forskarsamhället till att skapa nya riktmärken. IndQA-liknande frågor är särskilt värdefulla inom språk och kulturella områden som inte täcks tillräckligt av befintliga AI-riktmärken. Att skapa liknande riktmärken som IndQA kan hjälpa AI-forskningslabb att lära sig mer om språk och områden som modeller kämpar med idag och ge en indikator på framtida förbättringar.


