3 november 2025

Vi presenterar IndQA

Ett nytt riktmärke för utvärdering av AI-system inom indisk kultur och språk.

Ett 3x4 rutnät av rundade fyrkantiga knappar, där varje knapp innehåller ett tecken från ett annat indiskt skriftsystem eller det latinska alfabetet. Tecknen inkluderar bengali (অ), engelska (En), hindi (ह), kannada (Hi) och andra som representerar olika indiska språk, mot en ljusgrå bakgrund. Bilden antyder flerspråkigt stöd eller språkval.

Laddar …

Vårt uppdrag är att göra AGI till nytta för hela mänskligheten. Om AI ska vara användbart för alla måste det fungera bra med olika språk och kulturer. Cirka 80 procent av alla människor världen över talar inte engelska som första språk och de flesta befintliga riktmärken som mäter språkkunskaper i andra språk än engelska når inte upp till förväntningarna.

Befintliga flerspråkiga riktmärken såsom MMMLU⁠(öppnas i ett nytt fönster) är nu mättade (toppmodeller klustrar nära höga poäng) vilket gör dem mindre användbara för att mäta verkliga framsteg. Dessutom fokuserar nuvarande riktmärken mestadels på översättning eller flervalsfrågor. De fångar inte tillräckligt upp det som verkligen är viktigt för att utvärdera ett AI-systems språkliga kapacitet – att förstå sammanhang, kultur, historia och saker som är viktiga för människorna där de bor.

Därför skapade vi IndQA, ett nytt riktmärke utformat för att utvärdera hur bra AI-modeller förstår och resonerar kring frågor som är viktiga på indiska språk inom en mängd olika kulturella områden. Vårt mål är att skapa liknande riktmärken för andra språk och regioner men Indien är en självklar utgångspunkt. Indien har cirka en miljard människor som inte använder engelska som primärt språk, 22 officiella språk (inklusive minst sju med över 50 miljoner talare) och är ChatGPT:s näst största marknad.

Det här arbetet är en del av vårt pågående åtagande att förbättra våra produkter och verktyg för indiska användare samt göra vår teknik mer tillgänglig i hela landet.

Så här fungerar det

IndQA utvärderar kunskap och resonemang om indisk kultur och vardagsliv på indiska språk. Den omfattar 2 278 frågor på 12 språk och 10 kulturella områden, den är skapad i samarbete med 261 ämnesexperter från hela Indien. Den är till skillnad från befintliga riktmärken såsom MMMLU och MGSM utformad för att undersöka kulturellt nyanserade och resonemangstunga frågor som befintliga utvärderingar har svårt att fånga upp.

IndQA täcker ett brett spektrum av kulturellt relevanta ämnen såsom arkitektur, design, konst, kultur, vardagsliv, mat, matlagning, historia, juridik, etik, litteratur, lingvistik, media, underhållning, religion och andlighet samt sport och fritid med texter skrivna på bengali, engelska, hindi, hinglish, kannada, marathi, odia, telugu, gujarati, malayalam, punjabi och tamil. Obs: vi lade specifikt till hinglish med tanke på hur vanligt det är med kodbyte i konversationer.

Varje datapunkt innehåller en kulturellt förankrad fråga på ett indiskt språk, en engelsk översättning för granskning, bedömningskriterier för betygsättning och ett perfekt svar som återspeglar experternas förväntningar.

Diagram som illustrerar utvärderingsprocessen: ett exempel på en användarkonversation, ett kandidatsvar och en matristabell som används för att poängsätta svaret efter kriterier.

IndQA använder en matrisbaserad metod. Varje svar betygsätts utifrån kriterier skrivna av områdesexperter för den specifika frågan. Kriterierna förklarar vad ett perfekt svar bör innehålla eller undvika och varje kriterium tilldelas ett viktat poängvärde baserat på dess betydelse. En modellbaserad bedömare kontrollerar om varje kriterium är uppfyllt. Slutresultatet är summan av poängen för de kriterier som uppfyllts av det totala möjliga.

Hur vi byggde IndQA

Frågor ställda av experter. Vi samarbetade med partners för att hitta experter i Indien inom 10 olika domäner. De utarbetade svåra och resonemangsfokuserade frågor kopplade till deras regioner och specialiteter. Dessa experter har det relevanta språket (och engelska) som modersmål och djupgående ämnesexpertis.
Kontradiktorisk filtrering: Varje fråga testades mot OpenAI:s starkaste modeller vid tidpunkten för deras skapande: GPT‑4o, OpenAI o3, GPT‑4.5 och (delvis, efter offentlig lansering) GPT‑5. Vi behöll endast de frågor där majoriteten av dessa modeller inte kunde ge acceptabla svar, vilket gav utrymme för förbättringar.
Detaljerade kriterier. Tillsammans med varje fråga gav ämnesexperter kriterier som användes för att bedöma modellens svar liknande en betygsmall för en uppsatsfråga. Dessa kriterier används för att bedöma svar från kandidatmodeller.
Perfekta svar + granskning. Experter lade till perfekta svar och engelska översättningar följt av granskning av kollegor och iterativa korrigeringar fram till godkännande.

Exempelfrågor

Språk: bengali

Område: Litteratur och lingvistik

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Område: Mat och matlagning

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Förbättringar över tid

Vi använder IndQA för att utvärdera hur de senaste avancerade modellerna presterar och spåra framstegen under de senaste åren. Med IndQA kan vi se att OpenAI:s modeller har förbättrats avsevärt över tid på indiska språk (med förbehåll⁠), men det finns fortfarande stort utrymme för förbättring. Vi ser fram emot att förbättra prestationen och dela resultat för framtida modeller.

Vi stratifierar även prestationen hos IndQA efter språk och domän nedan och jämför GPT‑5 Thinking High med andra ledande modeller.

Förbehåll

Eftersom frågorna inte är identiska mellan olika språk är IndQA inte en språklig topplista. Poäng över olika språk bör inte tolkas som direkta jämförelser av språkförmåga. Vi planerar istället att använda IndQA för att mäta förbättring över tid inom en modellfamilj eller konfiguration.

Dessutom, eftersom frågorna filtrerades till sådana som GPT‑4o, OpenAI o3, GPT‑4.5 och (efter den offentliga lanseringen) GPT‑5 inte kunde besvara tillräckligt, är frågeurvalet motstridigt mot dessa modeller. Detta kan potentiellt förvirra den relativa prestandan hos GPT‑5 och kan missgynna alla OpenAI-modeller jämfört med icke-OpenAI-modeller.

Experterna bakom IndQA

Vi är tacksamma för de 261 indiska experterna (journalister, lingvister, forskare, konstnärer och branschutövare) som författat och granskat frågor för IndQA. Några exempel på de experter vi arbetar med inkluderar:

En Nandi Award-vinnande telugu-skådespelare och manusförfattare med över 750 filmer
En marathisk journalist och redaktör på Tarun Bharat
En forskare i kannadaspråk och ordboksredaktör
En internationell schackstormästare som tränar de 100 bästa schackspelarna
En tamilsk författare, poet och kulturaktivist som förespråkar social rättvisa, kasträttvisa och litterär frihet
En prisbelönt punjabisk musikkompositör
En gujaratisk kulturarvsintendent och bevarandespecialist
En prisbelönt malayalamsk poet och performancekonstnär
En professor i historia specialiserad på Bengals rika kulturarv
En professor i arkitektur, med fokus på Odishan-tempel

Nästa steg

Vi hoppas att lanseringen av IndQA kommer att informera och inspirera forskarsamhället till att skapa nya riktmärken. IndQA-liknande frågor är särskilt värdefulla inom språk och kulturella områden som inte täcks tillräckligt av befintliga AI-riktmärken. Att skapa liknande riktmärken som IndQA kan hjälpa AI-forskningslabb att lära sig mer om språk och områden som modeller kämpar med idag och ge en indikator på framtida förbättringar.

Författare

OpenAI

Fortsätt läsa

Visa alla

GPT-5.6: Banbrytande intelligens som skalar med dina ambitioner

Produkt9 juli 2026

Skilja signal från brus i kodningsutvärderingar

Forskning8 juli 2026

Vi presenterar GPT-Live

Produkt8 juli 2026