Gå til hovedindhold
OpenAI

3. november 2025

ResearchUdgivelse

Vi introducerer IndQA

Et nyt benchmark til evaluering af AI-systemer inden for indisk kultur og sprog.

Et 3x4 gitter af afrundede firkantede knapper, som hver indeholder et tegn fra en anden indisk skrift eller det latinske alfabet. Tegnene omfatter bengali (অ), engelsk (En), hindi (ह), kannada (Hi) og andre tegn, der repræsenterer forskellige indiske sprog, på en lysegrå baggrund. Billedet indikerer flersproget support eller valg af sprog.
Indlæser ...

Vores mission er at gøre AGI til gavn for hele menneskeheden. Hvis AI skal være nyttigt for alle, skal det fungere godt på tværs af sprog og kulturer. Omkring 80 procent af verdens befolkning taler ikke engelsk som deres primære sprog, men de fleste eksisterende benchmarks, der måler ikke-engelsksproglige færdigheder, lever ikke op til forventningerne. 

Eksisterende flersprogede benchmarks som MMMLU(åbner i et nyt vindue) er nu mættede – de bedste modeller ligger tæt på de højeste scores, hvilket gør dem mindre nyttige til at måle reelle fremskridt. Derudover fokuserer de nuværende benchmarks primært på oversættelse eller multiple-choice opgaver. De indfanger ikke tilstrækkeligt, hvad der virkelig betyder noget for at evaluere et AI-systems sproglige evner – forståelse af kontekst, kultur, historie og de ting, der betyder noget for folk, hvor de bor.

Derfor har vi udviklet IndQA, et nyt benchmark designet til at evaluere, hvor godt AI-modeller forstår og anvender avanceret tænkning om spørgsmål, der betyder noget på indiske sprog, på tværs af en bred vifte af kulturelle domæner. Mens vores mål er at skabe lignende benchmarks for andre sprog og regioner, er Indien et oplagt udgangspunkt. Indien har omkring en milliard mennesker, der ikke bruger engelsk som deres primære sprog, 22 officielle sprog (herunder mindst syv med over 50 millioner, der taler det pågældende sprog), og er ChatGPT's næststørste marked.  

Dette arbejde er en del af vores løbende engagement i at forbedre vores produkter og værktøjer for indiske brugere og gøre vores teknologi mere tilgængelig i hele landet.

Sådan fungerer det

IndQA evaluerer viden og ræsonnement om indisk kultur og hverdagsliv på indiske sprog. Det omfatter 2.278 spørgsmål på tværs af 12 sprog og 10 kulturelle domæner, skabt i samarbejde med 261 domæneeksperter fra hele Indien. I modsætning til eksisterende benchmarks som MMMLU og MGSM er det designet til at undersøge kulturelt nuancerede, komplekse opgaver, som eksisterende evalueringer har svært ved at fange.

IndQA dækker en bred vifte af kulturelt relevante emner, såsom arkitektur og design, kunst og kultur, hverdagsliv, mad og køkken, historie, jura og etik, litteratur og lingvistik, medier og underholdning, religion og spiritualitet samt sport og fritid – med artikler skrevet på bengali, engelsk, hindi, hinglish, kannada, marathi, odia, telugu, gujarati, malayalam, punjabi og tamil. Bemærk: Vi tilføjede specifikt Hinglish på grund af den udbredte brug af kodeskift i samtaler.

Hvert datapunkt indeholder en kulturelt forankret prompt på et indisk sprog, en engelsk oversættelse for at sikre revisionsbarhed, rubrikkriterier for bedømmelse og et ideelt svar , der afspejler eksperternes forventninger.

Diagram, der illustrerer evalueringsprocessen: et eksempel på en samtale mellem bruger og assistent, et kandidatsvar og en rubrikskema, der bruges til at bedømme svaret ud fra kriterier.

IndQA bruger en rubrikbaseret tilgang. Hvert svar bedømmes ud fra kriterier, der er udarbejdet af eksperter inden for det pågældende område for det specifikke spørgsmål. Kriterierne angiver, hvad et ideelt svar skal indeholde eller undgå, og hver enkelt får en vægtet pointværdi baseret på dens betydning. En modelbaseret bedømmer tjekker, om hvert kriterium er opfyldt. Den endelige score er summen af pointene for de kriterier, der er opfyldt, ud af det samlede mulige antal.

Sådan byggede vi IndQA

  • Ekspertforfattede spørgsmål. Vi arbejdede sammen med partnere for at finde eksperter i Indien inden for 10 forskellige domæner. De udarbejdede svære, ræsonneringsfokuserede forespørgsler knyttet til deres regioner og specialer. Disse eksperter har det relevante sprog (og engelsk) som modersmål og bidrager med dybdegående fagekspertise.
  • Modstridende filtrering: Hvert spørgsmål blev testet mod OpenAI's stærkeste modeller på tidspunktet for deres oprettelse: GPT‑4o, OpenAI o3, GPT‑4.5 og (delvist, efter offentlig lancering) GPT‑5. Vi beholdt kun de spørgsmål, hvor et flertal af disse modeller ikke kunne give acceptable svar, hvilket giver plads til fremskridt
  • Detaljerede kriterier. Sammen med hvert spørgsmål leverede domæneeksperter kriterier, der blev brugt til at bedømme modelresponsen, svarende til en eksamensrubrik for et essayspørgsmål. Disse kriterier bruges til at bedømme svar fra kandidatmodeller.
  • Ideelle svar + gennemgang. Eksperter tilføjede ideelle svar og engelske oversættelser, efterfulgt af peer review og iterative rettelser indtil endelig godkendelse.

Eksempler på spørgsmål

Sprog: Bengali

Domæne: Litteratur og lingvistik

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Domæne: Mad og køkken

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Forbedringer over tid

Vi bruger IndQA til at evaluere, hvordan de nyeste modeller klarer sig og kortlægger fremskridt i de seneste par år. Med IndQA kan vi se, at OpenAI's modeller er blevet betydeligt forbedret over tid på indiske sprog (med forbehold), men de har stadig betydelig plads til forbedring. Vi ser frem til at forbedre ydeevnen og dele resultaterne for fremtidige modeller.

Vi stratificerer også ydeevnen på IndQA efter sprog og domæne nedenfor og sammenligner GPT‑5 Thinking High med andre banebrydende modeller.

Forbehold

Fordi spørgsmål ikke er identiske på tværs af sprog, er IndQA ikke en sproglig rangliste; scorer på tværs af sprog bør ikke fortolkes som direkte sammenligninger af sproglige evner. I stedet planlægger vi at bruge IndQA til at måle forbedring over tid inden for en modelfamilie eller konfiguration.

Da spørgsmålene blev filtreret til dem, som GPT‑4o, OpenAI o3, GPT‑4.5 og (efter offentlig lancering) GPT‑5 ikke kunne besvare tilstrækkeligt, er spørgsmålsudvælgelsen desuden modstridende i forhold til disse modeller. Dette kan potentielt forvirre den relative ydeevne af GPT‑5 og kan stille alle OpenAI-modeller dårligere sammenlignet med ikke-OpenAI-modeller.

Eksperterne bag IndQA

Vi er taknemmelige for de 261 indiske eksperter – journalister, lingvister, akademikere, kunstnere og praktikere fra branchen – som har forfattet og gennemgået spørgsmål til IndQA. Et par eksempler på de eksperter, vi har arbejdet med, omfatter:

  • En Nandi Award-vindende Telugu-skuespiller og manuskriptforfatter med mere end 750 film
  • En marathisk journalist og redaktør hos Tarun Bharat 
  • En forsker inden for kannada-lingvistik og redaktør af ordbøger
  • En international skakstormester, der træner skakspillere blandt de 100 bedste
  • En tamilsk forfatter, digter og kulturaktivist, der kæmper for social retfærdighed, kaste-lighed og litterær frihed
  • En prisvindende punjabi musikkomponist
  • En gujaratisk kulturarvskurator og bevaringsspecialist
  • En prisvindende malayalamsk digter og performancekunstner
  • En historieprofessor, der specialiserer sig i Bengals rige kulturarv
  • En professor i arkitektur, der fokuserer på Odishan-templer

De næste trin

Vi håber, at udgivelsen af IndQA vil informere og inspirere til oprettelse af nye benchmarks fra forskningsmiljøet. IndQA-lignende spørgsmål er særligt værdifulde på sprog eller kulturelle domæner, der er dårligt dækket af eksisterende AI-benchmarks. Ved at skabe benchmarks, der ligner IndQA, kan AI-forskningslaboratorier lære mere om de sprog og domæner, som modellerne har svært ved i dag, og få en rettesnor for fremtidige forbedringer.