Overslaan naar hoofdinhoud
OpenAI

3 november 2025

OnderzoekRelease

Maak kennis met IndQA

Een nieuwe benchmark voor het evalueren van AI-systemen over de Indiase cultuur en talen.

Een 3x4 raster van afgeronde vierkante knoppen, elk met een teken uit een ander Indiaas schrift of het Latijnse alfabet. De tekens omvatten Bengali (অ), Engels (En), Hindi (ह), Kannada (Hi) en andere die verschillende Indiase talen vertegenwoordigen, geplaatst tegen een lichtgrijze achtergrond. De afbeelding suggereert meertalige ondersteuning of taalselectie.
Bezig met laden...

Onze missie is om AGI de hele mensheid ten goede te laten komen. Als AI nuttig wil zijn voor iedereen, moet het goed functioneren in verschillende talen en culturen. Ongeveer 80% van de mensen wereldwijd spreekt geen Engels als hun hoofdtaal, maar toch schieten de meeste bestaande benchmarks die niet-Engelse taalvaardigheden meten tekort. 

Bestaande meertalige benchmarks zoals MMMLU(opent in een nieuw venster) zijn nu verzadigd—topmodellen clusteren dicht bij hoge scores—waardoor ze minder bruikbaar zijn voor het meten van echte vooruitgang. Bovendien richten de huidige benchmarks zich voornamelijk op vertaal- of meerkeuzetaken. Ze leggen niet voldoende vast wat echt belangrijk is voor het evalueren van de taalvaardigheid van een AI-systeem: het begrijpen van context, cultuur, geschiedenis en de dingen die belangrijk zijn voor mensen waar ze wonen.

Daarom hebben we IndQA gebouwd, een nieuwe benchmark die is ontworpen om te evalueren hoe goed AI-modellen vragen begrijpen en beredeneren die er toe doen in Indiase talen, in een breed scala van culturele domeinen. Hoewel ons doel is om vergelijkbare benchmarks voor andere talen en regio's te maken, is India een voor de hand liggend startpunt. India heeft ongeveer een miljard mensen die geen Engels als hun primaire taal gebruiken, 22 officiële talen (waaronder ten minste zeven met meer dan 50 miljoen sprekers) en is de op een na grootste markt voor ChatGPT.  

Dit werk maakt deel uit van ons voortdurende streven om onze producten en tools voor Indiase gebruikers te verbeteren en onze technologie in het hele land toegankelijker te maken.

Hoe het werkt

IndQA evalueert kennis en redenering over de Indiase cultuur en het dagelijks leven in Indiase talen. Het omvat 2.278 vragen in 12 talen en 10 culturele domeinen, gemaakt in samenwerking met 261 domeinexperts uit heel India. In tegenstelling tot bestaande benchmarks zoals MMMLU en MGSM, is het ontworpen om cultureel genuanceerde, redeneerintensieve taken te onderzoeken die bestaande evaluaties moeilijk kunnen vastleggen.

IndQA bestrijkt een breed scala aan cultureel relevante onderwerpen, zoals architectuur en design, kunst en cultuur, dagelijks leven, eten en koken, geschiedenis, recht en ethiek, literatuur en taalkunde, media en entertainment, religie en spiritualiteit en sport en recreatie—met items die oorspronkelijk zijn geschreven in Bengaals, Engels, Hindi, Hinglish, Kannada, Marathi, Odia, Telugu, Gujarati, Malayalam, Punjabi en Tamil. Opmerking: We hebben specifiek Hinglish toegevoegd vanwege de veelvoorkomende code-switching in gesprekken.

Elk datapunt bevat een cultureel verankerde prompt in een Indiase taal, een Engelse vertaling voor controleerbaarheid, rubriekcriteria voor beoordeling en een ideaal antwoord dat de verwachtingen van experts weerspiegelt.

Diagram dat het evaluatieproces illustreert: een voorbeeldgesprek tussen een gebruiker en een assistent, een antwoord van een kandidaat en een rubricatietabel die wordt gebruikt om het antwoord te beoordelen op criteria.

IndQA gebruikt een rubricagebaseerde aanpak. Elk antwoord wordt beoordeeld aan de hand van criteria die zijn opgesteld door domeinexperts voor die specifieke vraag. De criteria geven aan wat een ideaal antwoord moet bevatten of vermijden, en elk krijgt een gewogen puntenwaarde op basis van het belang. Een modelgebaseerde beoordelaar controleert of aan elk criterium wordt voldaan. De eindscore is de som van de punten voor de criteria die zijn vervuld van het totaal mogelijke.

Hoe we IndQA hebben gebouwd

  • Door experts geschreven vragen. We werkten samen met partners om experts in India te vinden in tien verschillende domeinen. Ze stelden moeilijke, redeneringsgerichte prompts op die verband hielden met hun regio's en specialismen. Deze experts zijn moedertaalsprekers van de relevante taal (en Engels) en brengen diepgaande vakkennis mee.
  • Adversarieel filteren: Elke vraag werd getest tegen de sterkste modellen van OpenAI op het moment van hun creatie: GPT‑4o, OpenAI o3, GPT‑4.5, en (gedeeltelijk, na de publieke lancering) GPT‑5. We hebben alleen die vragen behouden waarop een meerderheid van deze modellen geen acceptabele antwoorden kon geven, zodat er ruimte overbleef voor vooruitgang.
  • Gedetailleerde criteria. Samen met elke vraag gaven domeinexperts criteria op die werden gebruikt om de modelreactie te beoordelen, vergelijkbaar met een beoordelingsrubriek voor een essayvraag. Deze criteria worden gebruikt om reacties van kandidaatmodellen te beoordelen.
  • Ideale antwoorden + review. Experts voegden ideale antwoorden en Engelse vertalingen toe, gevolgd door peer review en iteratieve verbeteringen tot aan de goedkeuring.

Voorbeeldvragen

Taal: Bengaals

Domein: Literatuur en taalkunde

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Domein: Voeding en keuken

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Verbeteringen in de loop van de tijd

Met behulp van IndQA evalueren we hoe recente grensverleggende modellen presteren en brengen we de vooruitgang van de afgelopen jaren in kaart. Met IndQA kunnen we zien dat de modellen van OpenAI in de loop van de tijd aanzienlijk zijn verbeterd in Indiase talen (met voorbehouden), maar dat er nog steeds veel ruimte voor verbetering is. We kijken ernaar uit om de prestaties te verbeteren en resultaten te delen voor toekomstige modellen.

We stratificeren hieronder ook de prestaties op IndQA naar taal en domein, waarbij we GPT‑5 Thinking High vergelijken met andere grensmodellen.

Kanttekeningen

Omdat vragen niet identiek zijn in verschillende talen, is IndQA geen taalklassement; scores voor verschillende talen moeten niet worden gezien als directe vergelijkingen van taalvaardigheid. In plaats daarvan zijn we van plan IndQA te gebruiken om verbetering in de loop van de tijd te meten binnen een modelfamilie of configuratie.

Bovendien werden de vragen gefilterd op vragen die GPT‑4o, OpenAI o3, GPT‑4.5 en (na de publieke lancering) GPT‑5 niet voldoende konden beantwoorden, waardoor de vraagselectie tegen deze modellen is gericht. Dit kan de relatieve prestaties van GPT‑5 verwarren en kan alle OpenAI-modellen benadelen in vergelijking met niet-OpenAI-modellen.

De experts achter IndQA

We zijn de 261 Indiase experts—journalisten, taalkundigen, wetenschappers, kunstenaars en industrieprofessionals—dankbaar die vragen voor IndQA hebben geschreven en beoordeeld. Enkele voorbeelden van de experts waarmee we hebben samengewerkt zijn:

  • Een Nandi Award-winnende Telugu acteur en scenarioschrijver met meer dan 750 films op zijn naam
  • Een Marathi-journalist en redacteur bij Tarun Bharat 
  • Een wetenschapper in de Kannada-taalkunde en redacteur van een woordenboek
  • Een internationale schaakgrootmeester die top-100 schakers coacht
  • Een Tamil schrijver, dichter en cultureel activist die pleit voor sociale rechtvaardigheid, kastegelijkheid en literaire vrijheid
  • Een prijswinnende Punjabi muziekcomponist
  • Een Gujarati erfgoedcurator en conservatiespecialist
  • Een prijswinnende Malayalam dichter en performancekunstenaar
  • Een professor geschiedenis, gespecialiseerd in het rijke culturele erfgoed van Bengalen
  • Een hoogleraar architectuur, gespecialiseerd in Odishaanse tempels

Volgende stappen

We hopen dat de release van IndQA de onderzoeksgemeenschap zal informeren en inspireren tot het creëren van nieuwe benchmarks. IndQA-stijlvragen zijn vooral waardevol in talen of culturele domeinen die slecht worden gedekt door bestaande AI-benchmarks. Door vergelijkbare benchmarks zoals IndQA te creëren, kunnen AI-onderzoekslaboratoria meer leren over talen en domeinen waar modellen momenteel moeite mee hebben, en een leidraad bieden voor toekomstige verbeteringen.