Présentation d'IndQA
Un nouveau benchmark pour évaluer les systèmes d'IA sur la culture et les langues indiennes.

Notre mission est de faire en sorte que l'intelligence artificielle générale (AGI) bénéficie à toute l'humanité. Pour que l'IA soit réellement utile à toutes et à tous, elle doit fonctionner efficacement dans toutes les langues et cultures. Environ 80 % de la population mondiale n'a pas l'anglais pour langue principale, et pourtant la plupart des benchmarks existants évaluant les compétences linguistiques hors anglais restent insuffisants.
Les benchmarks multilingues existants comme MMMLU(ouverture dans une nouvelle fenêtre) sont désormais saturés : les meilleurs modèles affichent tous des scores élevés, ce qui les rend moins pertinents pour mesurer les progrès réels. De plus, les benchmarks actuels se concentrent principalement sur des tâches de traduction ou à choix multiples. Ils ne mesurent pas de manière satisfaisante les aspects essentiels pour évaluer les capacités linguistiques d'un système d'IA : la compréhension du contexte, de la culture, de l'histoire et des réalités propres à chaque région.
C'est pourquoi nous avons créé IndQA, un nouveau benchmark conçu pour évaluer la capacité des modèles d'IA à comprendre et à analyser des questions importantes dans les langues indiennes, à travers une large diversité de domaines de connaissance. Notre objectif est de créer des benchmarks similaires pour d'autres langues et régions, mais l'Inde s'imposait comme point de départ évident. L'Inde compte près d'un milliard de personnes dont l'anglais n'est pas la langue principale, 22 langues officielles (dont au moins sept comptent plus de 50 millions de locuteurs), et représente le deuxième marché mondial de ChatGPT.
Ce projet s'inscrit dans notre engagement continu à améliorer nos produits et outils pour les utilisateurs et utilisatrices en Inde, et à rendre notre technologie plus accessible dans tout le pays.
IndQA évalue la connaissance et le raisonnement autour de la culture indienne et de la vie quotidienne, dans les différentes langues du pays. Il comprend 2 278 questions couvrant 12 langues et 10 domaines de connaissance, élaborées en collaboration avec 261 spécialistes de partout en Inde. Contrairement aux benchmarks existants, comme MMMLU et MGSM, IndQA a été conçu pour explorer des tâches complexes, fortement ancrées dans le contexte culturel, que les évaluations actuelles peinent à mesurer.
IndQA couvre un large éventail de thématiques culturellement pertinentes : architecture et design, arts et culture, vie quotidienne, gastronomie, histoire, droit et éthique, littérature et linguistique, médias et divertissement, religion et spiritualité, ainsi que sports et loisirs, avec des questions rédigées en bengali, anglais, hindi, hinglish, kannada, marathi, odia, télougou, gujarati, malayalam, pendjabi et tamoul. Remarque : nous avons ajouté le hinglish afin de refléter la fréquence du mélange des langues dans les conversations réelles.
Chaque donnée comprend un prompt culturellement ancré dans une langue indienne, une traduction anglaise à des fins de vérification, des critères d'évaluation détaillés et une réponse de référence reflétant les attentes des experts.
IndQA repose sur une approche basée sur des grilles d'évaluation. Chaque réponse est notée selon des critères définis par des experts pour la question correspondante. Ces critères précisent ce qu'une réponse de référence doit contenir ou éviter, chaque élément recevant un poids spécifique en fonction de son importance. Un système d'évaluation automatisé vérifie ensuite si chaque critère est respecté. Le score final correspond à la somme des points obtenus pour les critères remplis sur le total possible.
- Questions rédigées par des experts. Nous avons collaboré avec plusieurs partenaires pour identifier des spécialistes en Inde dans dix domaines différents. Ces experts ont rédigé des prompts complexes axés sur le raisonnement, en lien avec leur région et leur domaine de spécialisation. Ils et elles sont locuteurs natifs de la langue concernée (ainsi que de l'anglais) et apportent une expertise approfondie dans leur discipline.
- Filtrage par confrontation : Chaque question a été testée sur les modèles les plus performants d'OpenAI au moment de leur création : GPT‑4o, OpenAI o3, GPT‑4.5 et, partiellement après le lancement public, GPT‑5. Nous n'avons conservé que les questions pour lesquelles la majorité de ces modèles n'ont pas réussi à produire de réponses satisfaisantes, afin de laisser une marge de progression.
- Critères détaillés. Pour chaque question, des spécialistes du domaine ont défini les critères d'évaluation des réponses, comparables à une grille de notation d'examen pour une question de dissertation. Ces critères servent à évaluer la qualité des résultats fournis par les modèles testés.
- Réponses de référence + révision. Les experts ont ajouté des réponses de référence et des traductions en anglais, suivies d'une validation par les pairs et de corrections itératives jusqu'à l'approbation finale.
Langue : bengali
Domaine : littérature et linguistique
Domaine : cuisine et gastronomie
Nous utilisons IndQA pour évaluer les performances des modèles de pointe récents et suivre leurs progrès au cours des dernières années. Avec IndQA, nous observons que les modèles d'OpenAI se sont nettement améliorés dans les langues indiennes (avec des réserves), tout en laissant une importante marge de progression. Nous avons hâte de continuer à améliorer les performances et de partager les résultats des futurs modèles.
Nous analysons également les performances d'IndQA par langue et par domaine, en comparant GPT‑5 Thinking High à d'autres modèles de pointe.
Les questions n'étant pas identiques d'une langue à l'autre, IndQA n'est pas un classement linguistique : les scores interlangues ne doivent pas être interprétés comme des comparaisons directes de compétence linguistique. Notre objectif est plutôt de mesurer, avec IndQA, les progrès au fil du temps au sein d'une même famille ou configuration de modèles.
De plus, comme les questions ont été filtrées pour ne conserver que celles auxquelles GPT‑4o, OpenAI o3, GPT‑4.5 et (après le lancement public) GPT‑5 n'ont pas su répondre de manière satisfaisante, la sélection des questions est conçue de manière à défavoriser ces modèles. Cela peut fausser la comparaison des performances relatives de GPT‑5 et désavantager l'ensemble des modèles OpenAI par rapport aux modèles d'autres éditeurs.
Nous remercions chaleureusement les 261 experts indiens — journalistes, linguistes, universitaires, artistes et professionnel·les — qui ont rédigé et relu les questions d'IndQA. Voici quelques exemples des experts avec lesquels nous avons collaboré :
- Un·e acteur·rice et scénariste télougou lauréat·e d'un Nandi Award, avec plus de 750 films à son actif
- Un·e journaliste et rédacteur·trice marathi du quotidien Tarun Bharat
- Un·e spécialiste de linguistique kannada et rédacteur·trice de dictionnaire
- Un·e Grand·e Maître international·e d'échecs entraînant des joueurs du top 100 mondial
- Un·e écrivain·e, poète et militant·e culturel·le tamoul·e engagé·e pour la justice sociale, l'égalité entre les castes et la liberté littéraire
- Un·e compositeur·trice de musique pendjabie primé·e
- Un·e conservateur·trice du patrimoine gujarati et spécialiste de la conservation
- Un·e poète et artiste de performance malayalam primé·e
- Un·e professeur·e d'histoire spécialisé·e dans le riche patrimoine culturel du Bengale
- Un·e professeur·e d'architecture spécialisé·e dans les temples d'Odisha
Nous espérons que la publication d'IndQA inspirera la communauté de recherche et encouragera la création de nouveaux benchmarks. Les questions de type IndQA sont particulièrement utiles pour les langues ou domaines de connaissance peu représentés dans les benchmarks d'IA existants. Créer des benchmarks similaires à IndQA peut aider les laboratoires de recherche en IA à mieux comprendre les langues et domaines où les modèles rencontrent encore des difficultés, tout en servant de cap pour guider les améliorations futures.


