3 novembre 2025

Présentation d'IndQA

Un nouveau benchmark pour évaluer les systèmes d'IA sur la culture et les langues indiennes.

Une grille de 3 x 4 boutons carrés aux coins arrondis, chacun affichant un caractère provenant d’un alphabet indien différent ou de l'alphabet latin. Les caractères incluent le bengali (অ), l'anglais (En), l'hindi (ह), le kannada (Hi) et d’autres représentant diverses langues indiennes, sur un fond gris clair. L'image évoque la prise en charge multilingue ou la sélection de langue.

Chargement...

Notre mission est de faire en sorte que l'intelligence artificielle générale (AGI) bénéficie à toute l'humanité. Pour que l'IA soit réellement utile à toutes et à tous, elle doit fonctionner efficacement dans toutes les langues et cultures. Environ 80 % de la population mondiale n'a pas l'anglais pour langue principale, et pourtant la plupart des benchmarks existants évaluant les compétences linguistiques hors anglais restent insuffisants.

Les benchmarks multilingues existants comme MMMLU⁠(ouverture dans une nouvelle fenêtre) sont désormais saturés : les meilleurs modèles affichent tous des scores élevés, ce qui les rend moins pertinents pour mesurer les progrès réels. De plus, les benchmarks actuels se concentrent principalement sur des tâches de traduction ou à choix multiples. Ils ne mesurent pas de manière satisfaisante les aspects essentiels pour évaluer les capacités linguistiques d'un système d'IA : la compréhension du contexte, de la culture, de l'histoire et des réalités propres à chaque région.

C'est pourquoi nous avons créé IndQA, un nouveau benchmark conçu pour évaluer la capacité des modèles d'IA à comprendre et à analyser des questions importantes dans les langues indiennes, à travers une large diversité de domaines de connaissance. Notre objectif est de créer des benchmarks similaires pour d'autres langues et régions, mais l'Inde s'imposait comme point de départ évident. L'Inde compte près d'un milliard de personnes dont l'anglais n'est pas la langue principale, 22 langues officielles (dont au moins sept comptent plus de 50 millions de locuteurs), et représente le deuxième marché mondial de ChatGPT.

Ce projet s'inscrit dans notre engagement continu à améliorer nos produits et outils pour les utilisateurs et utilisatrices en Inde, et à rendre notre technologie plus accessible dans tout le pays.

Comment ça marche ?

IndQA évalue la connaissance et le raisonnement autour de la culture indienne et de la vie quotidienne, dans les différentes langues du pays. Il comprend 2 278 questions couvrant 12 langues et 10 domaines de connaissance, élaborées en collaboration avec 261 spécialistes de partout en Inde. Contrairement aux benchmarks existants, comme MMMLU et MGSM, IndQA a été conçu pour explorer des tâches complexes, fortement ancrées dans le contexte culturel, que les évaluations actuelles peinent à mesurer.

IndQA couvre un large éventail de thématiques culturellement pertinentes : architecture et design, arts et culture, vie quotidienne, gastronomie, histoire, droit et éthique, littérature et linguistique, médias et divertissement, religion et spiritualité, ainsi que sports et loisirs, avec des questions rédigées en bengali, anglais, hindi, hinglish, kannada, marathi, odia, télougou, gujarati, malayalam, pendjabi et tamoul. Remarque : nous avons ajouté le hinglish afin de refléter la fréquence du mélange des langues dans les conversations réelles.

Chaque donnée comprend un prompt culturellement ancré dans une langue indienne, une traduction anglaise à des fins de vérification, des critères d'évaluation détaillés et une réponse de référence reflétant les attentes des experts.

Schéma illustrant le processus d'évaluation : un exemple de conversation utilisateur-assistant, une réponse candidate et une grille de notation utilisée pour évaluer la réponse selon plusieurs critères.

IndQA repose sur une approche basée sur des grilles d'évaluation. Chaque réponse est notée selon des critères définis par des experts pour la question correspondante. Ces critères précisent ce qu'une réponse de référence doit contenir ou éviter, chaque élément recevant un poids spécifique en fonction de son importance. Un système d'évaluation automatisé vérifie ensuite si chaque critère est respecté. Le score final correspond à la somme des points obtenus pour les critères remplis sur le total possible.

Comment nous avons conçu IndQA

Questions rédigées par des experts. Nous avons collaboré avec plusieurs partenaires pour identifier des spécialistes en Inde dans dix domaines différents. Ces experts ont rédigé des prompts complexes axés sur le raisonnement, en lien avec leur région et leur domaine de spécialisation. Ils et elles sont locuteurs natifs de la langue concernée (ainsi que de l'anglais) et apportent une expertise approfondie dans leur discipline.
Filtrage par confrontation : Chaque question a été testée sur les modèles les plus performants d'OpenAI au moment de leur création : GPT‑4o, OpenAI o3, GPT‑4.5 et, partiellement après le lancement public, GPT‑5. Nous n'avons conservé que les questions pour lesquelles la majorité de ces modèles n'ont pas réussi à produire de réponses satisfaisantes, afin de laisser une marge de progression.
Critères détaillés. Pour chaque question, des spécialistes du domaine ont défini les critères d'évaluation des réponses, comparables à une grille de notation d'examen pour une question de dissertation. Ces critères servent à évaluer la qualité des résultats fournis par les modèles testés.
Réponses de référence + révision. Les experts ont ajouté des réponses de référence et des traductions en anglais, suivies d'une validation par les pairs et de corrections itératives jusqu'à l'approbation finale.

Exemples de questions

Langue : bengali

Domaine : littérature et linguistique

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Domaine : cuisine et gastronomie

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Améliorations au fil du temps

Nous utilisons IndQA pour évaluer les performances des modèles de pointe récents et suivre leurs progrès au cours des dernières années. Avec IndQA, nous observons que les modèles d'OpenAI se sont nettement améliorés dans les langues indiennes (avec des réserves⁠), tout en laissant une importante marge de progression. Nous avons hâte de continuer à améliorer les performances et de partager les résultats des futurs modèles.

Nous analysons également les performances d'IndQA par langue et par domaine, en comparant GPT‑5 Thinking High à d'autres modèles de pointe.

Précisions méthodologiques

Les questions n'étant pas identiques d'une langue à l'autre, IndQA n'est pas un classement linguistique : les scores interlangues ne doivent pas être interprétés comme des comparaisons directes de compétence linguistique. Notre objectif est plutôt de mesurer, avec IndQA, les progrès au fil du temps au sein d'une même famille ou configuration de modèles.

De plus, comme les questions ont été filtrées pour ne conserver que celles auxquelles GPT‑4o, OpenAI o3, GPT‑4.5 et (après le lancement public) GPT‑5 n'ont pas su répondre de manière satisfaisante, la sélection des questions est conçue de manière à défavoriser ces modèles. Cela peut fausser la comparaison des performances relatives de GPT‑5 et désavantager l'ensemble des modèles OpenAI par rapport aux modèles d'autres éditeurs.

Les expert·es ayant contribué à IndQA

Nous remercions chaleureusement les 261 experts indiens — journalistes, linguistes, universitaires, artistes et professionnel·les — qui ont rédigé et relu les questions d'IndQA. Voici quelques exemples des experts avec lesquels nous avons collaboré :

Un·e acteur·rice et scénariste télougou lauréat·e d'un Nandi Award, avec plus de 750 films à son actif
Un·e journaliste et rédacteur·trice marathi du quotidien Tarun Bharat
Un·e spécialiste de linguistique kannada et rédacteur·trice de dictionnaire
Un·e Grand·e Maître international·e d'échecs entraînant des joueurs du top 100 mondial
Un·e écrivain·e, poète et militant·e culturel·le tamoul·e engagé·e pour la justice sociale, l'égalité entre les castes et la liberté littéraire
Un·e compositeur·trice de musique pendjabie primé·e
Un·e conservateur·trice du patrimoine gujarati et spécialiste de la conservation
Un·e poète et artiste de performance malayalam primé·e
Un·e professeur·e d'histoire spécialisé·e dans le riche patrimoine culturel du Bengale
Un·e professeur·e d'architecture spécialisé·e dans les temples d'Odisha

Prochaines étapes

Nous espérons que la publication d'IndQA inspirera la communauté de recherche et encouragera la création de nouveaux benchmarks. Les questions de type IndQA sont particulièrement utiles pour les langues ou domaines de connaissance peu représentés dans les benchmarks d'IA existants. Créer des benchmarks similaires à IndQA peut aider les laboratoires de recherche en IA à mieux comprendre les langues et domaines où les modèles rencontrent encore des difficultés, tout en servant de cap pour guider les améliorations futures.

Auteur

OpenAI

Poursuivez votre lecture

Tout afficher

GPT-5.6 : une intelligence de pointe à la hauteur de vos ambitions

Produit9 juil. 2026

Distinguer le signal du bruit dans les évaluations de code

Recherches8 juil. 2026

Présentation de GPT-Live

Produit8 juil. 2026