Presentem IndQA
Un nou benchmark per avaluar sistemes d’IA sobre cultura i llengües índies.

La nostra missió és fer que l’AGI beneficiï tota la humanitat. Si la IA ha de ser útil per a tothom, ha de funcionar bé en diferents llengües i cultures. Aproximadament el 80 per cent de les persones del món no tenen l’anglès com a llengua principal, però la majoria dels benchmarks actuals que mesuren capacitats en llengües no angleses es queden curts.
Els benchmarks multilingües existents, com ara MMMLU(s'obre en una finestra nova), ara estan saturats: els models capdavanters s’agrupen prop de puntuacions altes, cosa que els fa menys útils per mesurar el progrés real. A més, els benchmarks actuals se centren sobretot en traducció o en tasques de resposta múltiple. No reflecteixen adequadament allò que realment importa per avaluar les capacitats lingüístiques d’un sistema d’IA: entendre el context, la cultura, la història i les coses que importen a la gent allà on viu.
Per això hem creat IndQA, un nou benchmark dissenyat per avaluar fins a quin punt els models d’IA entenen i raonen sobre qüestions importants en llengües índies, en una àmplia gamma de dominis culturals. Tot i que el nostre objectiu és crear benchmarks similars per a altres llengües i regions, l’Índia és un punt de partida evident. L’Índia té prop de mil milions de persones que no fan servir l’anglès com a llengua principal, 22 llengües oficials (incloent-n’hi almenys set amb més de 50 milions de parlants) i és el segon mercat més gran de ChatGPT.
Aquest treball forma part del nostre compromís continu per millorar els nostres productes i eines per als usuaris de l’Índia i per fer la nostra tecnologia més accessible a tot el país.
IndQA avalua coneixement i raonament sobre la cultura índia i la vida quotidiana en llengües índies. Inclou 2.278 preguntes en 12 llengües i 10 dominis culturals, creades en col·laboració amb 261 experts de domini d’arreu de l’Índia. A diferència de benchmarks existents com MMMLU i MGSM, està dissenyat per explorar tasques culturalment matisades i intensives en raonament que les avaluacions actuals tenen dificultats per captar.
IndQA cobreix una àmplia varietat de temes culturalment rellevants, com ara Arquitectura i disseny, Arts i cultura, Vida quotidiana, Menjar i cuina, Història, Dret i ètica, Literatura i lingüística, Mitjans i entreteniment, Religió i espiritualitat i Esports i lleure, amb elements escrits de manera nativa en bengalí, anglès, hindi, Hinglish, kanarès, marathi, odia, telugu, gujarati, malaiàlam, punjabi i tamil. Nota: vam afegir específicament Hinglish per la prevalença del canvi de codi en les converses.
Cada dada inclou una indicació arrelada culturalment en una llengua índia, una traducció a l’anglès per garantir la traçabilitat, criteris de rúbrica per a la qualificació i una resposta ideal que reflecteix les expectatives dels experts.
IndQA fa servir un enfocament basat en rúbriques. Cada resposta s’avalua segons criteris redactats per experts de domini per a aquella pregunta específica. Els criteris especifiquen què hauria d’incloure o evitar una resposta ideal, i cadascun rep una puntuació ponderada segons la seva importància. Un avaluador basat en models comprova si es compleix cada criteri. La puntuació final és la suma dels punts dels criteris satisfets sobre el total possible.
- Preguntes redactades per experts. Hem treballat amb col·laboradors per trobar experts a l’Índia en 10 dominis diferents. Han redactat indicacions difícils, centrades en el raonament, vinculades a les seves regions i especialitats. Aquests experts tenen un domini natiu de la llengua rellevant (i de l’anglès) i aporten una gran expertesa en la matèria.
- Filtratge adversarial: Cada pregunta es va provar amb els models més potents d’OpenAI en el moment de la seva creació: GPT‑4o, OpenAI o3, GPT‑4.5 i (parcialment, després del llançament públic) GPT‑5. Només vam conservar aquelles preguntes en què la majoria d’aquests models no van aconseguir produir respostes acceptables, preservant marge per al progrés
- Criteris detallats. Juntament amb cada pregunta, els experts de domini van proporcionar criteris per avaluar la resposta del model, semblants a la rúbrica d’examen d’una pregunta de redacció. Aquests criteris s’utilitzen per avaluar respostes de models candidats.
- Respostes ideals + revisió. Els experts van afegir respostes ideals i traduccions a l’anglès, seguides de revisió per parells i correccions iteratives fins a l’aprovació final.
Llengua: Bengalí
Domini: Literatura i lingüística
Domini: Menjar i cuina
Fem servir IndQA per avaluar el rendiment dels models d'avantguarda recents i representar el progrés dels darrers dos anys. Amb IndQA podem veure que els models d’OpenAI han millorat significativament amb el temps en les llengües índies (amb limitacions), però encara tenen un marge substancial de millora. Esperem amb interès continuar millorant el rendiment i compartir resultats de futurs models.
També desglossem a continuació el rendiment a IndQA per llengua i domini, comparant GPT‑5 Thinking High amb altres models d'avantguarda.
Com que les preguntes no són idèntiques entre llengües, IndQA no és una classificació de llengües; les puntuacions entre llengües no s’han d’interpretar com a comparacions directes de la capacitat lingüística. En canvi, tenim previst fer servir IndQA per mesurar la millora al llarg del temps dins d’una família o configuració de models.
A més, com que les preguntes es van filtrar perquè GPT‑4o, OpenAI o3, GPT‑4.5 i (després del llançament públic) GPT‑5 no les poguessin respondre prou bé, la selecció de preguntes és adversarial per a aquests models. Això pot confondre el rendiment relatiu de GPT‑5 i podria perjudicar tots els models d’OpenAI en comparació amb models que no són d’OpenAI.
Agraïm molt als 261 experts indis —periodistes, lingüistes, acadèmics, artistes i professionals del sector— que van redactar i revisar preguntes per a IndQA. Alguns exemples dels experts amb qui hem treballat inclouen:
- Un actor i guionista telugu guanyador del premi Nandi amb més de 750 pel·lícules
- Un periodista i editor marathi de Tarun Bharat
- Un especialista en lingüística kannada i editor de diccionaris
- Un gran mestre internacional d’escacs que entrena jugadors d’escacs del top 100
- Una escriptora, poeta i activista cultural tàmil que defensa la justícia social, l’equitat de castes i la llibertat literària
- Un compositor de música panjabi guardonat
- Un conservador del patrimoni gujarati i especialista en conservació
- Una poeta i artista de performance malaiàlam guardonada
- Un professor d’història, especialitzat en el ric patrimoni cultural de Bengala
- Un professor d’arquitectura, centrat en els temples d’Odisha
Esperem que el llançament d’IndQA informi i inspiri la creació de nous benchmarks per part de la comunitat de recerca. Les preguntes de l’estil d’IndQA són especialment valuoses en llengües o dominis culturals poc coberts pels benchmarks d’IA existents. Crear benchmarks semblants a IndQA pot ajudar els laboratoris de recerca en IA a aprendre més sobre les llengües i els dominis amb què els models tenen dificultats avui, i proporcionar una estrella polar per a futures millores.


