3 de novembre del 2025

Presentem IndQA

Un nou benchmark per avaluar sistemes d’IA sobre cultura i llengües índies.

Una graella de 3x4 de botons quadrats arrodonits, cadascun amb un caràcter d’un alfabet indi diferent o de l’alfabet llatí. Els caràcters inclouen bengalí (অ), anglès (En), hindi (ह), kanarès (Hi) i d’altres que representen diverses llengües índies, sobre un fons gris clar. La imatge suggereix suport multilingüe o selecció de llengua.

S'està carregant…

La nostra missió és fer que l’AGI beneficiï tota la humanitat. Si la IA ha de ser útil per a tothom, ha de funcionar bé en diferents llengües i cultures. Aproximadament el 80 per cent de les persones del món no tenen l’anglès com a llengua principal, però la majoria dels benchmarks actuals que mesuren capacitats en llengües no angleses es queden curts.

Els benchmarks multilingües existents, com ara MMMLU⁠(s'obre en una finestra nova), ara estan saturats: els models capdavanters s’agrupen prop de puntuacions altes, cosa que els fa menys útils per mesurar el progrés real. A més, els benchmarks actuals se centren sobretot en traducció o en tasques de resposta múltiple. No reflecteixen adequadament allò que realment importa per avaluar les capacitats lingüístiques d’un sistema d’IA: entendre el context, la cultura, la història i les coses que importen a la gent allà on viu.

Per això hem creat IndQA, un nou benchmark dissenyat per avaluar fins a quin punt els models d’IA entenen i raonen sobre qüestions importants en llengües índies, en una àmplia gamma de dominis culturals. Tot i que el nostre objectiu és crear benchmarks similars per a altres llengües i regions, l’Índia és un punt de partida evident. L’Índia té prop de mil milions de persones que no fan servir l’anglès com a llengua principal, 22 llengües oficials (incloent-n’hi almenys set amb més de 50 milions de parlants) i és el segon mercat més gran de ChatGPT.

Aquest treball forma part del nostre compromís continu per millorar els nostres productes i eines per als usuaris de l’Índia i per fer la nostra tecnologia més accessible a tot el país.

Com funciona

IndQA avalua coneixement i raonament sobre la cultura índia i la vida quotidiana en llengües índies. Inclou 2.278 preguntes en 12 llengües i 10 dominis culturals, creades en col·laboració amb 261 experts de domini d’arreu de l’Índia. A diferència de benchmarks existents com MMMLU i MGSM, està dissenyat per explorar tasques culturalment matisades i intensives en raonament que les avaluacions actuals tenen dificultats per captar.

IndQA cobreix una àmplia varietat de temes culturalment rellevants, com ara Arquitectura i disseny, Arts i cultura, Vida quotidiana, Menjar i cuina, Història, Dret i ètica, Literatura i lingüística, Mitjans i entreteniment, Religió i espiritualitat i Esports i lleure, amb elements escrits de manera nativa en bengalí, anglès, hindi, Hinglish, kanarès, marathi, odia, telugu, gujarati, malaiàlam, punjabi i tamil. Nota: vam afegir específicament Hinglish per la prevalença del canvi de codi en les converses.

Cada dada inclou una indicació arrelada culturalment en una llengua índia, una traducció a l’anglès per garantir la traçabilitat, criteris de rúbrica per a la qualificació i una resposta ideal que reflecteix les expectatives dels experts.

Diagrama que il·lustra el procés d’avaluació: una conversa d’exemple entre usuari i assistent, una resposta candidata i una taula de rúbrica usada per puntuar la resposta segons uns criteris.

IndQA fa servir un enfocament basat en rúbriques. Cada resposta s’avalua segons criteris redactats per experts de domini per a aquella pregunta específica. Els criteris especifiquen què hauria d’incloure o evitar una resposta ideal, i cadascun rep una puntuació ponderada segons la seva importància. Un avaluador basat en models comprova si es compleix cada criteri. La puntuació final és la suma dels punts dels criteris satisfets sobre el total possible.

Com hem creat IndQA

Preguntes redactades per experts. Hem treballat amb col·laboradors per trobar experts a l’Índia en 10 dominis diferents. Han redactat indicacions difícils, centrades en el raonament, vinculades a les seves regions i especialitats. Aquests experts tenen un domini natiu de la llengua rellevant (i de l’anglès) i aporten una gran expertesa en la matèria.
Filtratge adversarial: Cada pregunta es va provar amb els models més potents d’OpenAI en el moment de la seva creació: GPT‑4o, OpenAI o3, GPT‑4.5 i (parcialment, després del llançament públic) GPT‑5. Només vam conservar aquelles preguntes en què la majoria d’aquests models no van aconseguir produir respostes acceptables, preservant marge per al progrés
Criteris detallats. Juntament amb cada pregunta, els experts de domini van proporcionar criteris per avaluar la resposta del model, semblants a la rúbrica d’examen d’una pregunta de redacció. Aquests criteris s’utilitzen per avaluar respostes de models candidats.
Respostes ideals + revisió. Els experts van afegir respostes ideals i traduccions a l’anglès, seguides de revisió per parells i correccions iteratives fins a l’aprovació final.

Exemples de preguntes

Llengua: Bengalí

Domini: Literatura i lingüística

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Domini: Menjar i cuina

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Millores al llarg del temps

Fem servir IndQA per avaluar el rendiment dels models d'avantguarda recents i representar el progrés dels darrers dos anys. Amb IndQA podem veure que els models d’OpenAI han millorat significativament amb el temps en les llengües índies (amb limitacions⁠), però encara tenen un marge substancial de millora. Esperem amb interès continuar millorant el rendiment i compartir resultats de futurs models.

També desglossem a continuació el rendiment a IndQA per llengua i domini, comparant GPT‑5 Thinking High amb altres models d'avantguarda.

Limitacions

Com que les preguntes no són idèntiques entre llengües, IndQA no és una classificació de llengües; les puntuacions entre llengües no s’han d’interpretar com a comparacions directes de la capacitat lingüística. En canvi, tenim previst fer servir IndQA per mesurar la millora al llarg del temps dins d’una família o configuració de models.

A més, com que les preguntes es van filtrar perquè GPT‑4o, OpenAI o3, GPT‑4.5 i (després del llançament públic) GPT‑5 no les poguessin respondre prou bé, la selecció de preguntes és adversarial per a aquests models. Això pot confondre el rendiment relatiu de GPT‑5 i podria perjudicar tots els models d’OpenAI en comparació amb models que no són d’OpenAI.

Els experts darrere d’IndQA

Agraïm molt als 261 experts indis —periodistes, lingüistes, acadèmics, artistes i professionals del sector— que van redactar i revisar preguntes per a IndQA. Alguns exemples dels experts amb qui hem treballat inclouen:

Un actor i guionista telugu guanyador del premi Nandi amb més de 750 pel·lícules
Un periodista i editor marathi de Tarun Bharat
Un especialista en lingüística kannada i editor de diccionaris
Un gran mestre internacional d’escacs que entrena jugadors d’escacs del top 100
Una escriptora, poeta i activista cultural tàmil que defensa la justícia social, l’equitat de castes i la llibertat literària
Un compositor de música panjabi guardonat
Un conservador del patrimoni gujarati i especialista en conservació
Una poeta i artista de performance malaiàlam guardonada
Un professor d’història, especialitzat en el ric patrimoni cultural de Bengala
Un professor d’arquitectura, centrat en els temples d’Odisha

Passos següents

Esperem que el llançament d’IndQA informi i inspiri la creació de nous benchmarks per part de la comunitat de recerca. Les preguntes de l’estil d’IndQA són especialment valuoses en llengües o dominis culturals poc coberts pels benchmarks d’IA existents. Crear benchmarks semblants a IndQA pot ajudar els laboratoris de recerca en IA a aprendre més sobre les llengües i els dominis amb què els models tenen dificultats avui, i proporcionar una estrella polar per a futures millores.

Autor

OpenAI

Continuar llegint

Veure-ho tot

GPT-5.6: Intel·ligència d’avantguarda que escala amb la teva ambició

Producte9 de jul. del 2026

Separar el senyal del soroll en les avaluacions de codi

Recerca8 de jul. del 2026

Presentem GPT-Live

Producte8 de jul. del 2026