Presentamos IndQA
Un nuevo estándar para evaluar los sistemas de IA en la cultura y los idiomas de la India.

Nuestra misión es lograr que la AGI beneficie a toda la humanidad. Si la IA va a ser útil para todos, debe funcionar bien en todos los idiomas y culturas. Alrededor del 80 % de la población mundial no tiene el inglés como lengua principal; sin embargo, la mayoría de los puntos de referencia existentes para evaluar competencias en otros idiomas resultan insuficientes.
Los puntos de referencia multilingües existentes, como MMMLU(se abre en una ventana nueva), ahora están saturados: los modelos principales se agrupan cerca de puntuaciones altas, lo que los hace menos útiles para medir el progreso real. Además, los puntos de referencia actuales se centran principalmente en la traducción o en tareas de selección múltiple. No capturan adecuadamente lo que realmente importa para evaluar las capacidades lingüísticas de un sistema de IA: comprender el contexto, la cultura, la historia y las cosas que importan a las personas donde viven.
Por ello, hemos creado IndQA, un nuevo punto de referencia diseñado para evaluar la capacidad de los modelos de IA para comprender y analizar preguntas relevantes en los idiomas de la India, abarcando una amplia diversidad de contextos culturales. Aunque nuestro objetivo es crear puntos de referencia similares para otros idiomas y regiones, la India es un punto de partida obvio. India cuenta con alrededor de mil millones de personas que no utilizan el inglés como lengua principal, 22 idiomas oficiales (de los cuales al menos siete tienen más de 50 millones de hablantes) y representa el segundo mayor mercado de ChatGPT.
Este trabajo forma parte de nuestro compromiso continuo por mejorar nuestros productos y herramientas para los usuarios en India y hacer que nuestra tecnología sea más accesible en todo el país.
IndQA evalúa el conocimiento y el razonamiento sobre la cultura india y la vida cotidiana en lenguas indias. Abarca 2.278 preguntas en 12 idiomas y 10 dominios culturales, creadas en colaboración con 261 expertos en dominios de toda la India. A diferencia de otros puntos de referencia existentes, como MMLU y MGSM, IndQA está diseñado para abordar tareas culturalmente matizadas y con un alto nivel de razonamiento, aspectos que las evaluaciones actuales suelen captar con dificultad.
IndQA cubre una amplia gama de temas culturalmente relevantes, como arquitectura y diseño, artes y cultura, vida cotidiana, alimentación y gastronomía, historia, derecho y ética, literatura y lingüística, medios y entretenimiento, religión y espiritualidad, y deportes y recreación, con elementos escritos nativamente en bengalí, inglés, hindi, hinglish, canarés, maratí, oriya, telugu, gujaratí, malabar, punyabí y tamil. Nota: Añadimos específicamente Hinglish dada la prevalencia del cambio de código en las conversaciones.
Cada punto de datos incluye un prompt culturalmente fundamentado en un idioma indio, una traducción al inglés para la audibilidad, criterios de evaluación para calificar y una respuesta ideal que refleja las expectativas de los expertos.
IndQA utiliza un enfoque basado en rúbricas. Cada respuesta se evalúa según criterios elaborados por expertos del dominio para esa pregunta específica. Los criterios explican lo que una respuesta ideal debe incluir o evitar, y a cada uno se le asigna un valor de puntos ponderado según su importancia. Un calificador basado en modelos verifica si se cumple cada criterio. El puntaje final se calcula sumando los puntos obtenidos por los criterios cumplidos y comparándolos con el total posible.
- Preguntas creadas por expertos. Trabajamos con socios para encontrar expertos en India en 10 dominios diferentes. Diseñaron prompts complejos, orientados al razonamiento y vinculados a sus regiones y áreas de especialización. Estos expertos son hablantes nativos del idioma correspondiente (y del inglés) y cuentan con una sólida experiencia en la materia.
- Filtrado adversarial: Cada pregunta fue evaluada con los modelos más avanzados de OpenAI en el momento de su creación: GPT‑4o, OpenAI o3, GPT‑4.5 y (parcialmente, tras el lanzamiento público) GPT‑5. Solo conservamos aquellas en las que la mayoría no logró producir respuestas satisfactorias, dejando espacio para seguir mejorando
- Criterios detallados. Junto a cada pregunta, los expertos en la materia definieron criterios para evaluar la respuesta del modelo, de manera similar a una rúbrica de examen para preguntas abiertas. Estos criterios se utilizan para evaluar las respuestas de los modelos candidatos.
- Respuestas ideales + revisión. Los expertos añadieron respuestas ideales y traducciones al inglés, seguidas de una revisión por pares y correcciones iterativas hasta la aprobación final.
Idioma: bengalí
Dominio: literatura y lingüística
Dominio: alimentación y gastronomía
Utilizamos IndQA para evaluar el rendimiento de los modelos de última generación y seguir su evolución en los últimos años. Con IndQA podemos ver que los modelos de OpenAI han mejorado de manera significativa con el tiempo en los idiomas de la India (con advertencias), pero aún tienen un amplio margen de mejora. Esperamos mejorar el rendimiento y compartir los resultados de los modelos futuros.
También clasificamos el rendimiento en IndQA por idioma y dominio a continuación, comparando el modelo GPT‑5 Thinking High con otros modelos de vanguardia.
Dado que las preguntas no son idénticas en todos los idiomas, IndQA no constituye un ranking de idiomas; por tanto, las puntuaciones entre idiomas no deben interpretarse como comparaciones directas de competencia lingüística. En cambio, planeamos usar IndQA para medir la mejora a lo largo del tiempo dentro de una familia o configuración de modelos.
Además, dado que las preguntas se filtraron para que GPT‑4o, OpenAI o3, GPT‑4.5 y (después del lanzamiento público) GPT‑5 no pudieran responder adecuadamente, la selección de preguntas es adversa a estos modelos. Esto podría confundir el rendimiento relativo de GPT‑5 y poner en desventaja a todos los modelos de OpenAI en comparación con los modelos que no son de OpenAI.
Agradecemos a los 261 expertos indios—periodistas, lingüistas, académicos, artistas y profesionales de la industria—que redactaron y revisaron preguntas para IndQA. Algunos ejemplos de los expertos con los que hemos trabajado son:
- Un actor y guionista telugu, galardonado con el Premio Nandi, con más de 750 películas en su trayectoria
- Un periodista maratí y editor del periódico Tarun Bharat
- Un estudioso de la lingüística canarés y editor de diccionarios
- Un gran maestro internacional de ajedrez que entrena a jugadores dentro del top 100 mundial
- Una escritora, poeta y activista cultural tamil que defiende la justicia social, la equidad de castas y la libertad literaria
- Un compositor de música punyabí galardonado
- Curadora del patrimonio gujaratí y especialista en conservación
- Un galardonado poeta malabar y artista de performance
- Un profesor de historia especializado en la rica herencia cultural de Bengala
- Un profesor de arquitectura especializado en los templos de Odisha
Esperamos que el lanzamiento de IndQA sirva para guiar e inspirar a la comunidad investigadora a crear nuevos puntos de referencia. Las preguntas al estilo IndQA resultan especialmente valiosas en idiomas o dominios culturales poco representados en los puntos de referencia de IA existentes. Crear puntos de referencia similares a IndQA puede ayudar a los laboratorios de investigación en IA a comprender mejor los idiomas y dominios con los que los modelos aún presentan dificultades, además de ofrecer orientación para futuras mejoras.


