3 de noviembre de 2025

Presentamos IndQA

Un nuevo estándar para evaluar los sistemas de IA en la cultura y los idiomas de la India.

Una cuadrícula de 3x4 botones cuadrados con esquinas redondeadas, cada uno con un carácter de una escritura india diferente o del alfabeto latino. Los caracteres incluyen bengalí (অ), inglés (En), hindi (ह), canarés (Hi) y otros que representan varios idiomas indios, sobre un fondo gris claro. La imagen indica compatibilidad multilingüe o la posibilidad de seleccionar un idioma.

Cargando...

Nuestra misión es lograr que la AGI beneficie a toda la humanidad. Si la IA va a ser útil para todos, necesita funcionar bien en todos los idiomas y culturas. Alrededor del 80 % de las personas en el mundo no tienen el inglés como lengua principal; sin embargo, la mayoría de los puntos de referencia existentes que evalúan habilidades en otros idiomas resultan insuficientes.

Los puntos de referencia multilingües existentes, como MMMLU⁠(se abre en una nueva ventana), ahora están saturados: los modelos principales se agrupan cerca de puntuaciones altas, lo que los hace menos útiles para medir el progreso real. Además, los puntos de referencia actuales se enfocan principalmente en la traducción o en tareas de opción múltiple. No capturan adecuadamente lo que realmente importa para evaluar las capacidades lingüísticas de un sistema de IA: comprender el contexto, la cultura, la historia y las cosas que importan a las personas donde viven.

Por eso creamos IndQA, un nuevo punto de referencia diseñado para evaluar qué tan bien los modelos de IA comprenden y analizan preguntas relevantes en los idiomas de la India, abarcando una amplia variedad de contextos culturales. Si bien nuestro objetivo es crear puntos de referencia similares para otros idiomas y regiones, la India es un punto de partida evidente. India tiene alrededor de mil millones de personas que no usan el inglés como su idioma principal, 22 idiomas oficiales (incluyendo al menos siete con más de 50 millones de hablantes) y es el segundo mercado más grande de ChatGPT.

Este trabajo forma parte de nuestro compromiso continuo por mejorar nuestros productos y herramientas para los usuarios en la India y hacer que nuestra tecnología sea más accesible en todo el país.

¿Cómo funciona?

IndQA evalúa el conocimiento y el razonamiento sobre la cultura india y la vida cotidiana expresada en idiomas indios. Abarca 2,278 preguntas en 12 idiomas y 10 dominios culturales, elaboradas en colaboración con 261 expertos en distintas áreas de conocimiento de toda la India. A diferencia de los puntos de referencia existentes como MMMLU y MGSM, está diseñado para explorar tareas culturalmente matizadas y con un alto grado de razonamiento que las evaluaciones actuales tienen dificultades para captar.

IndQA cubre una amplia gama de temas culturalmente relevantes, como arquitectura y diseño, artes y cultura, vida cotidiana, alimentación y gastronomía, historia, derecho y ética, literatura y lingüística, medios y entretenimiento, religión y espiritualidad, y deportes y recreación, con elementos escritos nativamente en bengalí, inglés, hindi, hinglish, canarés, maratí, oriya, telugu, gujaratí, malabar, punyabí, y tamil. Nota: Agregamos específicamente Hinglish debido a la prevalencia de la alternancia de código (code-switching) en las conversaciones.

Cada punto de datos incluye un prompt culturalmente fundamentado en un idioma indio, una traducción al inglés para la audibilidad, criterios de evaluación para calificar y una respuesta ideal que refleja las expectativas de los expertos.

Diagrama que ilustra el proceso de evaluación: un ejemplo de conversación entre usuario y asistente, una respuesta de una candidata y una tabla de rúbricas utilizada para calificar la respuesta según criterios.

IndQA emplea un enfoque basado en rúbricas. Cada respuesta se evalúa con base en criterios redactados por expertos en la materia para esa pregunta específica. Los criterios explican lo que una respuesta ideal debe incluir o evitar, y a cada uno se le asigna un valor de puntos ponderado según su importancia. Un calificador basado en modelos verifica si se cumple cada criterio. El puntaje final se obtiene sumando los puntos de los criterios cumplidos respecto al total posible.

Cómo construimos IndQA

Preguntas creadas por expertos. Trabajamos con socios para encontrar expertos en la India en 10 dominios diferentes. Diseñaron prompts complejos, centrados en el razonamiento y ligados a sus regiones y áreas de especialización. Estos expertos son hablantes nativos del idioma correspondiente (y del inglés) y cuentan con una sólida experiencia en la materia.
Filtrado adversarial: Cada pregunta fue evaluada con los modelos más avanzados de OpenAI en el momento de su creación: GPT‑4o, OpenAI o3, GPT‑4.5 y (parcialmente, después del lanzamiento público) GPT‑5. Solo conservamos aquellas en las que la mayoría no logró producir respuestas satisfactorias, dejando espacio para seguir mejorando
Criterios detallados. Junto con cada pregunta, los expertos en el tema definieron criterios para evaluar la respuesta del modelo, de forma similar a una rúbrica de examen para una pregunta abierta. Estos criterios se utilizan para calificar las respuestas de los modelos candidatos.
Respuestas ideales + revisión. Los expertos proporcionaron las respuestas ideales y sus traducciones al inglés, que luego pasaron por revisión entre pares y varias rondas de corrección hasta su aprobación final.

Preguntas de ejemplo

Idioma: bengalí

Dominio: literatura y lingüística

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Dominio: alimentación y gastronomía

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Mejoras con el paso del tiempo

Utilizamos IndQA para evaluar el rendimiento de los modelos de vanguardia más recientes y registrar su evolución a lo largo de los últimos años. Con IndQA podemos ver que los modelos de OpenAI han mejorado significativamente con el tiempo en los idiomas de la India (con advertencias⁠), pero aún tienen un margen sustancial para mejorar. Esperamos mejorar el rendimiento y compartir los resultados de los modelos futuros.

También estratificamos el rendimiento en IndQA por idioma y dominio a continuación, comparando GPT‑5 Thinking High con otros modelos de vanguardia.

Precauciones

Como las preguntas no son idénticas en todos los idiomas, IndQA no funciona como una tabla de clasificación de idiomas; los puntajes en varios idiomas no deben interpretarse como comparaciones directas de la habilidad lingüística. En cambio, planeamos usar IndQA para medir la mejora a lo largo del tiempo dentro de una familia o configuración de modelos.

Además, dado que las preguntas se filtraron para que GPT‑4o, OpenAI o3, GPT‑4.5 y (después del lanzamiento público) GPT‑5 no pudieran responder adecuadamente, la selección de preguntas es adversa a estos modelos. Esto podría confundir el rendimiento relativo de GPT‑5 y poner en desventaja a todos los modelos de OpenAI en comparación con los modelos que no son de OpenAI.

Los expertos detrás de IndQA

Estamos agradecidos a los 261 expertos indios—periodistas, lingüistas, académicos, artistas y profesionales de la industria—que redactaron y revisaron preguntas para IndQA. Algunos ejemplos de los expertos con los que trabajamos incluyen:

Un actor y guionista telugu, galardonado con el Premio Nandi, con más de 750 películas en su trayectoria
Un periodista maratí y editor del periódico Tarun Bharat
Un estudioso de la lingüística canarés y editor de diccionarios
Un gran maestro internacional de ajedrez que entrena a jugadores dentro del top 100 mundial
Una escritora, poeta y activista cultural tamil que aboga por la justicia social, la equidad de castas y la libertad literaria
Un compositor de música punyabí galardonado
Una curadora del patrimonio gujaratí y especialista en conservación
Un galardonado poeta malabar y artista de performance
Un profesor de historia especializado en la rica herencia cultural de Bengala
Un profesor de arquitectura, especializado en templos de Odisha

Siguientes pasos

Esperamos que el lanzamiento de IndQA sirva para guiar e inspirar a la comunidad investigadora a crear nuevos puntos de referencia. Las preguntas al estilo IndQA resultan especialmente valiosas en idiomas o dominios culturales poco representados en los puntos de referencia de IA existentes. Crear puntos de referencia similares a IndQA puede ayudar a los laboratorios de investigación en IA a aprender más sobre los idiomas y dominios con los que los modelos tienen dificultades hoy y proporcionar una guía para mejoras futuras.

Autor

OpenAI

Sigue leyendo

Ver todos

GPT-5.6: Inteligencia de vanguardia que crece con tu ambición

Producto9 jul 2026

Separar señal de ruido en evaluaciones de codificación

Investigación8 jul 2026

Presentamos GPT-Live

Producto8 jul 2026