3 de noviembre de 2025

Presentamos IndQA

Un nuevo estándar para evaluar los sistemas de IA en la cultura y los idiomas de la India.

Una cuadrícula de 3x4 botones cuadrados con esquinas redondeadas, cada uno mostrando un carácter de una escritura india diferente o del alfabeto latino. Los caracteres incluyen bengalí (অ), inglés (En), hindi (ह), canarés (Hi) y otros que representan varios idiomas indios, sobre un fondo gris claro. La imagen indica compatibilidad multilingüe o la posibilidad de seleccionar un idioma.

Cargando…

Nuestra misión es lograr que la AGI beneficie a toda la humanidad. Si la IA va a ser útil para todos, debe funcionar bien en todos los idiomas y culturas. Alrededor del 80 % de la población mundial no tiene el inglés como lengua principal; sin embargo, la mayoría de los puntos de referencia existentes para evaluar competencias en otros idiomas resultan insuficientes.

Los puntos de referencia multilingües existentes, como MMMLU⁠(se abre en una ventana nueva), ahora están saturados: los modelos principales se agrupan cerca de puntuaciones altas, lo que los hace menos útiles para medir el progreso real. Además, los puntos de referencia actuales se centran principalmente en la traducción o en tareas de selección múltiple. No capturan adecuadamente lo que realmente importa para evaluar las capacidades lingüísticas de un sistema de IA: comprender el contexto, la cultura, la historia y las cosas que importan a las personas donde viven.

Por ello, hemos creado IndQA, un nuevo punto de referencia diseñado para evaluar la capacidad de los modelos de IA para comprender y analizar preguntas relevantes en los idiomas de la India, abarcando una amplia diversidad de contextos culturales. Aunque nuestro objetivo es crear puntos de referencia similares para otros idiomas y regiones, la India es un punto de partida obvio. India cuenta con alrededor de mil millones de personas que no utilizan el inglés como lengua principal, 22 idiomas oficiales (de los cuales al menos siete tienen más de 50 millones de hablantes) y representa el segundo mayor mercado de ChatGPT.

Este trabajo forma parte de nuestro compromiso continuo por mejorar nuestros productos y herramientas para los usuarios en India y hacer que nuestra tecnología sea más accesible en todo el país.

¿Cómo funcionan?

IndQA evalúa el conocimiento y el razonamiento sobre la cultura india y la vida cotidiana en lenguas indias. Abarca 2.278 preguntas en 12 idiomas y 10 dominios culturales, creadas en colaboración con 261 expertos en dominios de toda la India. A diferencia de otros puntos de referencia existentes, como MMLU y MGSM, IndQA está diseñado para abordar tareas culturalmente matizadas y con un alto nivel de razonamiento, aspectos que las evaluaciones actuales suelen captar con dificultad.

IndQA cubre una amplia gama de temas culturalmente relevantes, como arquitectura y diseño, artes y cultura, vida cotidiana, alimentación y gastronomía, historia, derecho y ética, literatura y lingüística, medios y entretenimiento, religión y espiritualidad, y deportes y recreación, con elementos escritos nativamente en bengalí, inglés, hindi, hinglish, canarés, maratí, oriya, telugu, gujaratí, malabar, punyabí y tamil. Nota: Añadimos específicamente Hinglish dada la prevalencia del cambio de código en las conversaciones.

Cada punto de datos incluye un prompt culturalmente fundamentado en un idioma indio, una traducción al inglés para la audibilidad, criterios de evaluación para calificar y una respuesta ideal que refleja las expectativas de los expertos.

Diagrama que ilustra el proceso de evaluación: un ejemplo de conversación entre usuario y asistente, una respuesta de una candidata y una tabla de rúbricas utilizada para calificar la respuesta según criterios.

IndQA utiliza un enfoque basado en rúbricas. Cada respuesta se evalúa según criterios elaborados por expertos del dominio para esa pregunta específica. Los criterios explican lo que una respuesta ideal debe incluir o evitar, y a cada uno se le asigna un valor de puntos ponderado según su importancia. Un calificador basado en modelos verifica si se cumple cada criterio. El puntaje final se calcula sumando los puntos obtenidos por los criterios cumplidos y comparándolos con el total posible.

Cómo construimos IndQA

Preguntas creadas por expertos. Trabajamos con socios para encontrar expertos en India en 10 dominios diferentes. Diseñaron prompts complejos, orientados al razonamiento y vinculados a sus regiones y áreas de especialización. Estos expertos son hablantes nativos del idioma correspondiente (y del inglés) y cuentan con una sólida experiencia en la materia.
Filtrado adversarial: Cada pregunta fue evaluada con los modelos más avanzados de OpenAI en el momento de su creación: GPT‑4o, OpenAI o3, GPT‑4.5 y (parcialmente, tras el lanzamiento público) GPT‑5. Solo conservamos aquellas en las que la mayoría no logró producir respuestas satisfactorias, dejando espacio para seguir mejorando
Criterios detallados. Junto a cada pregunta, los expertos en la materia definieron criterios para evaluar la respuesta del modelo, de manera similar a una rúbrica de examen para preguntas abiertas. Estos criterios se utilizan para evaluar las respuestas de los modelos candidatos.
Respuestas ideales + revisión. Los expertos añadieron respuestas ideales y traducciones al inglés, seguidas de una revisión por pares y correcciones iterativas hasta la aprobación final.

Preguntas de ejemplo

Idioma: bengalí

Dominio: literatura y lingüística

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Dominio: alimentación y gastronomía

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Mejoras con el tiempo

Utilizamos IndQA para evaluar el rendimiento de los modelos de última generación y seguir su evolución en los últimos años. Con IndQA podemos ver que los modelos de OpenAI han mejorado de manera significativa con el tiempo en los idiomas de la India (con advertencias⁠), pero aún tienen un amplio margen de mejora. Esperamos mejorar el rendimiento y compartir los resultados de los modelos futuros.

También clasificamos el rendimiento en IndQA por idioma y dominio a continuación, comparando el modelo GPT‑5 Thinking High con otros modelos de vanguardia.

Precauciones

Dado que las preguntas no son idénticas en todos los idiomas, IndQA no constituye un ranking de idiomas; por tanto, las puntuaciones entre idiomas no deben interpretarse como comparaciones directas de competencia lingüística. En cambio, planeamos usar IndQA para medir la mejora a lo largo del tiempo dentro de una familia o configuración de modelos.

Además, dado que las preguntas se filtraron para que GPT‑4o, OpenAI o3, GPT‑4.5 y (después del lanzamiento público) GPT‑5 no pudieran responder adecuadamente, la selección de preguntas es adversa a estos modelos. Esto podría confundir el rendimiento relativo de GPT‑5 y poner en desventaja a todos los modelos de OpenAI en comparación con los modelos que no son de OpenAI.

Los expertos detrás de IndQA

Agradecemos a los 261 expertos indios—periodistas, lingüistas, académicos, artistas y profesionales de la industria—que redactaron y revisaron preguntas para IndQA. Algunos ejemplos de los expertos con los que hemos trabajado son:

Un actor y guionista telugu, galardonado con el Premio Nandi, con más de 750 películas en su trayectoria
Un periodista maratí y editor del periódico Tarun Bharat
Un estudioso de la lingüística canarés y editor de diccionarios
Un gran maestro internacional de ajedrez que entrena a jugadores dentro del top 100 mundial
Una escritora, poeta y activista cultural tamil que defiende la justicia social, la equidad de castas y la libertad literaria
Un compositor de música punyabí galardonado
Curadora del patrimonio gujaratí y especialista en conservación
Un galardonado poeta malabar y artista de performance
Un profesor de historia especializado en la rica herencia cultural de Bengala
Un profesor de arquitectura especializado en los templos de Odisha

Pasos siguientes

Esperamos que el lanzamiento de IndQA sirva para guiar e inspirar a la comunidad investigadora a crear nuevos puntos de referencia. Las preguntas al estilo IndQA resultan especialmente valiosas en idiomas o dominios culturales poco representados en los puntos de referencia de IA existentes. Crear puntos de referencia similares a IndQA puede ayudar a los laboratorios de investigación en IA a comprender mejor los idiomas y dominios con los que los modelos aún presentan dificultades, además de ofrecer orientación para futuras mejoras.

Autor

OpenAI

Sigue leyendo

Ver todo

GPT-5.6: inteligencia de vanguardia que crece con tu ambición

Producto9 jul 2026

Separar la señal del ruido en evaluaciones de código

Investigación8 jul 2026

Presentamos GPT-Live

Producto8 jul 2026