3 de novembro de 2025

Apresentamos o IndQA

Um novo benchmark para avaliar sistemas de IA na cultura e nos idiomas indianos.

Uma grade 3x4 de botões quadrados arredondados, cada um contendo um caractere de um sistema de escrita indiano diferente ou do alfabeto latino. Os caracteres incluem bengali (অ), inglês (En), hindi (ह), canarês (Hi) e outros representando vários idiomas indianos, sobre um fundo cinza claro. A imagem sugere suporte multilíngue ou seleção de idioma.

Carregando…

Nossa missão é fazer com que a AGI beneficie toda a humanidade. Se a IA for útil para todos, ela precisa funcionar bem em diferentes idiomas e culturas. Cerca de 80% das pessoas no mundo não falam inglês como seu idioma principal, mas a maioria dos benchmarks existentes que medem as capacidades em idiomas não ingleses são insuficientes.

Os benchmarks multilíngues existentes, como o MMMLU⁠(abre em uma nova janela) estão saturados — os melhores modelos se agrupam perto de pontuações altas — o que os torna menos úteis para medir o progresso real. Além disso, os benchmarks atuais se concentram principalmente em tarefas de tradução ou de múltipla escolha. Eles não capturam adequadamente o que realmente importa para avaliar as capacidades linguísticas de um sistema de IA — entender o contexto, a cultura, a história e as coisas que importam para as pessoas onde elas vivem.

É por isso que criamos o IndQA, um novo benchmark projetado para avaliar o quão bem modelos de IA entendem e raciocinam sobre questões importantes nos idiomas indianos, em uma ampla gama de domínios culturais. Embora nosso objetivo seja criar benchmarks semelhantes para outros idiomas e regiões, a Índia é um ponto de partida óbvio. A Índia tem cerca de um bilhão de pessoas que não usam o inglês como idioma principal, 22 línguas oficiais (incluindo pelo menos sete com mais de 50 milhões de falantes) e é o segundo maior mercado do ChatGPT.

Este trabalho faz parte do nosso compromisso contínuo de melhorar nossos produtos e ferramentas para usuários indianos e tornar nossa tecnologia mais acessível em todo o país.

Como funciona

O IndQA avalia o conhecimento e o raciocínio sobre a cultura indiana e a vida cotidiana em idiomas indianos. Ele abrange 2.278 perguntas em 12 idiomas e 10 domínios culturais, criadas em parceria com 261 especialistas de domínios de toda a Índia. Diferente de benchmarks existentes como o MMMLU e o MGSM, ele foi projetado para sondar tarefas culturalmente matizadas e de raciocínio complexo que as avaliações existentes têm dificuldade em capturar.

O IndQA cobre uma ampla gama de tópicos culturalmente relevantes, como Arquitetura e Design, Artes e Cultura, Vida Cotidiana, Alimentação e Culinária, História, Direito e Ética, Literatura e Linguística, Mídia e Entretenimento, Religião e Espiritualidade e Esportes e Recreação—com artigos escritos nativamente em bengali, inglês, hindi, hinglish, canarês, marata, oriá, telugu, guzerate, malaiala, punjabi e tâmil. Observação: Adicionamos especificamente o Hinglish devido à prevalência de alternância de código linguístico nas conversas.

Cada ponto de dados inclui um prompt culturalmente fundamentado em um idioma indiano, uma tradução em inglês para auditoria, critérios de avaliação e uma resposta ideal que reflete as expectativas de especialistas.

Diagrama ilustrando o processo de avaliação: um exemplo de conversa entre usuário e assistente, uma resposta candidata e uma tabela de rubrica usada para pontuar a resposta por critérios.

O IndQA usa uma abordagem baseada em rubrica. Cada resposta é avaliada de acordo com os critérios elaborados por especialistas de domínio para aquela pergunta específica. Os critérios detalham o que uma resposta ideal deve incluir ou evitar, e cada um recebe um valor em pontos ponderado com base em sua importância. Um avaliador baseado em modelo verifica se cada critério é atendido. A pontuação final é a soma dos pontos dos critérios satisfeitos em relação ao total possível.

Como criamos o IndQA

Perguntas elaboradas por especialistas. Trabalhamos com parceiros para encontrar especialistas na Índia em 10 domínios distintos. Eles criaram prompts desafiadores e centrados no raciocínio, ligados às suas regiões e especialidades. Esses especialistas são falantes em nível nativo do idioma relevante (e do inglês) e trazem profundo conhecimento do assunto.
Filtragem adversarial: Cada pergunta foi testada contra os modelos mais fortes da OpenAI no momento de sua criação: GPT‑4o, OpenAI o3, GPT‑4.5 e (parcialmente, após o lançamento público) GPT‑5. Mantivemos apenas as perguntas nas quais a maioria desses modelos falhou em produzir respostas aceitáveis, preservando margem para progresso
Critérios Detalhados. Junto com cada pergunta, especialistas no domínio forneceram critérios usados para avaliar a resposta do modelo, semelhante a um critério de avaliação de exame para uma pergunta dissertativa. Esses critérios são usados para avaliar as respostas dos modelos candidatos.
Respostas ideais + revisão. Especialistas adicionaram respostas ideais e traduções em inglês, seguidas de revisão por pares e correções iterativas até a aprovação final.

Exemplos de perguntas

Idioma: Bengali

Domínio: Literatura e linguística

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Domínio: Alimentação e culinária

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Melhorias ao longo do tempo

Usamos o IndQA para avaliar o desempenho dos mais recentes modelos de ponta e mapear seu progresso ao longo dos últimos anos. Com o IndQA, vemos que os modelos da OpenAI melhoraram significativamente ao longo do tempo nos idiomas indianos (com ressalvas⁠), mas ainda há espaço considerável para melhoria. Estamos ansiosos para aprimorar o desempenho e compartilhar resultados para modelos futuros.

Também classificamos o desempenho no IndQA por idioma e domínio, comparando o GPT‑5 Thinking High com outros modelos de ponta.

Ressalvas

Como as perguntas não são idênticas entre os idiomas, o IndQA não é um ranking de proficiência linguística; as pontuações entre idiomas não devem ser interpretadas como comparações diretas de habilidade linguística. Em vez disso, planejamos usar o IndQA para medir melhorias ao longo do tempo dentro de uma família ou configuração de modelos.

Além disso, como as perguntas foram filtradas para aquelas que GPT‑4o, OpenAI o3, GPT‑4.5 e (após o lançamento público) GPT‑5 não conseguiram responder de forma satisfatória, a seleção de perguntas é adversária a esses modelos. Isso potencialmente confunde o desempenho relativo do GPT‑5 e pode desfavorecer todos os modelos da OpenAI em comparação com modelos de outras empresas.

Os especialistas por trás do IndQA

Somos gratos aos 261 especialistas indianos — jornalistas, linguistas, acadêmicos, artistas e profissionais do setor — que escreveram e revisaram as perguntas para o IndQA. Alguns exemplos dos especialistas com os quais trabalhamos são:

Um(a) ator(atriz) e roteirista telugu vencedor(a) do Nandi Award com mais de 750 filmes
Um(a) jornalista e editor(a) marata no Tarun Bharat
Um(a) estudioso(a) de linguística canarim e editor(a) de dicionários.
Um(a) Grande Mestre(a) Internacional de Xadrez que treina jogadores entre os 100 melhores do mundo
Um(a) escritor(a), poeta e ativista cultural tâmil que defende justiça social, equidade de castas e liberdade literária.
Um(a) compositor(a) de música punjabi premiado(a)
Um(a) curador(a) de patrimônio e especialista em conservação guzerate
Um(a) poeta malaiala e artista performático premiado(a)
Um(a) professor(a) de história, especializado(a) na rica herança cultural de Bengala
Um(a) professor(a) de arquitetura, com foco em templos de Odishá

Próximos passos

Esperamos que o lançamento do IndQA informe e inspire a criação de novos benchmarks pela comunidade de pesquisa. Perguntas no estilo IndQA são especialmente valiosas em idiomas ou domínios culturais pouco cobertos pelos benchmarks de IA existentes. Criar benchmarks semelhantes ao IndQA pode ajudar os laboratórios de pesquisa de IA a aprender mais sobre as linguagens e domínios com os quais os modelos têm dificuldades hoje, e orientar melhorias no futuro.

Autoria

OpenAI

Continuar lendo

Ver tudo

GPT-5.6: inteligência de fronteira que acompanha a sua ambição

Produto9 de jul. de 2026

Separando sinal de ruído em avaliações de programação

Pesquisa8 de jul. de 2026

Apresentamos o GPT-Live

Produto8 de jul. de 2026