
La nostra missione è fare in modo che l'AGI porti beneficio a tutta l'umanità. Per essere utile a tutti, l'intelligenza artificiale deve funzionare bene attraverso lingue e culture diverse. Circa l'80% delle persone nel mondo non parla inglese come lingua principale, eppure la maggior parte dei benchmark esistenti che misurano le capacità linguistiche diverse dall'inglese si rivela inadeguata.
I benchmark multilingue esistenti come MMMLU(si apre in una nuova finestra) sono ora saturi: i modelli migliori tendono a raggrupparsi su punteggi molto elevati, il che li rende meno utili per misurare i progressi reali. Inoltre, i benchmark attuali si concentrano principalmente su attività di traduzione o sulle domande a risposta multipla. Non colgono adeguatamente ciò che conta davvero per valutare le capacità linguistiche di un sistema di intelligenza artificiale: comprendere il contesto, la cultura, la storia e ciò che è importante per le persone nel luogo in cui vivono.
Ecco perché abbiamo creato IndQA, un nuovo benchmark progettato per valutare quanto i modelli di intelligenza artificiale comprendano e ragionino sulle domande importanti nelle lingue indiane, attraverso un'ampia gamma di domini culturali. Anche se il nostro obiettivo è creare benchmark simili per altre lingue e regioni, l'India è un ovvio punto di partenza. L'India ha circa un miliardo di persone che non usano l'inglese come lingua principale, 22 lingue ufficiali (tra cui almeno sette con oltre 50 milioni di parlanti) ed è il secondo mercato più grande per ChatGPT.
Questo lavoro si inserisce nel nostro impegno continuo per migliorare i prodotti e gli strumenti pensati per gli utenti in India e rendere la nostra tecnologia più accessibile in tutto il paese.
IndQA valuta la conoscenza e le capacità di ragionamento sulla cultura indiana e sulla vita di tutti i giorni in India, nelle diverse lingue indiane. Si compone di 2.278 domande in 12 lingue e 10 domini culturali, redatte in collaborazione con 261 esperti di domini diversi provenienti da tutta l'India. A differenza di benchmark esistenti come MMMLU e MGSM, è progettato per esplorare attività con ampie sfumature culturali e complesse dal punto di vista del ragionamento, che le valutazioni esistenti faticano a cogliere.
IndQA copre un'ampia gamma di argomenti culturalmente rilevanti, come Architettura e Design, Arte e Cultura, Vita di tutti i giorni, Cibo e Cucina, Storia, Diritto ed Etica, Letteratura e Linguistica, Media e Intrattenimento, Religione e Spiritualità, e Sport e Tempo libero—con elementi scritti nativamente in Bengalese, Inglese, Hindi, Hinglish, Kannada, Marathi, Odia, Telugu, Gujarati, Malayalam, Punjabi, e Tamil. Nota: abbiamo aggiunto specificamente l'Hinglish data la prevalenza del code-switching nelle conversazioni.
Ogni dato include un prompt radicato culturalmente in una lingua indiana, una traduzione in inglese per la verificabilità, criteri di valutazione e una risposta ideale che riflette le aspettative degli esperti.
IndQA utilizza un approccio basato su rubriche. Ogni risposta viene valutata in base a criteri scritti da esperti del dominio per quella specifica domanda. I criteri spiegano cosa dovrebbe includere o evitare una risposta ideale, e a ciascuno viene assegnato un valore in punti, ponderato in base alla sua importanza. Un valutatore basato su modelli controlla se ogni criterio è soddisfatto. Il punteggio finale è la somma dei punti per i criteri soddisfatti sul totale possibile.
- Domande redatte da esperti. Abbiamo collaborato con diversi partner in India per trovare esperti in 10 settori differenti. Hanno redatto dei prompt difficili, incentrati sul ragionamento e legati alle loro regioni e specializzazioni. Questi esperti parlano in modo nativo la lingua di riferimento (e l'inglese) e hanno una conoscenza approfondita del loro settore.
- Filtro avversariale: Ogni domanda è stata testata contro i modelli più potenti di OpenAI al momento della loro creazione: GPT‑4o, OpenAI o3, GPT‑4.5 e (parzialmente, dopo il lancio pubblico) GPT‑5. Abbiamo mantenuto solo quelle domande in cui la maggioranza di questi modelli non è riuscita a fornire risposte accettabili, preservando un margine di miglioramento
- Criteri dettagliati. Insieme a ogni domanda, gli esperti di ciascun dominio hanno fornito i criteri utilizzati per valutare la risposta del modello, in modo simile alla griglia di valutazione di un saggio. Questi criteri vengono utilizzati per valutare le risposte dei modelli in esame.
- Risposte ideali + revisione. Gli esperti hanno aggiunto risposte ideali e traduzioni in inglese, seguite da una revisione tra pari e correzioni iterative fino all'approvazione finale.
Lingua: Bengalese
Dominio: Letteratura e Linguistica
Dominio: Cibo e Cucina
Utilizziamo IndQA per valutare come si comportano i modelli di frontiera più recenti e tracciare i progressi compiuti negli ultimi due anni. Con IndQA possiamo osservare che i modelli di OpenAI sono migliorati significativamente nel tempo per quanto riguarda le lingue indiane (pur con alcune precisazioni), ma hanno ancora un ampio margine di miglioramento. Non vediamo l'ora di migliorare le prestazioni e condividere i risultati dei modelli futuri.
Di seguito, stratifichiamo le prestazioni su IndQA per lingua e dominio, confrontando GPT‑5 Thinking High con altri modelli di frontiera.
Poiché le domande non sono identiche tra le lingue, IndQA non è una classifica linguistica; i punteggi tra le lingue non dovrebbero essere interpretati come confronti diretti delle abilità linguistiche. Invece, prevediamo di utilizzare IndQA per misurare il miglioramento nel tempo all'interno di una famiglia di modelli o di una configurazione.
Inoltre, poiché le domande sono state filtrate selezionando solo quelle a cui GPT‑4o, OpenAI o3, GPT‑4.5 e (dopo il lancio pubblico) GPT‑5 non potevano rispondere adeguatamente, la selezione delle domande è stata progettata per essere sfidante per questi modelli. Questo potrebbe confondere le prestazioni relative di GPT‑5 e svantaggiare tutti i modelli OpenAI rispetto ai modelli non OpenAI.
Siamo grati ai 261 esperti indiani tra giornalisti, linguisti, studiosi, artisti e professionisti del settore che hanno scritto e revisionato le domande per IndQA. Alcuni esempi degli esperti con cui abbiamo collaborato includono:
- Un attore e sceneggiatore telugu con più di 750 film alle spalle e vincitore del Premio Nandi
- Un giornalista marathi e redattore presso il Tarun Bharat
- Un esperto di linguistica kannada e curatore di dizionari
- Un Grande Maestro Internazionale di scacchi che allena giocatori tra i primi 100 al mondo
- Uno scrittore, poeta e attivista culturale tamil che promuove la giustizia sociale, l'equità di casta e la libertà letteraria.
- Un pluripremiato compositore di musica punjabi
- Un curatore del patrimonio gujarati e specialista in conservazione
- Un pluripremiato poeta e artista performativo malayalam
- Un professore di storia, specializzato nel ricco patrimonio culturale del Bengala
- Un professore di architettura, con specializzazione nei templi dell'Odisha
Ci auguriamo che la diffusione di IndQA informi e ispiri la comunità dei ricercatori nella creazione di nuovi benchmark. Le domande in stile IndQA sono particolarmente preziose nelle lingue o nei domini culturali che sono scarsamente coperti dai benchmark di IA esistenti. Creare parametri di riferimento simili a IndQA può aiutare i laboratori di ricerca sull'IA a comprendere meglio i linguaggi e i domini con cui i modelli hanno difficoltà oggi, fornendo una stella polare per i miglioramenti futuri.


