3 novembre 2025

Ti presentiamo IndQA

Un nuovo benchmark per valutare i sistemi di intelligenza artificiale sulla cultura e le lingue indiane.

Una griglia 3x4 di pulsanti quadrati arrotondati, ognuno contenente un carattere di un diverso sistema di scrittura indiano o dell'alfabeto latino. I caratteri includono bengalese (অ), inglese (En), hindi (ह), kannada (Hi) e altri che rappresentano varie lingue indiane, su uno sfondo grigio chiaro. L'immagine suggerisce assistenza multilingue o selezione della lingua.

Caricamento in corso...

La nostra missione è fare in modo che l'AGI porti beneficio a tutta l'umanità. Per essere utile a tutti, l'intelligenza artificiale deve funzionare bene attraverso lingue e culture diverse. Circa l'80% delle persone nel mondo non parla inglese come lingua principale, eppure la maggior parte dei benchmark esistenti che misurano le capacità linguistiche diverse dall'inglese si rivela inadeguata.

I benchmark multilingue esistenti come MMMLU⁠(si apre in una nuova finestra) sono ora saturi: i modelli migliori tendono a raggrupparsi su punteggi molto elevati, il che li rende meno utili per misurare i progressi reali. Inoltre, i benchmark attuali si concentrano principalmente su attività di traduzione o sulle domande a risposta multipla. Non colgono adeguatamente ciò che conta davvero per valutare le capacità linguistiche di un sistema di intelligenza artificiale: comprendere il contesto, la cultura, la storia e ciò che è importante per le persone nel luogo in cui vivono.

Ecco perché abbiamo creato IndQA, un nuovo benchmark progettato per valutare quanto i modelli di intelligenza artificiale comprendano e ragionino sulle domande importanti nelle lingue indiane, attraverso un'ampia gamma di domini culturali. Anche se il nostro obiettivo è creare benchmark simili per altre lingue e regioni, l'India è un ovvio punto di partenza. L'India ha circa un miliardo di persone che non usano l'inglese come lingua principale, 22 lingue ufficiali (tra cui almeno sette con oltre 50 milioni di parlanti) ed è il secondo mercato più grande per ChatGPT.

Questo lavoro si inserisce nel nostro impegno continuo per migliorare i prodotti e gli strumenti pensati per gli utenti in India e rendere la nostra tecnologia più accessibile in tutto il paese.

Come funziona

IndQA valuta la conoscenza e le capacità di ragionamento sulla cultura indiana e sulla vita di tutti i giorni in India, nelle diverse lingue indiane. Si compone di 2.278 domande in 12 lingue e 10 domini culturali, redatte in collaborazione con 261 esperti di domini diversi provenienti da tutta l'India. A differenza di benchmark esistenti come MMMLU e MGSM, è progettato per esplorare attività con ampie sfumature culturali e complesse dal punto di vista del ragionamento, che le valutazioni esistenti faticano a cogliere.

IndQA copre un'ampia gamma di argomenti culturalmente rilevanti, come Architettura e Design, Arte e Cultura, Vita di tutti i giorni, Cibo e Cucina, Storia, Diritto ed Etica, Letteratura e Linguistica, Media e Intrattenimento, Religione e Spiritualità, e Sport e Tempo libero—con elementi scritti nativamente in Bengalese, Inglese, Hindi, Hinglish, Kannada, Marathi, Odia, Telugu, Gujarati, Malayalam, Punjabi, e Tamil. Nota: abbiamo aggiunto specificamente l'Hinglish data la prevalenza del code-switching nelle conversazioni.

Ogni dato include un prompt radicato culturalmente in una lingua indiana, una traduzione in inglese per la verificabilità, criteri di valutazione e una risposta ideale che riflette le aspettative degli esperti.

Diagramma che illustra il processo di valutazione: un esempio di conversazione tra utente e assistente, una risposta del candidato e una tabella di rubriche utilizzata per valutare la risposta in base a criteri.

IndQA utilizza un approccio basato su rubriche. Ogni risposta viene valutata in base a criteri scritti da esperti del dominio per quella specifica domanda. I criteri spiegano cosa dovrebbe includere o evitare una risposta ideale, e a ciascuno viene assegnato un valore in punti, ponderato in base alla sua importanza. Un valutatore basato su modelli controlla se ogni criterio è soddisfatto. Il punteggio finale è la somma dei punti per i criteri soddisfatti sul totale possibile.

Come abbiamo costruito IndQA

Domande redatte da esperti. Abbiamo collaborato con diversi partner in India per trovare esperti in 10 settori differenti. Hanno redatto dei prompt difficili, incentrati sul ragionamento e legati alle loro regioni e specializzazioni. Questi esperti parlano in modo nativo la lingua di riferimento (e l'inglese) e hanno una conoscenza approfondita del loro settore.
Filtro avversariale: Ogni domanda è stata testata contro i modelli più potenti di OpenAI al momento della loro creazione: GPT‑4o, OpenAI o3, GPT‑4.5 e (parzialmente, dopo il lancio pubblico) GPT‑5. Abbiamo mantenuto solo quelle domande in cui la maggioranza di questi modelli non è riuscita a fornire risposte accettabili, preservando un margine di miglioramento
Criteri dettagliati. Insieme a ogni domanda, gli esperti di ciascun dominio hanno fornito i criteri utilizzati per valutare la risposta del modello, in modo simile alla griglia di valutazione di un saggio. Questi criteri vengono utilizzati per valutare le risposte dei modelli in esame.
Risposte ideali + revisione. Gli esperti hanno aggiunto risposte ideali e traduzioni in inglese, seguite da una revisione tra pari e correzioni iterative fino all'approvazione finale.

Esempi di domande

Lingua: Bengalese

Dominio: Letteratura e Linguistica

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Dominio: Cibo e Cucina

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Miglioramenti nel tempo

Utilizziamo IndQA per valutare come si comportano i modelli di frontiera più recenti e tracciare i progressi compiuti negli ultimi due anni. Con IndQA possiamo osservare che i modelli di OpenAI sono migliorati significativamente nel tempo per quanto riguarda le lingue indiane (pur con alcune precisazioni⁠), ma hanno ancora un ampio margine di miglioramento. Non vediamo l'ora di migliorare le prestazioni e condividere i risultati dei modelli futuri.

Di seguito, stratifichiamo le prestazioni su IndQA per lingua e dominio, confrontando GPT‑5 Thinking High con altri modelli di frontiera.

Avvertenze

Poiché le domande non sono identiche tra le lingue, IndQA non è una classifica linguistica; i punteggi tra le lingue non dovrebbero essere interpretati come confronti diretti delle abilità linguistiche. Invece, prevediamo di utilizzare IndQA per misurare il miglioramento nel tempo all'interno di una famiglia di modelli o di una configurazione.

Inoltre, poiché le domande sono state filtrate selezionando solo quelle a cui GPT‑4o, OpenAI o3, GPT‑4.5 e (dopo il lancio pubblico) GPT‑5 non potevano rispondere adeguatamente, la selezione delle domande è stata progettata per essere sfidante per questi modelli. Questo potrebbe confondere le prestazioni relative di GPT‑5 e svantaggiare tutti i modelli OpenAI rispetto ai modelli non OpenAI.

Gli esperti dietro IndQA

Siamo grati ai 261 esperti indiani tra giornalisti, linguisti, studiosi, artisti e professionisti del settore che hanno scritto e revisionato le domande per IndQA. Alcuni esempi degli esperti con cui abbiamo collaborato includono:

Un attore e sceneggiatore telugu con più di 750 film alle spalle e vincitore del Premio Nandi
Un giornalista marathi e redattore presso il Tarun Bharat
Un esperto di linguistica kannada e curatore di dizionari
Un Grande Maestro Internazionale di scacchi che allena giocatori tra i primi 100 al mondo
Uno scrittore, poeta e attivista culturale tamil che promuove la giustizia sociale, l'equità di casta e la libertà letteraria.
Un pluripremiato compositore di musica punjabi
Un curatore del patrimonio gujarati e specialista in conservazione
Un pluripremiato poeta e artista performativo malayalam
Un professore di storia, specializzato nel ricco patrimonio culturale del Bengala
Un professore di architettura, con specializzazione nei templi dell'Odisha

Prossimi passi

Ci auguriamo che la diffusione di IndQA informi e ispiri la comunità dei ricercatori nella creazione di nuovi benchmark. Le domande in stile IndQA sono particolarmente preziose nelle lingue o nei domini culturali che sono scarsamente coperti dai benchmark di IA esistenti. Creare parametri di riferimento simili a IndQA può aiutare i laboratori di ricerca sull'IA a comprendere meglio i linguaggi e i domini con cui i modelli hanno difficoltà oggi, fornendo una stella polare per i miglioramenti futuri.

Autore

OpenAI

Continua a leggere

Visualizza tutto

GPT-5.6: intelligenza di frontiera che cresce con la tua ambizione

Prodotto9 lug 2026

Separare il segnale dal rumore nelle valutazioni di coding

Ricerca8 lug 2026

Presentiamo GPT-Live

Prodotto8 lug 2026