3. marraskuuta 2025

Esittelyssä IndQA

Uusi arviointimittari tekoälyjärjestelmille, jotka arvioivat intialaista kulttuuria ja kieliä.

3 × 4 -ruudukko pyöristettyjä neliöpainikkeita, joista jokainen sisältää merkin eri intialaisesta kirjoitusjärjestelmästä tai latinalaisista aakkosista. Merkkeihin kuuluvat bengali (অ), englanti (En), hindi (ह), kannada (Hi) ja muita intialaisia kieliä edustavia merkkejä, jotka on asetettu vaaleanharmaalle taustalle. Kuva viittaa monikieliseen tukeen tai kielivalintaan.

Ladataan...

Tehtävämme on saada AGI hyödyttämään koko ihmiskuntaa. Jos tekoäly on tarkoitus olla hyödyllinen kaikille, sen on toimittava hyvin eri kielten ja kulttuurien välillä. Noin 80 % maailman väestöstä ei puhu englantia ensisijaisena kielenään. Silti useimmat olemassa olevat vertailuarvot, jotka mittaavat muita kuin englannin kielen taitoja, ovat riittämättömiä.

Olemassa olevat monikieliset vertailuarvot, kuten MMMLU⁠(avautuu uudessa ikkunassa), ovat saavuttaneet kyllästymispisteen. Parhaat mallit sijoittuvat lähelle korkeita pisteitä, mikä tekee niistä vähemmän hyödyllisiä todellisen edistyksen mittaamiseen. Lisäksi nykyiset vertailuarvot keskittyvät pääasiassa käännös- tai monivalintatehtäviin. Ne eivät kuvaa riittävästi sitä, mikä todella on tärkeää tekoälyjärjestelmän kielitaidon arvioinnissa – kontekstin, kulttuurin, historian ja ihmisille heidän asuinpaikassaan tärkeiden asioiden ymmärtäminen.

Siksi loimme IndQA:n, uuden vertailuanalyysin, joka on suunniteltu arvioimaan, kuinka hyvin tekoälymallit ymmärtävät ja päättelevät intialaisilla kielillä merkityksellisiä kysymyksiä laajassa kulttuurialojen kirjossa. Vaikka tavoitteenamme on luoda vastaavia vertailuarvoja muille kielille ja alueille, Intia on ilmeinen lähtökohta. Intiassa on noin miljardi ihmistä, jotka eivät käytä englantia ensisijaisena kielenään, 22 virallista kieltä (joista ainakin seitsemällä on yli 50 miljoonaa puhujaa), ja se on ChatGPT:n toiseksi suurin markkina.

Tämä työ on osa jatkuvaa sitoutumistamme parantaa tuotteitamme ja työkaluja intialaisille käyttäjille sekä tehdä teknologiastamme entistä saavutettavampaa koko maassa.

Miten se toimii

IndQA arvioi intialaista kulttuuria ja arkielämää koskevaa tietämystä ja päättelyä intialaisilla kielillä. Se kattaa 2 278 kysymystä 12 kielellä ja 10 kulttuurialueella, ja se on luotu yhteistyössä 261 asiantuntijan kanssa eri puolilta Intiaa. Toisin kuin nykyiset vertailuarvot, kuten MMMLU ja MGSM, se on suunniteltu tutkimaan kulttuurisesti vivahteikkaita, päättelypainotteisia tehtäviä, joita nykyiset arvioinnit eivät pysty kattamaan.

IndQA kattaa laajan kirjon kulttuurisesti merkityksellisiä aiheita, kuten arkkitehtuuri ja muotoilu, taide ja kulttuuri, arki, ruoka ja keittiö, historia, laki ja etiikka, kirjallisuus ja kielitiede, media ja viihde, uskonto ja hengellisyys sekä urheilu ja vapaa-aika. Artikkeleita on kirjoitettu kielillä bengali, englanti, hindi, hinglish, kannada, marathi, odia, telugu, gujarati, malajalam, punjabi ja tamil. Huomautus: lisäsimme erityisesti hinglishin, koska koodinvaihto on yleistä keskusteluissa.

Jokainen datapiste sisältää kulttuurisesti perustellun kehotteen intialaisella kielellä, englanninkielisen käännöksen tarkastettavuutta varten, arviointikriteerit arviointia varten ja ihanteellisen vastauksen, joka vastaa asiantuntijoiden odotuksia.

Arviointiprosessia kuvaava kaavio: esimerkki käyttäjän ja avustajan välisestä keskustelusta, ehdokkaan vastauksesta ja vastauksen pisteyttämiseen käytetystä arviointitaulukosta.

IndQA käyttää arviointikriteereihin perustuvaa lähestymistapaa. Jokainen vastaus arvioidaan kyseiselle kysymykselle asiantuntijoiden laatimien kriteerien perusteella. Kriteereissä määritellään, mitä ihanteellinen vastaus tulisi sisältää tai välttää, ja jokaiselle kriteerille annetaan painotettu pistearvo sen tärkeyden perusteella. Mallipohjainen arvioija tarkistaa, täyttyykö kukin kriteeri. Lopullinen pistemäärä on täytettyjen kriteerien perusteella saatujen pisteiden summa mahdollisesta kokonaismäärästä.

Miten rakensimme IndQA:n

Asiantuntijoiden laatimat kysymykset. Teimme yhteistyötä kumppaneiden kanssa löytääksemme asiantuntijoita Intiasta kymmenellä eri toimialueella. He laativat vaikeita, päättelykykyä vaativia tehtäviä, jotka liittyivät heidän alueisiinsa ja erikoisaloihinsa. Nämä asiantuntijat ovat kyseisen kielen (ja englannin) äidinkielisiä puhujia ja heillä on syvällistä asiantuntemusta aiheesta.
Vastakkainasettelu: Jokainen kysymys testattiin OpenAI:n vahvimmilla malleilla niiden luomisajankohtana: GPT‑4o, OpenAI o3, GPT‑4.5 ja (osittain, julkaisun jälkeen) GPT‑5. Säilytimme vain ne kysymykset, joihin suurin osa näistä malleista ei tuottanut hyväksyttäviä vastauksia, jättäen tilaa kehitykselle
Yksityiskohtaiset kriteerit. Jokaiseen kysymykseen liittyen alan asiantuntijat antoivat kriteerit, joita käytettiin mallivastauksen arviointiin, samalla tavalla kuin esseekysymyksen arviointikriteerit. Näitä kriteerejä käytetään arvioimaan ehdokasmallien vastauksia.
Ideaaliset vastaukset + arvostelu. Asiantuntijat lisäsivät ihanteelliset vastaukset ja englanninkieliset käännökset, minkä jälkeen tehtiin vertaisarviointi ja toistuvia korjauksia, kunnes vastaukset hyväksyttiin.

Esimerkkikysymyksiä

Kieli: bngali

Toimialue kirjallisuus ja kielitiede

Prompt

‘দণ্ডক থেকে মরিচঝাঁপি’ উপন্যাসের লেখক নিম্নবর্ণের পুরুষ ও নারীদের দণ্ডকারন্যে পুনর্বাসন পরবর্তী জীবন কিভাবে দেখিয়েছেন? দণ্ডকারণ্যে পুনর্বাসন কি সরকারী উদাসীনতার ফল? পরিবর্তিত প্রাকৃতিক পরিবেশের সাথে উদ্বাস্তুরা কিভাবে মানিয়ে নিয়েছিল?

English Translation

How did the writer of Bengali novel ‘Dandak Theke Marichjhanpi’ depict the post-rehabilitation lives of lower caste men and women? Was the rehabilitation in Dandakaranya a result of governmental indifference? What was its relation with the new natural landscapes?

Toimialue: Ruoka ja ruokakulttuuri

Prompt

কোন পরিপ্রেক্ষিতে উনিশ শতকের শেষ দিক থেকে রান্নার বইগুলো বেরচ্ছিল ? প্রথম বাংলা রান্নার বইটির সাথে বিপ্রদাস মুখোপাধ্যায় রচিত বইটির পার্থক্য কোথায় ? বিপ্রদাসের উদ্যোগে প্রকাশিত পত্রিকাটি চলেছিল কতদিন ? বিপ্রদাস ও প্রজ্ঞা সুন্দরীর লেখা অনুসরণ করে দিঘাপতিয়া থেকে কোন বইটি বেরিয়েছিল ?

English Translation

In what context were cookbooks published from the end of the 19th century? What is the difference between the first Bengali cookbook and the book written by Bipradas Mukherjee? How long did the magazine published by Bipradas run? Which book was published by Dighapatiya following the writings of Bipradas and Pragya Sundari?

Parannukset ajan myötä

Käytämme IndQA:ta arvioidaksemme, miten viimeisimmät edistyneimmät mallit suoriutuvat, ja kartoittaaksemme edistystä viimeisten parin vuoden aikana. IndQA:n avulla voimme nähdä, että OpenAI:n mallit ovat parantuneet merkittävästi ajan myötä intialaisilla kielillä (varauksin⁠), mutta niillä on silti huomattavasti parantamisen varaa. Odotamme innolla suorituskyvyn parantamista ja tulosten jakamista tuleville malleille.

Luokittelemme myös IndQA:n suorituskyvyn kielen ja toimialueen mukaan alla ja vertaamme GPT‑5 Thinking Highia muihin edistyneimpiin mamalleihin.

Huomautukset

Koska kysymykset eivät ole identtisiä eri kielillä, IndQA ei ole kielten tulostaulukko; eri kielten pisteitä ei tule tulkita kielitaidon suorina vertailuina. Sen sijaan aiomme käyttää IndQA:ta mittaamaan parannusta ajan myötä malliperheen tai kokoonpanon sisällä.

Lisäksi, koska kysymykset suodatettiin niihin, joihin GPT‑4o, OpenAI o3, GPT‑4.5 ja (julkaisun jälkeen) GPT‑5 eivät pystyneet vastaamaan riittävästi, kysymysten valinta on asetettu näitä malleja vastaan. Tämä saattaa sekoittaa GPT‑5:n suhteellista suorituskykyä ja voi asettaa kaikki OpenAI:n mallit epäedulliseen asemaan verrattuna muihin kuin OpenAI-malleihin.

IndQA:n asiantuntijat

Olemme kiitollisia 261:lle intialaiselle asiantuntijalle; toimittajille, kielitieteilijöille, tutkijoille, taiteilijoille ja alan ammattilaisille, jotka kirjoittivat ja arvioivat kysymyksiä IndQA:lle. Muutamia esimerkkejä asiantuntijoista, joiden kanssa olemme työskennelleet:

Nandi-palkittu telugu-näyttelijä ja käsikirjoittaja, joka on tehnyt yli 750 elokuvaa
Marathi-toimittaja ja Tarun Bharatin päätoimittaja
Kannadan kielitieteen tutkija ja sanakirjatoimittaja
Kansainvälinen shakkisuurmestari, joka valmentaa sadan parhaan joukkoon kuuluvia shakkipelaajia
Tamilikirjailija, runoilija ja kulttuuriaktivisti, joka ajaa sosiaalista oikeudenmukaisuutta, kastien tasa-arvoa ja kirjallista vapautta
Palkittu punjabilainen musiikkisäveltäjä
Gujaratin kulttuuriperinnön kuraattori ja konservointiasiantuntija
Palkittu malajalaminkielinen runoilija ja performanssitaiteilija
Historian professori, joka on erikoistunut Bengalin rikkaaseen kulttuuriperintöön
Arkkitehtuurin professori, joka keskittyy Odishan temppeleihin

Seuraavat vaiheet

Toivomme, että IndQA:n julkaisu informoi ja inspiroi tutkimusyhteisöä luomaan uusia vertailuarvoja. IndQA-tyyliset kysymykset ovat erityisen arvokkaita kielissä tai kulttuuritoimialueilla, joita nykyiset tekoälyn vertailuarvot eivät kata riittävän hyvin. IndQA:n kaltaisten vertailuarvojen luominen voi auttaa tekoälytutkimuslaboratorioita oppimaan lisää kielistä ja aloista, joiden kanssa mallit kamppailevat nykyään, ja tarjota suuntaviivat tulevaisuuden parannuksille.

Tekijä

OpenAI

Jatka lukemista

Näytä kaikki

GPT-5.6: Rajat ylittävä älykkyys, joka kasvaa kunnianhimosi mukana

Tuote9.7.2026

Signaalin erottaminen kohinasta koodausarvioinneissa

Tutkimus8.7.2026

Esittelyssä GPT-Live

Tuote8.7.2026