
Tehtävämme on saada AGI hyödyttämään koko ihmiskuntaa. Jos tekoäly on tarkoitus olla hyödyllinen kaikille, sen on toimittava hyvin eri kielten ja kulttuurien välillä. Noin 80 % maailman väestöstä ei puhu englantia ensisijaisena kielenään. Silti useimmat olemassa olevat vertailuarvot, jotka mittaavat muita kuin englannin kielen taitoja, ovat riittämättömiä.
Olemassa olevat monikieliset vertailuarvot, kuten MMMLU(avautuu uudessa ikkunassa), ovat saavuttaneet kyllästymispisteen. Parhaat mallit sijoittuvat lähelle korkeita pisteitä, mikä tekee niistä vähemmän hyödyllisiä todellisen edistyksen mittaamiseen. Lisäksi nykyiset vertailuarvot keskittyvät pääasiassa käännös- tai monivalintatehtäviin. Ne eivät kuvaa riittävästi sitä, mikä todella on tärkeää tekoälyjärjestelmän kielitaidon arvioinnissa – kontekstin, kulttuurin, historian ja ihmisille heidän asuinpaikassaan tärkeiden asioiden ymmärtäminen.
Siksi loimme IndQA:n, uuden vertailuanalyysin, joka on suunniteltu arvioimaan, kuinka hyvin tekoälymallit ymmärtävät ja päättelevät intialaisilla kielillä merkityksellisiä kysymyksiä laajassa kulttuurialojen kirjossa. Vaikka tavoitteenamme on luoda vastaavia vertailuarvoja muille kielille ja alueille, Intia on ilmeinen lähtökohta. Intiassa on noin miljardi ihmistä, jotka eivät käytä englantia ensisijaisena kielenään, 22 virallista kieltä (joista ainakin seitsemällä on yli 50 miljoonaa puhujaa), ja se on ChatGPT:n toiseksi suurin markkina.
Tämä työ on osa jatkuvaa sitoutumistamme parantaa tuotteitamme ja työkaluja intialaisille käyttäjille sekä tehdä teknologiastamme entistä saavutettavampaa koko maassa.
IndQA arvioi intialaista kulttuuria ja arkielämää koskevaa tietämystä ja päättelyä intialaisilla kielillä. Se kattaa 2 278 kysymystä 12 kielellä ja 10 kulttuurialueella, ja se on luotu yhteistyössä 261 asiantuntijan kanssa eri puolilta Intiaa. Toisin kuin nykyiset vertailuarvot, kuten MMMLU ja MGSM, se on suunniteltu tutkimaan kulttuurisesti vivahteikkaita, päättelypainotteisia tehtäviä, joita nykyiset arvioinnit eivät pysty kattamaan.
IndQA kattaa laajan kirjon kulttuurisesti merkityksellisiä aiheita, kuten arkkitehtuuri ja muotoilu, taide ja kulttuuri, arki, ruoka ja keittiö, historia, laki ja etiikka, kirjallisuus ja kielitiede, media ja viihde, uskonto ja hengellisyys sekä urheilu ja vapaa-aika. Artikkeleita on kirjoitettu kielillä bengali, englanti, hindi, hinglish, kannada, marathi, odia, telugu, gujarati, malajalam, punjabi ja tamil. Huomautus: lisäsimme erityisesti hinglishin, koska koodinvaihto on yleistä keskusteluissa.
Jokainen datapiste sisältää kulttuurisesti perustellun kehotteen intialaisella kielellä, englanninkielisen käännöksen tarkastettavuutta varten, arviointikriteerit arviointia varten ja ihanteellisen vastauksen, joka vastaa asiantuntijoiden odotuksia.
IndQA käyttää arviointikriteereihin perustuvaa lähestymistapaa. Jokainen vastaus arvioidaan kyseiselle kysymykselle asiantuntijoiden laatimien kriteerien perusteella. Kriteereissä määritellään, mitä ihanteellinen vastaus tulisi sisältää tai välttää, ja jokaiselle kriteerille annetaan painotettu pistearvo sen tärkeyden perusteella. Mallipohjainen arvioija tarkistaa, täyttyykö kukin kriteeri. Lopullinen pistemäärä on täytettyjen kriteerien perusteella saatujen pisteiden summa mahdollisesta kokonaismäärästä.
- Asiantuntijoiden laatimat kysymykset. Teimme yhteistyötä kumppaneiden kanssa löytääksemme asiantuntijoita Intiasta kymmenellä eri toimialueella. He laativat vaikeita, päättelykykyä vaativia tehtäviä, jotka liittyivät heidän alueisiinsa ja erikoisaloihinsa. Nämä asiantuntijat ovat kyseisen kielen (ja englannin) äidinkielisiä puhujia ja heillä on syvällistä asiantuntemusta aiheesta.
- Vastakkainasettelu: Jokainen kysymys testattiin OpenAI:n vahvimmilla malleilla niiden luomisajankohtana: GPT‑4o, OpenAI o3, GPT‑4.5 ja (osittain, julkaisun jälkeen) GPT‑5. Säilytimme vain ne kysymykset, joihin suurin osa näistä malleista ei tuottanut hyväksyttäviä vastauksia, jättäen tilaa kehitykselle
- Yksityiskohtaiset kriteerit. Jokaiseen kysymykseen liittyen alan asiantuntijat antoivat kriteerit, joita käytettiin mallivastauksen arviointiin, samalla tavalla kuin esseekysymyksen arviointikriteerit. Näitä kriteerejä käytetään arvioimaan ehdokasmallien vastauksia.
- Ideaaliset vastaukset + arvostelu. Asiantuntijat lisäsivät ihanteelliset vastaukset ja englanninkieliset käännökset, minkä jälkeen tehtiin vertaisarviointi ja toistuvia korjauksia, kunnes vastaukset hyväksyttiin.
Kieli: bngali
Toimialue kirjallisuus ja kielitiede
Toimialue: Ruoka ja ruokakulttuuri
Käytämme IndQA:ta arvioidaksemme, miten viimeisimmät edistyneimmät mallit suoriutuvat, ja kartoittaaksemme edistystä viimeisten parin vuoden aikana. IndQA:n avulla voimme nähdä, että OpenAI:n mallit ovat parantuneet merkittävästi ajan myötä intialaisilla kielillä (varauksin), mutta niillä on silti huomattavasti parantamisen varaa. Odotamme innolla suorituskyvyn parantamista ja tulosten jakamista tuleville malleille.
Luokittelemme myös IndQA:n suorituskyvyn kielen ja toimialueen mukaan alla ja vertaamme GPT‑5 Thinking Highia muihin edistyneimpiin mamalleihin.
Koska kysymykset eivät ole identtisiä eri kielillä, IndQA ei ole kielten tulostaulukko; eri kielten pisteitä ei tule tulkita kielitaidon suorina vertailuina. Sen sijaan aiomme käyttää IndQA:ta mittaamaan parannusta ajan myötä malliperheen tai kokoonpanon sisällä.
Lisäksi, koska kysymykset suodatettiin niihin, joihin GPT‑4o, OpenAI o3, GPT‑4.5 ja (julkaisun jälkeen) GPT‑5 eivät pystyneet vastaamaan riittävästi, kysymysten valinta on asetettu näitä malleja vastaan. Tämä saattaa sekoittaa GPT‑5:n suhteellista suorituskykyä ja voi asettaa kaikki OpenAI:n mallit epäedulliseen asemaan verrattuna muihin kuin OpenAI-malleihin.
Olemme kiitollisia 261:lle intialaiselle asiantuntijalle; toimittajille, kielitieteilijöille, tutkijoille, taiteilijoille ja alan ammattilaisille, jotka kirjoittivat ja arvioivat kysymyksiä IndQA:lle. Muutamia esimerkkejä asiantuntijoista, joiden kanssa olemme työskennelleet:
- Nandi-palkittu telugu-näyttelijä ja käsikirjoittaja, joka on tehnyt yli 750 elokuvaa
- Marathi-toimittaja ja Tarun Bharatin päätoimittaja
- Kannadan kielitieteen tutkija ja sanakirjatoimittaja
- Kansainvälinen shakkisuurmestari, joka valmentaa sadan parhaan joukkoon kuuluvia shakkipelaajia
- Tamilikirjailija, runoilija ja kulttuuriaktivisti, joka ajaa sosiaalista oikeudenmukaisuutta, kastien tasa-arvoa ja kirjallista vapautta
- Palkittu punjabilainen musiikkisäveltäjä
- Gujaratin kulttuuriperinnön kuraattori ja konservointiasiantuntija
- Palkittu malajalaminkielinen runoilija ja performanssitaiteilija
- Historian professori, joka on erikoistunut Bengalin rikkaaseen kulttuuriperintöön
- Arkkitehtuurin professori, joka keskittyy Odishan temppeleihin
Toivomme, että IndQA:n julkaisu informoi ja inspiroi tutkimusyhteisöä luomaan uusia vertailuarvoja. IndQA-tyyliset kysymykset ovat erityisen arvokkaita kielissä tai kulttuuritoimialueilla, joita nykyiset tekoälyn vertailuarvot eivät kata riittävän hyvin. IndQA:n kaltaisten vertailuarvojen luominen voi auttaa tekoälytutkimuslaboratorioita oppimaan lisää kielistä ja aloista, joiden kanssa mallit kamppailevat nykyään, ja tarjota suuntaviivat tulevaisuuden parannuksille.


