
Teemme OpenAI:lla kovasti töitä, jotta tekoälyjärjestelmistä tulisi hyödyllisempiä ja luotettavampia. Vaikka kielimalleista on tulossa suorituskykyisempiä, yksi haaste on yhä hyvin vaikea täysin ratkaista: hallusinaatiot. Tarkoitamme tällä tapauksia, joissa malli luo itsevarmasti väärän vastauksen. Uudessa tutkimusartikkelissamme(avautuu uudessa ikkunassa) esitetään, että kielimallit hallusinoivat koska tavanomaiset koulutus- ja arviointimenettelyt palkitsevat arvaamisesta epävarmuuden tunnustamisen sijaan.
Myös ChatGPT hallusinoi. GPT‑5:llä on selvästi vähemmän hallusinaatioita, erityisesti päättelytehtävissä, mutta niitä esiintyy silti. Hallusinaatiot pysyvät kaikkien suurten kielimallien perushaasteena, mutta työskentelemme ahkerasti niiden vähentämiseksi entisestään.
Hallusinaatiot ovat kielimallien tuottamia uskottavia, mutta vääriä väitteitä. Niitä voi ilmetä yllättävillä tavoilla, jopa vastauksina yksinkertaisilta vaikuttaviin kysymyksiin. Kun esimerkiksi kysyimme yleisesti käytetyltä chatbotilta Adam Tauman Kalain (tämän artikkelin kirjoittaja) väitöskirjan nimeä, se tuotti itsevarmasti kolme erilaista vastausta, joista mikään ei ollut oikein. Kysyimme hänen syntymäpäiväänsä, ja se antoi kolme eri päivämäärää, myös kaikki vääriä.
Hallusinaatiot jatkuvat osittain siksi, että nykyiset arviointimenetelmät luovat vääriä kannustimia. Vaikka arvioinnit eivät itsessään aiheuta suoraan hallusinointia, useimmat arvioinnit mittaavat mallin suorituskykyä tavalla, joka kannustaa ennemmin arvaamiseen kuin epävarmuuden rehelliseen tunnustamiseen.
Ajattele tilannetta monivalintakokeena. Jos et tiedä vastausta, mutta arvaat sattumanvaraisesti, voit onnistua ja osua oikeaan. Jos kohdan jättää tyhjäksi, tulos on varmasti nolla. Samoin, kun malleja arvioidaan vain tarkkuuden perusteella, eli sen perusteella, kuinka monen kysymyksen vastaukset ovat täysin oikeita, niitä kannustetaan arvaamaan vastauksia sen sijaan, että ne sanoisivat ”en tiedä”.
Toinen esimerkki: oletetaan, että kielimallilta kysytään henkilön syntymäpäivää, mutta se ei tiedä sitä. Jos se arvaa ”syyskuun 10.”, sen todennäköisyys olla oikeassa on 1:365. Sanomalla ”en tiedä” saadaan nolla pistettä. Tuhansien testikysymysten perusteella arvaava malli näyttää lopulta paremmalta tulostaulukossa kuin varovainen malli, joka myöntää epävarmuuden.
Kysymyksissä, joissa on yksi ainoa ”oikea vastaus”, voidaan tarkastella kolmea vastausluokkaa: oikeat vastaukset, virheet ja vastaamatta jättämiset silloin, kun malli ei uskalla arvata. Vastaamatta jättäminen kuuluu nöyryyteen, joka on yksi OpenAI:n keskeisistä arvoista. Useimmissa tulostaulukoissa mallit priorisoidaan ja luokitellaan tarkkuuden perusteella, mutta virheet ovat huonompi asia kuin vastaamatta jättäminen. Mallimäärityksemme(avautuu uudessa ikkunassa) mukaan on parempi ilmaista epävarmuutta tai pyytää selvennystä, kuin tarjota itsevarmasti tietoja, jotka voivat olla vääriä.
Konkreettinen esimerkki: tarkastele SimpleQA:n arviointia esimerkkinä GPT‑5‑järjestelmäkortista(avautuu uudessa ikkunassa).
Mittari | gpt-5-thinking-mini | OpenAI o4-mini |
Pidättäytymisen aste
| 52 % | 1 % |
Tarkkuuden aste
| 22 % | 24 % |
Virheaste
| 26 % | 75 % |
Yhteensä | 100 % | 100 % |
Tarkkuuden kannalta vanhempi OpenAI o4-mini -malli suoriutuu vähän paremmin. Sen virheaste (eli hallusinaatioiden määrä) on kuitenkin huomattavasti korkeampi. Strateginen arvailu silloin, kun on epävarma, parantaa tarkkuutta, mutta lisää virheitä ja hallusinaatioita.
Useimmat vertailuarvot ottavat huomioon tarkkuusmittarin, kun lasketaan keskiarvo kymmenistä arvioinneista, mutta tämä johtaa väärään kahtiajakoon oikean ja väärän välillä. Yksinkertaisissa arvioinneissa, kuten SimpleQA, jotkin mallit saavuttavat lähes 100 %:n tarkkuuden ja siten poistavat hallusinaatiot. Kuitenkin haastavammissa arvioinneissa ja todellisessa käytössä tarkkuus on rajoitettu alle 100 prosenttiin, koska on joukko kysymyksiä, joiden vastauksia ei voida päätellä eri syistä, kuten tietojen puuttumisen, pienten mallien rajallisen ajattelukyvyn tai selvitettävien epäselvyyksien vuoksi.
Tästä huolimatta vain tarkkuutta mittaavat tulostaulukot hallitsevat pistetaulukkoja ja mallikortteja, mikä kannustaa kehittäjiä rakentamaan malleja, jotka arvaavat pidättäytymisen sijaan. Tämä on erä syy siihen, että vaikka mallit kehittyvät, ne voivat yhä hallusinoida vastaten itsevarmasti sen sijaan, että myöntäisivät epävarmuuden.
Tähän löytyy yksinkertainen ratkaisu. Rangaistaan itsevarmoista virheistä enemmän kuin epävarmuudesta ja annetaan osittaista hyvitystä epävarmuuden asianmukaisista ilmaisuista. Ajatus ei ole uusi. Joissakin standardoiduissa testeissä on pitkään käytetty virheellisten vastausten negatiivisen pisteytyksen versioita tai osittaista hyvitystä kysymysten tyhjiksi jättämisestä, jotta vähennettäisiin sokeaa arvaamista. Useat tutkimusryhmät ovat myös tutkineet arviointeja, joissa otetaan huomioon epävarmuus ja kalibrointi.
Meidän näkökulmamme on erilainen. Ei riitä, että lisätään oheen joitakin epävarmuuden huomioon ottavia testejä. Yleisesti käytetyt tarkkuuteen perustuvat arvioinnit on päivitettävä, jotta niiden pistemäärät eivät enää kannustaisi arvaamaan. Jos tärkeimmät tulostaulukot jatkavat tuurilla tehtyjen arvausten palkitsemista, mallit jatkavat arvailun oppimista. Tulostaulukoiden korjaaminen voi laajentaa sekä uusien että aiemmista tutkimuksista peräisin olevien hallusinaatioiden vähentämistekniikoiden käyttöä.
Käsittelimme sitä, miksi hallusinaatioista on niin vaikea päästä eroon, mutta mistä nämä erittäin yksityiskohtaiset asiavirheet ylipäätään ovat peräisin? Suurissa esikoulutetuissa malleissa esiintyy nimittäin harvoin muunlaisia virheitä, kuten kirjoitusvirheitä ja väärin sijoitettuja sulkeita. Ero liittyy tietojen sisältämiin kaavoihin.
Kielimallit oppivat aluksi esikoulutuksen kautta. Se on prosessi, jossa ennustetaan seuraava sana valtavassa tekstimäärässä. Toisin kuin perinteisissä koneoppimisen ongelmissa, kuhunkin väitteeseen ei ole liitetty ”oikea/väärä”-merkintää. Malli havaitsee vain sujuvan kielenkäytön positiiviset esimerkit ja sen on lähestyttävä kokonaisjakautumaa.
On erityisen vaikeaa erottaa kelvolliset väitteet kelvottomista, kun ei ole esimerkkejä, jotka on merkitty kelvottomiksi. Silti merkintöjä käytettäessäkin erehdykset ovat väistämättömiä. Tarkastellaan yksinkertaisempaa analogiaa syyn ymmärtämiseksi. Jos kuvantunnistuksessa miljoonat kissa-ja koirakuvat on merkitty ”kissaksi” tai ”koiraksi”, algoritmit voivat oppia luokittelemaan ne luotettavasti. Kuvitellaan sen sijaan, että lemmikkien kuvat merkittäisiin niiden syntymäpäivien mukaan. Koska syntymäpäivät ovat satunnaisia tämä tehtävä tuottaisi aina virheitä riippumatta algoritmin edistyneisyydestä.
Sama periaate koskee esikoulutusta. Oikeinkirjoitus ja sulkeet noudattavat johdonmukaisia malleja, joten nämä virheet häviävät mittakaavan kasvaessa. Mutta satunnaisia, matalan frekvenssin tosiasioita, kuten lemmikin syntymäpäivää, ei voida ennakoida vain kaavojen perusteella ja ne johtavat hallusinaatioihin. Analyysimme selittää minkälaisia hallusinaatioita seuraavan sanan ennustamisen pitäisi aiheuttaa. Ihannetapauksessa esikoulutuksen jatkovaiheiden pitäisi poistaa ne, mutta tämä ei täysin onnistu edellisessä osiossa kuvatuista syistä.
Toivomme, että artikkelissa esitetty tilastollinen näkökulma selventää hallusinaatioiden luonnetta ja kumoaa yleisiä väärinkäsityksiä:
- Väite: Hallusinaatiot poistuvat tarkkuutta parantamalla, koska 100-prosenttisesti tarkka malli ei koskaan hallusinoi.
Tulos: Tarkkuus ei koskaan saavuta 100 %:a, koska mallin koosta, haku- ja päättelykyvyistä riippumatta joihinkin tosielämän kysymyksiin on lähtökohtaisesti mahdoton vastata. - Väite: Hallusinaatiot ovat väistämättömiä.
Tulos: Eivät ole, koska kielimallit pystyvät pidättäytymään, kun ne ovat epävarmoja. - Väite: Hallusinaatioiden välttäminen edellyttää älykkyyttä, joka on saavutettavissa ainoastaan suuremmilla malleilla.
Tulos: Pienen mallin voi olla helpompaa tuntea rajansa. Jos esimerkiksi pieneltä mallilta kysytään maorin kielinen kysymys, se voi vain todeta ”En tiedä”, kun taas mallin, joka osaa jonkin verran maoria, on määriteltävä varmuutensa. Kuten artikkelissa todetaan, ”kalibroituna” oleminen edellyttää paljon vähemmän laskentaa kuin tarkkuus. - Väite: Hallusinaatiot ovat mystinen häiriö nykyaikaisissa kielimalleissa.
Tulos: Ymmärrämme ne tilastolliset mekanismit, joiden kautta hallusinaatiot syntyvät ja saavat palkkion arvioinneissa. - Väite: Hallusinaatioiden mittaamiseksi tarvitsemme vain hyvän arviointimenetelmän.
Tulos: Hallusinaatioiden arviointeja on julkaistu. Hyvällä hallusinaation arvioinnilla on kuitenkin vähän vaikutusta verrattuna satoihin perinteisiin, tarkkuuteen pohjautuviin arviointeihin, jotka rankaisevat nöyryydestä ja palkitsevat arvaamisesta. Sen sijaan kaikki ensisijaiset arvioinnin mittarit on muutettava, jotta epävarmuuden ilmaisemisesta palkitaan.
Uusimmissa malleissamme hallusinaation osuus on alhaisempi ja teemme edelleen paljon töitä vähentääksemme kielimalliemme tuottamien itsevarmojen virheiden määrää.
Ilmoituksen tukijat
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel ja Johannes Heidecke


