
Ing OpenAI, kita lagi ngupaya tenanan supaya sistem AI luwih migunani lan andal. Sanajan model basa saya luwih mumpuni, ana siji tantangan sing tetep angel banget dirampungaké kanthi tuntas: halusinasi. Maksudé yaiku kedadéan nalika model kanthi yakin ngasilaké jawaban sing ora bener. Makalah riset anyar(mbukak ing jendhela anyar) kita nerangaké yèn model basa ngalami halusinasi amarga prosedur latihan lan evaluasi standar luwih menehi ganjaran marang nebak tinimbang ngakoni kahanan ora mesthi.
ChatGPT uga ngalami halusinasi. GPT‑5 nduwèni halusinasi sing luwih sithik utamané nalika nalar, nanging isih kedadéan. Halusinasi tetep dadi tantangan dhasar kanggo kabèh model basa gedhé, nanging kita terus ngupaya tenanan kanggo luwih nyuda iki.
Halusinasi yaiku pernyataan sing katon lumrah nanging salah, sing diasilaké model basa. Iki bisa muncul kanthi cara sing ngagetaké, malah kanggo pitakon sing katon prasaja. Contoné, nalika kita takon chatbot sing akèh dienggo babagan judhul disertasi PhD duwèké Adam Tauman Kalai (salah siji panulis makalah iki), chatbot mau kanthi yakin mènèhi telung jawaban béda—ora ana siji waé sing bener. Nalika kita takon tanggal lairé, chatbot mau mènèhi telung tanggal béda, lan kabèh uga salah.
Halusinasi tetep ana salah sijiné amarga cara evaluasi saiki netepaké insentif sing keliru. Sanajan evaluasi dhéwé ora langsung njalari halusinasi, akèh evaluasi ngukur kinerja model kanthi cara sing nyurung nebak tinimbang jujur bab kahanan ora mesthi.
Coba pikir kaya tes pilihan ganda. Yen sampeyan ora ngerti jawabane nanging nebak asal, bisa waé sampeyan bejo lan bener. Ninggalaké kosong njamin angka nol. Kanthi cara sing padha, nalika model mung dinilai saka akurasi, yaiku persentase pitakon sing dijawab pas bener, model didorong kanggo nebak tinimbang ngomong “Aku ora ngerti.”
Minangka conto liya, umpamana model basa dijaluk nyebut tanggal lair wong nanging ora ngerti. Yen model nebak “10 September,” ana kamungkinan 1 saka 365 kanggo bener. Ngomong “Aku ora ngerti” njamin nol poin. Sajroning èwonan pitakon tes, model sing nebak pungkasane katon luwih apik ing papan skor tinimbang model sing ngati-ati lan ngakoni yèn durung mesthi.
Kanggo pitakon sing nduwèni siji “jawaban bener,” ana telung kategori tanggapan: tanggapan akurat, kesalahan, lan abstensi nalika model ora wani nebak. Abstensi iku bagéan saka andhap asor, salah siji saka nilai inti OpenAI. Akèh papan skor ngutamakaké lan ngurutaké model adhedhasar akurasi, nanging kesalahan luwih elek tinimbang abstensi. Spesifikasi Model(mbukak ing jendhela anyar) kita nyebut yèn luwih apik nuduhaké kahanan ora mesthi utawa njaluk klarifikasi tinimbang mènèhi informasi kanthi yakin sing bisa waé salah.
Kanggo conto sing luwih nyata, delengen eval SimpleQA minangka salah siji conto saka Kertu Sistem GPT5(mbukak ing jendhela anyar).
Métrik | gpt-5-thinking-mini | OpenAI o4-mini |
Tingkat abstensi | 52% | 1% |
Tingkat akurasi | 22% | 24% |
Tingkat kesalahan | 26% | 75% |
Total | 100% | 100% |
Ing babagan akurasi, model lawas OpenAI o4-mini tampil rada luwih apik. Nanging, tingkat kesalahané (yaiku tingkat halusinasi) luwih dhuwur kanthi nyata. Nebak kanthi strategis nalika ora yakin bisa nambah akurasi nanging uga nambah kesalahan lan halusinasi.
Nalika asil dirata-rata ing puluhan evaluasi, akèh benchmark mung njupuk métrik akurasi, nanging iki ndadèkaké dikotomi palsu antarané bener lan salah. Ing eval prasaja kaya SimpleQA, sawetara model bisa tekan akurasi meh 100% lan kanthi mangkono ngilangi halusinasi. Nanging, ing evaluasi sing luwih nuntut lan ing panggunaan nyata, akurasi diwatesi ing ngisor 100% amarga ana sawetara pitakon sing jawabane pancèn ora bisa ditemtokaké amarga macem-macem sebab kayata informasi ora kasedhiya, kemampuan mikir sing winates saka model cilik, utawa ambiguitas sing kudu dijlentrehaké dhisik.
Nanging, papan skor sing mung adhedhasar akurasi isih ndominasi leaderboard lan kertu model, saéngga nyurung pangembang kanggo mbangun model sing milih nebak tinimbang nahan dhiri. Iki salah siji sebabé kenapa, sanajan model saya luwih maju, model isih bisa ngalami halusinasi, kanthi yakin mènèhi jawaban salah tinimbang ngakoni kahanan ora mesthi.
Ana solusi sing langsung. Wènèhana penalti luwih abot kanggo kesalahan sing diyakini tinimbang kanggo kahanan ora mesthi, lan wènèhana kredit sawatara kanggo ungkapan kahanan ora mesthi sing trep. Gagasan iki dudu anyar. Sawetara tes baku wis suwé nggunakaké versi pengurangan nilai kanggo jawaban salah utawa kredit parsial kanggo pitakon sing dikosongi supaya nebak asal ora didorong. Sawetara klompok riset uga wis nliti evaluasi sing ngetung kahanan ora mesthi lan kalibrasi.
Nanging titik kita béda. Ora cukup mung nambah sawetara tes anyar sing peka marang kahanan ora mesthi ing pinggir. Eval sing umum digunakaké lan adhedhasar akurasi kuwi kudu dianyari supaya cara penilaianné ora nyurung nebak. Yen papan skor utama tetep menehi ganjaran marang tebak bejo, model bakal terus sinau nebak. Mbeneraké papan skor bisa ngluwihi adopsi tèknik nyuda halusinasi, apik sing anyar dikembangaké utawa sing asalé saka riset sadurungé.
Kita wis ngomongaké kenapa halusinasi angel banget diilangi, nanging saka ngendi asalé ketidakakuratan fakta sing rinci banget iki? Lha wong, model gedhé sing wis dipralatih arang ngetokaké jinis kesalahan liya kaya salah eja lan kurung sing ora cocog. Bedané ana gandhèngané karo jinis pola sing ana ing data.
Model basa dhisik sinau liwat pralatih, yaiku proses prédhiksi tembung sabanjuré saka teks sing jumlahé akèh banget. Beda karo masalah machine learning tradisional, ora ana label “bener/salah” sing dipasang ing saben pernyataan. Model mung ndelok conto positif saka basa sing lancar lan kudu nyedhakaké distribusi sakabèhé.
Dadi luwih angel manèh kanggo mbedakaké pernyataan sing valid lan sing ora valid nalika sampeyan ora nduwèni conto sing dilabeli ora valid. Nanging sanajan ana label, sawetara kesalahan tetep ora bisa diendhani. Kanggo ngerti sebabé, coba delengen analogi sing luwih prasaja. Ing pangenalan gambar, yen mayuta-yuta foto kucing lan asu diwènèhi label “kucing” utawa “asu,” algoritma bisa sinau nggolongaké kanthi andal. Nanging bayangna yèn saben foto kéwan piaraan malah dilabeli nganggo tanggal lair kéwan kuwi. Amarga tanggal lair kuwi sejatiné acak, tugas iki mesthi bakal ngasilaké kesalahan, sepira waé majuné algoritmané.
Prinsip sing padha uga lumaku ing pralatih. Ejaan lan tandha kurung manut pola sing konsisten, mula kesalahan ing kono ilang nalika skala saya gedhé. Nanging fakta sing sembarang lan frekuensiné cendhèk, kaya tanggal lair kéwan piaraan, ora bisa dipredhiksi mung saka pola, mula nuntun marang halusinasi. Analisis kita nerangaké jinis-jinis halusinasi apa waé sing kuduné muncul saka prediksi tembung sabanjuré. Saenipun, tahap-tahap sawisé pralatih kuduné bisa ngilangi iki, nanging durung kasil sakabèhé amarga sebab-sebab sing diterangaké ing bagean sadurungé.
Kita ngarep yèn sudut pandang statistik ing makalah kita iki bisa njlentrehaké sipaté halusinasi lan mbeneraké sawetara salah paham sing umum:
- Klaim: Halusinasi bakal ilang yen akurasi ditingkataké amarga model sing 100% akurat ora tau ngalami halusinasi.
Temuan: Akurasi ora bakal tau tekan 100% amarga, ora preduli ukuran model, kemampuan telusur lan nalar, sawetara pitakon ing donya nyata pancèn ora bisa dijawab. - Klaim: Halusinasi ora bisa diendhani.
Temuan: Ora, amarga model basa bisa milih abstain nalika ora yakin. - Klaim: Nyingkiri halusinasi mbutuhaké tingkat kapinteran sing mung bisa digayuh déning model sing luwih gedhé.
Temuan: Bisa dadi luwih gampang kanggo model cilik ngerti watesané. Contoné, nalika dijaluk njawab pitakon basa Māori, model cilik sing ora ngerti basa Māori babar pisan bisa langsung ngomong “Aku ora ngerti”, déné model sing ngerti sawatara basa Māori kudu nemtokaké sepira yakin dhèwèké. Kaya sing dirembug ing makalah iki, dadi “terkalibrasi” mbutuhaké komputasi sing luwih sithik tinimbang dadi akurat. - Klaim: Halusinasi iku glitch misterius ing model basa modern.
Temuan: Kita paham mekanisme statistik sing ndadèkaké halusinasi muncul lan diganjar ing evaluasi. - Klaim: Kanggo ngukur halusinasi, kita mung butuh eval halusinasi sing apik.
Temuan: Eval halusinasi wis diterbitaké. Nanging, eval halusinasi sing apik mung nduwèni pengaruh cilik yen dibandhingaké karo atusan eval tradisional sing adhedhasar akurasi, sing ngukum andhap asor lan menehi ganjaran marang nebak. Mula, kabèh métrik eval utama kudu dirombak supaya menehi ganjaran kanggo ungkapan kahanan ora mesthi.
Model paling anyar kita nduwèni tingkat halusinasi sing luwih cendhèk, lan kita terus ngupaya tenanan kanggo luwih nyuda tingkat kesalahan yakin sing diasilaké model basa kita.
Kontributor pengumuman
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke


