
Di OpenAI, kami bekerja keras agar sistem AI lebih bermanfaat dan andal. Meskipun model bahasa makin canggih, ada satu tantangan yang tetap sulit untuk dipecahkan sepenuhnya: halusinasi. Yang kami maksud adalah ketika sebuah model dengan yakin menghasilkan jawaban yang sebetulnya tidak benar. Makalah penelitian kami yang baru(terbuka di jendela baru) berargumen bahwa model bahasa mengalami halusinasi karena prosedur pelatihan dan evaluasi standar lebih mengutamakan tebakan daripada mengakui ketidakpastian.
ChatGPT juga dapat berhalusinasi. GPT‑5 mengalami jauh lebih sedikit halusinasi, terutama saat melakukan penalaran, tetapi halusinasi tetap dapat terjadi. Halusinasi tetap menjadi tantangan mendasar bagi semua model bahasa berskala besar, tetapi kami bekerja keras untuk terus menguranginya.
Halusinasi adalah pernyataan yang tampak masuk akal tetapi salah, yang dihasilkan oleh model bahasa. Halusinasi dapat muncul secara mengejutkan, bahkan untuk pertanyaan yang tampaknya mudah. Sebagai contoh, ketika kami menanyakan kepada sebuah chatbot yang banyak digunakan mengenai judul disertasi PhD Adam Tauman Kalai (salah satu penulis makalah ini), chatbot dengan yakin menghasilkan tiga jawaban berbeda—tidak ada yang benar. Ketika kami menanyakan tanggal lahirnya, chatbot itu memberikan tiga tanggal berbeda, semuanya juga salah.
Halusinasi tetap ada sebagian karena metode evaluasi saat ini memberikan insentif yang salah. Meskipun evaluasi itu sendiri tidak secara langsung menyebabkan halusinasi, sebagian besar evaluasi mengukur kinerja model dengan cara yang mendorongnya untuk menebak daripada bersikap jujur mengenai ketidakpastian.
Bayangkan ini seperti ujian pilihan ganda. Jika Anda tidak tahu jawabannya tetapi menebak secara acak, mungkin saja Anda beruntung dan benar. Membiarkannya kosong sudah pasti akan mendapat nilai nol. Demikian pula, ketika model hanya dinilai berdasarkan akurasi, yaitu persentase pertanyaan yang dijawab dengan tepat, maka model terdorong untuk menebak daripada mengakui “saya tidak tahu.”
Contoh lain, misalnya sebuah model bahasa ditanya tentang tanggal lahir seseorang tetapi tidak tahu. Jika ia menebak “10 September,” kemungkinan benar adalah 1 banding 365. Menjawab “saya tidak tahu” sudah pasti mendapat nilai nol. Dalam ribuan pertanyaan uji, model yang suka menebak memiliki papan skor yang lebih baik dibanding model yang hati-hati dan mengakui ketidakpastian.
Untuk pertanyaan yang hanya memiliki satu “jawaban benar,” ada tiga kategori respons: jawaban akurat, jawaban salah, dan abstain (tidak menjawab) di mana model memilih untuk tidak menebak. Bersikap abstain adalah bagian dari kerendahan hati, salah satu dari nilai inti OpenAI. Sebagian besar papan skor memprioritaskan dan memberi peringkat model berdasarkan akurasi, tetapi jawaban salah lebih buruk daripada abstain. Spesifikasi Model(terbuka di jendela baru) kami menyatakan bahwa lebih baik menunjukkan ketidakpastian atau meminta klarifikasi daripada dengan yakin memberikan informasi yang bisa salah.
Sebagai contoh nyata, perhatikan evaluasi SimpleQA sebagai contoh dari Kartu Sistem GPT‑5(terbuka di jendela baru).
Metrik | gpt-5-thinking-mini | OpenAI o4-mini |
Tingkat abstain
| 52% | 1% |
Tingkat akurasi
| 22% | 24% |
Tingkat kesalahan
| 26% | 75% |
Total | 100% | 100% |
Dalam hal akurasi, model OpenAI o4-mini yang lama berkinerja sedikit lebih baik. Namun, tingkat kesalahannya (yaitu tingkat halusinasi) jauh lebih tinggi. Menebak secara strategis ketika tidak yakin memang dapat meningkatkan akurasi, tetapi juga meningkatkan kesalahan dan halusinasi.
Ketika menghitung rata-rata hasil dari puluhan evaluasi, sebagian besar tolok ukur memilih metrik akurasi, tetapi hal ini menimbulkan dikotomi palsu antara benar dan salah. Dalam evaluasi sederhana seperti SimpleQA, sebagian model mencapai akurasi hampir 100% dan dengan demikian menghilangkan halusinasi. Namun, dalam evaluasi yang lebih menantang dan dalam penggunaan nyata, akurasi dibatasi di bawah 100% karena ada pertanyaan yang jawabannya tidak dapat ditentukan karena berbagai alasan seperti informasi yang tidak tersedia, kemampuan berpikir terbatas dari model kecil, atau ambiguitas yang perlu diperjelas.
Meskipun demikian, papan skor yang hanya mengutamakan akurasi mendominasi papan peringkat dan kartu model, mendorong pengembang untuk membangun model yang lebih fokus pada menebak daripada menahan diri. Itulah salah satu alasan mengapa, walaupun model sudah makin maju, model masih bisa berhalusinasi, dengan yakin memberikan jawaban yang salah alih-alih mengakui ketidakpastian.
Ada solusi yang jelas. Kesalahan yang dibuat dengan penuh keyakinan harus diberi penalti yang lebih berat daripada ketidakpastian, dan nilai parsial diberikan untuk ekspresi ketidakpastian yang tepat. Gagasan ini bukan hal baru. Beberapa tes standar sudah lama menggunakan bentuk penilaian negatif untuk jawaban yang salah atau nilai parsial untuk jawaban kosong guna mencegah tebakan buta. Sejumlah kelompok riset juga telah mengeksplorasi evaluasi yang mempertimbangkan ketidakpastian dan kalibrasi.
Poin kami berbeda. Tidak cukup hanya menambahkan beberapa tes yang sadar akan ketidakpastian sebagai tambahan. Evaluasi berbasis akurasi yang banyak digunakan perlu diperbarui sehingga sistem penilaiannya tidak mendorong untuk menebak. Jika papan skor utama terus memberi penghargaan pada tebakan beruntung, model akan terus belajar untuk menebak. Memperbaiki papan skor dapat memperluas adopsi teknik pengurangan halusinasi, baik yang baru dikembangkan maupun yang berasal dari penelitian sebelumnya.
Kita sudah membahas mengapa halusinasi begitu sulit dihilangkan, tetapi dari mana ketidakakuratan faktual yang sangat spesifik ini awalnya berasal? Lagi pula, model pra-latih berskala besar jarang menunjukkan jenis kesalahan lain seperti salah eja atau tanda kurung yang tidak cocok. Perbedaannya berkaitan dengan pola apa yang ada di dalam data.
Model bahasa pertama-tama belajar melalui pra-pelatihan, sebuah proses yang memprediksi kata berikutnya dalam sejumlah besar teks. Tidak seperti masalah pembelajaran mesin tradisional, tidak ada label “benar/salah” yang melekat pada setiap pernyataan. Model ini hanya melihat contoh positif dari bahasa yang lancar dan harus mendekati distribusi keseluruhan.
Jika tidak ada contoh yang dilabeli sebagai tidak valid, akan jauh lebih sulit membedakan pernyataan yang valid dari yang tidak valid. Namun bahkan dengan label sekalipun, ada kesalahan yang tidak dapat dihindari. Untuk memahami hal ini, mari kita bahas analogi yang lebih sederhana. Dalam pengenalan gambar, jika jutaan foto kucing dan anjing diberi label sebagai “kucing” atau “anjing,” algoritme dapat belajar mengklasifikasikannya dengan andal. Namun bayangkan jika setiap foto hewan diberi label berdasarkan tanggal ulang tahunnya. Karena ulang tahun pada dasarnya acak, tugas ini akan selalu menghasilkan kesalahan, tidak peduli seberapa canggih algoritmenya.
Prinsip yang sama berlaku dalam pra-pelatihan. Ejaan dan tanda kurung mengikuti pola yang konsisten, sehingga kesalahan di bidang ini akan hilang seiring meningkatkan skala. Namun fakta acak yang jarang muncul, seperti ulang tahun hewan peliharaan, tidak dapat diprediksi hanya dari pola, dan karenanya menimbulkan halusinasi. Analisis kami menjelaskan jenis halusinasi apa yang akan muncul dari prediksi kata berikutnya. Idealnya, tahap-tahap lanjutan setelah pra-pelatihan seharusnya menghapus halusinasi tersebut, tetapi hal ini tidak sepenuhnya berhasil karena alasan yang dijelaskan pada bagian sebelumnya.
Kami berharap sudut pandang statistik dalam makalah ini memperjelas sifat halusinasi dan meluruskan kesalahpahaman umum:
- Klaim: Halusinasi dapat dihilangkan dengan meningkatkan akurasi karena model dengan akurasi 100% tidak pernah berhalusinasi.
Temuan: Akurasi tidak akan pernah mencapai 100% karena, terlepas dari ukuran, kemampuan pencarian, dan penalaran model, ada pertanyaan dunia nyata yang memang tidak dapat dijawab. - Klaim: Halusinasi tidak terhindarkan.
Temuan: Salah, karena model bahasa dapat memilih untuk tidak menjawab ketika ragu. - Klaim: Menghindari halusinasi memerlukan tingkat kecerdasan yang hanya dapat dicapai dengan model yang lebih besar.
Temuan: Justru model kecil bisa lebih mudah mengetahui batas kemampuannya. Sebagai contoh, ketika ditanya pertanyaan dalam bahasa Māori, model kecil yang sama sekali tidak tahu Māori dapat langsung menjawab “saya tidak tahu,” sedangkan model yang tahu sedikit Māori harus menilai tingkat keyakinannya. Seperti dijelaskan dalam makalah, menjadi “terkalibrasi” membutuhkan jauh lebih sedikit komputasi dibandingkan menjadi akurat. - Klaim: Halusinasi adalah gangguan misterius pada model bahasa modern.
Temuan: Kami memahami mekanisme statistik yang menyebabkan halusinasi muncul dan bagaimana hal tersebut diberi penghargaan dalam evaluasi. - Klaim: Untuk mengukur halusinasi, kita hanya memerlukan evaluasi halusinasi yang baik.
Temuan: Banyak evaluasi halusinasi telah diterbitkan. Namun, evaluasi halusinasi yang baik memiliki dampak kecil jika dibandingkan dengan ratusan evaluasi tradisional berbasis akurasi yang memberi penalti pada kerendahan hati dan memberi penghargaan pada tebakan. Karena itu, semua metrik evaluasi utama perlu dikerjakan ulang agar memberi penghargaan pada ekspresi ketidakpastian.
Model terbaru kami memiliki tingkat halusinasi yang lebih rendah, dan kami terus bekerja keras untuk lebih mengurangi tingkat kesalahan yang dihasilkan oleh model bahasa kami.
Kontributor pengumuman
Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke


