Ana içeriğe atla
OpenAI

5 Eylül 2025

AraştırmaYayın

Dil modelleri neden halüsinasyon görüyor?

Yumuşak ve akıcı bir biçimde içe geçmiş, camgöbeği, mavi ve eflatun renklerinde, verevine çizgilerden oluşan soyut bir görsel.
Yükleniyor...

OpenAI olarak yapay zekâ sistemlerini daha kullanışlı ve güvenilir kılmak için çok çalışıyoruz. Dil modellerinin becerileri artsa da bir sorunun çözümü hâlâ son derece zor. Bu sorun, halüsinasyonlar. Halüsinasyon derken, modelin özgüvenli bir biçimde doğru olmayan bir cevap üretmesinden bahsediyoruz. Yeni araştırma makalemize(yeni bir pencerede açılır) göre, dil modelleri halüsinasyon görüyor çünkü standart eğitim ve değerlendirme prosedürleri, belirsizliği kabul etmeyi değil de tahminde bulunmayı daha fazla ödüllendiriyor.

ChatGPT de halüsinasyon görüyor. GPT‑5 özellikle akıl yürütme sırasında çok daha az halüsinasyon görüyor ama yine de görüyor. Halüsinasyonlar bütün büyük dil modelleri için hâlâ temel bir sıkıntı ama azaltmak için çok uğraşıyoruz.

Halüsinasyon nedir?

Halüsinasyonlar, dil modelleri tarafından üretilen inandırıcı ama yanlış ifadelerdir. Çok şaşırtıcı şekillerde, çok düz gibi görünen sorularda bile görülebilirler. Örneğin, yaygın olarak kullanılan bir sohbet robotuna Adam Tauman Kalai’nin (makalenin yazarlarından biri) doktora tezinin başlığı sorulduğunda robot, özgüvenli bir biçimde üç farklı cevap üretti ama hiçbiri doğru değildi. Doğum tarihini sorduğumuzda da üç farklı tarih söyledi ve onlar da yanlıştı. 

Sınav için öğretmek

Halüsinasyonların sürmesinin sebeplerinden biri, şu anki değerlendirme yöntemlerinin yanlış teşvikleri. Değerlendirmeler doğrudan halüsinasyonlara sebep olmuyor ama çoğu değerlendirme, modelin performansını ölçerken dürüstlük ile bilinmezlikten ziyade tahmin etmeyi teşvik etmesi.

Çoktan seçmeli testler gibi düşünün. Cevabı bilmiyorsanız ve kafadan atarsanız şansınız yaver gidebilir ve doğru şıkkı seçebilirsiniz. Ama boş bırakırsanız kesin sıfır alırsınız. Aynı şekilde, modellere yalnızca doğruluk üzerinden, tamamen doğru olarak bildikleri soruların oranı üzerinden not verildiğinde “Bilmiyorum” demek yerine tahminde bulunmaya teşvik ediliyorlar.

Başka bir örnek olarak, bir dil modeline birinin doğum tarihini sorduğunuzu ama cevabı bilmediğini varsayalım. “10 Eylül” derse 365’te 1 haklı çıkma ihtimali olur. “Bilmiyorum” dediğindeyse kesin sıfır puan alır. Binlerce test sorusunun ardından tahminde bulunan model, bilmediğini kabul eden dikkatli bir modelden daha iyi puan almış gibi görünür.

Tek bir “doğru cevabın” olduğu sorularda cevapları üç kategoriye ayırabiliriz: doğru cevaplar, hatalar ve modelin tahminde bulunamayıp çekimser kaldığı durumlar. Çekimserlik OpenAI’ın temel değerlerinden biri olan tevazunun parçasıdır. Çoğu puan tablosu, modelleri doğruluk üzerinden önceliklendirip sıralar ama hatalar çekimserlikten daha kötüdür. Model Özelliklerimiz, özgüvenli bir tavırla yanlış olabilecek bilgiler vermek yerine bilmediğini belirtmenin veya açıklama istemenin daha iyi olduğunu belirtir. 

Metrik

gpt-5-thinking-mini

OpenAI o4-mini

Çekimserlik oranı
(belirli bir cevap verilmemesi) 

%52

%1

Doğruluk oranı
(doğru cevap, ne kadar yüksekse o kadar iyi)

%22

%24

Hata oranı
(yanlış cevap, ne kadar düşükse o kadar iyi)

%26

%75

Toplam

%100

%100

Doğruluk açısından eski OpenAI o4 mini modeli biraz daha iyi bir performans sergiliyor. Ancak hata oranı (örneğin halüsinasyon oranı) çok daha yüksek. Cevabı bilmediğinde stratejik tahminlerde bulunmak, doğruluk oranını artırsa da hataları ve halüsinasyonları çoğaltıyor. 

Onlarca değerlendirmenin ortalamasını alırken çoğu kıyaslamada doğruluk ölçümleri ön plana alınıyor ama bu, doğru ile yanlış arasında hatalı bir zıtlık doğuruyor. SimpleQA gibi basit değerlendirmelerimizde bazı modeller neredeyse %100 doğruluk oranı yakalıyor ve dolayısıyla halüsinasyonları ortadan kaldırıyor. Ancak daha zorlu değerlendirmelerde ve gerçek kullanımlar sırasında doğruluk oranları %100’ün altına düşüyor çünkü bazı soruların cevapları mevcut olmayan bilgiler, küçük modellerin sınırlı düşünme becerileri veya netleştirilmesi gereken muğlaklıklar gibi sebeplerle belirlenemiyor.

Yine de liderlik tablolarında ve model kartlarında yalnızca doğruluğu baz alan puan tabloları hâkimiyetini sürdürdüğü için geliştiriciler, çekimser davranmak yerine tahminde bulunan modeller oluşturmaya teşvik ediliyor. Modellerin gelişmelerine rağmen hâlâ halüsinasyon görmesinin, bilmediğini kabul etmek yerine özgüvenli bir tavırla yanlış cevaplar vermesinin sebeplerinden biri bu.

Değerlendirmeleri puanlamak için daha iyi bir yöntem

Bunun çok düz bir çözümü var. Özgüvenli hatalara, bilmemeye verdiğimizden daha büyük cezalar vermek ve bilmediğini uygun bir şekilde ifade etmeyi de kısmi olarak ödüllendirmek. Bu yeni bir fikir değil. Bazı standartlaşmış testler, yanlış cevaplara eksi puan vermenin ve körlemesine tahmin etmenin önüne geçmek için boş bırakılan sorulara kısmi puanlar vermenin farklı versiyonlarını kullanıyor. Birçok araştırma grubu da belirsizliği ve kalibrasyonu hesaba katan değerlendirme yöntemleri keşfetti.

Bizim bakış açımız ise farklı. Bilinmezliği tanıyıp kabul eden birkaç yeni test eklemek yeterli değil. Yaygın olarak kullanılan ve doğruluğu baz alan değerlendirmelerin güncellenmesi, tahmin etmekten caydıracak bir puanlama sistemi getirilmesi gerekiyor. Büyük puan tabloları, kafadan atmayı ödüllendirmeyi sürdürdükçe modeller de tahmin etmeyi öğrenmeyi sürdürecek. Puan tablolarını düzeltmek, hem yeni geliştirilen hem de önceki araştırmalarda bulunan halüsinasyon azaltma tekniklerinin yaygın olarak benimsenmesini sağlayabilir.

Halüsinasyonlar nasıl sonraki kelimeyi tahmin etme özelliğinden doğuyor?

Halüsinasyonlardan kurtulmanın neden bu kadar zor olduğunu konuştuk ama bu son derece spesifik yanlışlıkların çıkış noktası nedir? Sonuçta önceden eğitilmiş büyük modeller, imla veya uyumsuz parantez kullanımı gibi diğer hataları ender olarak yapıyor. Bu fark, verilerde yer alan örüntülerin türünden kaynaklanıyor.

Dil modelleri öğrenmeye devasa büyüklükteki metinlerde, sıradaki kelimeyi tahmin etme süreci olarak tanımlanan ön eğitim aracılığıyla başlar. Burada geleneksel makine öğrenmesi problemlerinin aksine, her bir ifadeye ilişkin “doğru/yanlış” etiketleri bulunmaz. Model yalnızca akıcı ve olumlu dil örnekleri görüp genel dağılımı yaklaşık olarak tahmin eder. 

Geçersiz olarak etiketlenmiş örnekler olmadığı için geçerli ifadeleri geçersiz ifadelerden ayırmak iki katı zordur. Ama etiket olsa bile bazı hatalar önlenemez. Sebebini anlamak için daha basit bir benzetme düşünelim. Görsel tanımada milyonlarca kedi ve köpek fotoğrafı “kedi” veya “köpek” olarak etiketlenirse algoritmalar onları buna uygun olarak sınıflandırmayı öğrenebilir. Fakat her bir evcil hayvan fotoğrafını, hayvanın doğum tarihine göre etiketlediğinizi hayal edin. Doğum tarihleri gelişigüzel olduğu için, algoritma ne kadar gelişmiş olursa olsun, bu görev her zaman hata üretir.

Ön eğitimde de aynı ilke geçerlidir. İmla ve parantez kullanımı istikrarlı olduğu için bu hatalar, ölçek büyüdükçe azalır. Ama evcil hayvanın doğum tarihi gibi gelişigüzel ve az rastlanan veriler, yalnızca örüntülerden yola çıkarak tahmin edilemez ve dolayısıyla halüsinasyonlara yol açar. Bizim analizimiz, sıradaki kelimeyi tahmin etme özelliğinden ne tür halüsinasyonlar doğabileceğini açıklıyor. İdeal şartlarda, ön eğitimden sonraki aşamaların bu halüsinasyonları ortadan kaldırması gerekir ama bu, önceki bölümde anlatılan sebeplerle tam olarak başarılamıyor. 

Çıkarımlar

Umarız makalemizdeki istatistiksel bakış açısı, halüsinasyonların doğasını açıklar ve yaygın yanlış kanıları temizlemeye yardımcı olur.

  • İddia: Doğruluk oranı arttıkça halüsinasyonlar ortadan kalkacak çünkü %100 doğru bir model asla halüsinasyon görmez.

    Bulgu:
    Doğruluk oranı asla %100’e ulaşmayacak çünkü model boyutundan ya da arama ve akıl yürütme becerilerinden bağımsız olarak gerçek dünyaya dair bazı sorular doğaları gereği cevaplanamaz sorulardır. 
  • İddia: Halüsinasyonlar kaçınılmazdır.

    Bulgu:
    Hayır, değil çünkü dil modelleri, emin olmadıklarında çekimser kalabilirler.
  • İddia: Halüsinasyonlardan kaçınmak için yalnızca daha büyük modellerde ulaşılabilen bir zekâ düzeyi gerekir.

    Bulgu:
    Daha küçük bir modelin sınırlarını bilmesi daha kolay olabilir. Örneğin, Maori dilinde bir soru sorulduğunda Maori dili bilmeyen küçük bir model basitçe “bilmiyorum” diyebilirken Maori dilini biraz bilen bir model, kendine ne kadar güvendiğine karar vermek zorunda kalır. Makalede bahsedildiği üzere “kalibre” edilmek için, doğru olmak için gerekenden çok daha az hesaplama gerekir.
  • İddia: Halüsinasyonlar, modern dil modellerindeki gizemli bir hatadır.

    Bulgu:
    Halüsinasyonların doğmasına ve değerlendirmelerde ödüllendirilmesine sebep olan istatistiksel mekanizmaları anlıyoruz.
  • İddia: Halüsinasyonları ölçmek için sadece iyi bir halüsinasyon değerlendirmesi gerekli.

    Bulgu:
    Çeşitli halüsinasyon değerlendirmeleri yayımlandı. Ancak iyi bir halüsinasyon değerlendirmesinin, tevazuyu cezalandırıp tahmin etmeyi ödüllendiren, doğruluk bazlı yüzlerce geleneksel değerlendirme karşısında pek bir etkisi yok. Bunun yerine bütün birincil değerlendirme ölçütlerinin, belirsizliği ifade etmeyi ödüllendirecek şekilde yeniden tasarlanması gerekiyor.

Son modellerimizin halüsinasyon oranları daha düşük ve dil modellerimizin özgüvenli bir tavırla yanlış cevap verme oranlarını daha da düşürmek için çok çalışıyoruz.

Duyuruya katkıda bulunanlar

Adam Kalai, Santosh Vempala (Georgia Tech), Ofir Nachum, Eddie Zhang, David Robinson, Saachi Jain, Eric Mitchell, Alex Beutel, Johannes Heidecke