跳到主要內容
OpenAI

2025年9月5日

研究發佈

語言模型出現幻覺的原因

鴨綠色、藍色和淡紫色層層漸變的抽象圖像,各色調在畫面中以柔和、流暢的條紋斜向混合。
正在載入...

OpenAI 正致力令 AI 系統更加實用、可靠。即使語言模型的能力越來越高,其「幻覺」問題仍是一項難以完全解決的挑戰。「幻覺」乃指模型自信地生成不實答案的情況。我們的新研究論文(在新視窗中開啟)指出,標準的訓練和評估程序獎勵猜測,而非承認不確定答案,是語言模型出現幻覺的原因。

ChatGPT 也會出現「幻覺」。雖然 GPT‑5 明顯較少出現幻覺,尤其是在推理時,但出現幻覺的情況仍會發生。幻覺仍然是所有大型語言模型的根本挑戰,但我們正努力設法進一步減少這種情況。

什麼是幻覺?

幻覺是由語言模型生成的似是而非虛假陳述;即使是貌似簡單直接的問題,模型亦可能會提供出人意表的答案。舉例而言,如果我們向某熱門聊天機械人提問 Adam Tauman Kalai(論文作者之一)博士論文的標題時,機械人自信地提供了三個不同的答案,但沒有一個是正確的。接着,若我們詢問該作者的出生日期,機械人又會提供三個不同日期,但同樣地,三個均非正確答案。 

應試教學

幻覺持續出現的原因,部分乃源於目前的評估方法所設的錯誤獎勵機制,雖然這些評估本身不會直接造成幻覺,但大多數評估方法衡量模型表現的方式都會鼓勵猜測,而非坦誠表示不確定答案。

這種情況就像選擇題測驗,在不知道答案的情況下憑空猜測,您仍可能會幸運猜中答案,相反,留空不作選擇則保證不會得分。同樣,如果只以準確度(即完全答對問題的百分比)來為模型評分,那就會鼓勵模型猜測,而不是說「我不知道」。

再舉一個例子,假設一個語言模型被問到某人的生日日期,但它不知道。如果模型猜測答案是 9 月 10 日,那就有 365 份之一的機會答對;相反,回答「我不知道」就一定是錯誤答案。若以成千上萬的測驗題目作為基準,猜測答案的模型將比承認不確定答案的謹慎模型得分更高。

對於有單一「正確答案」的問題,我們可以考慮三種回覆類別:正確回覆、錯誤回覆,以及模型不冒險猜測的棄權回覆。棄權是謙虛的一部分,也是 OpenAI 的核心價值之一。大多數評分機制都會根據準確度來排列模型的先後次序;然而,錯誤比棄權更糟。我們的模型規範(在新視窗中開啟)指出,表示不確定或要求澄清比提供有把握但可能錯誤的資訊更好。 

指標

gpt-5-thinking-mini

OpenAI o4-mini

棄權率
(沒有提供具體答案) 

52%

1%

準確度
(正確答案,越高越好)

22%

24%

錯誤率
(錯誤答案,越低越好)

26%

75%

總和

100%

100%

就準確度而言,OpenAI 的較舊模型 o4-mini 表現略佳;然而,其錯誤頻率(即幻覺發生率)則明顯較高。換言之,在不確定時有策略地猜測可提高準確度,但也會增加錯誤和幻覺的情況。 

當平均計算十個評估的結果時,大多數基準測試都會拔除準確度指標,但這會構成非黑即白的偽二分法。在 SimpleQA 等簡易評估中,部分模型的準確度接近 100%,可以消除發生幻覺的情況。但在更具挑戰性的評估和實際使用中,鑑於部分問題可能會因欠缺資訊、小型模型的思考能力有限、或者有模棱兩可之處需要釐清等原因,而未能確實回答,因此準確度的上限往往低於 100%。

儘管如此,僅衡量準確度的評分機制仍在排行榜和模型資料卡上佔據主導地位,促使開發人員建立傾向猜測而非選擇不作答的模型。這就是即使模型日益先進,但仍會出現幻覺、自信地提供錯誤答案,而非承認不確定答案的原因之一。

更完善的評分準則

直接的解決方法有一種:相對於表示不確定答案,向自信的錯誤答案施予更嚴重的懲罰,並對表示不確定的答案給予部分分數。這種評分方式並非嶄新概念,部分標準測試長久以來一直都對錯誤回答扣分或對留空答案給予部份分數的方式來試圖阻撓盲目猜測;若干研究小組也曾探討考慮對表示不確定的答案進行調整的評估方法。

我們則抱持不同觀點,並認為只針對表示不確定的答案增設若干新測試尚不足夠,更有必要更新以準確度為基礎的熱門評估機制,藉此令評分標準不再鼓勵猜測。假如主要的評分機制持續獎勵僥倖猜測,模型就會持續學習猜想答案。修定評分機制更有助擴大幻覺減少技術的採納範圍,讓新開發的技術和尖端研究技術受惠。

下一單詞預測產生幻覺的機制

談論為何幻覺難以消除的原因後,大家可能會納悶這些異常具體但不實的內容從何而來。畢竟,經預先訓練的大型模型鮮少出現拼寫錯誤和括號錯配等其他類型的錯誤。固中差異定必與數據中的資料規律有關。

語言模型的學習過程始於預先訓練,亦即是一個在大量文字中預測下一個詞的程序。有別於傳統的機器學習問題,每個陳述都沒有附加「真/假」標籤,模型只會看到語句流暢的正面例子,且必須粗略計算整體分佈。 

如沒有標示任何無效例子,區分有效和無效陳述就會加倍困難。即使附有相應標籤,部分錯誤仍無可避免。這種情況可透過下方的簡單比喻清楚說明:在圖像識別過程中,如將數百萬張貓和狗的照片標示為「貓」或「狗」,演算法就能學會有把握地將兩者分類。但假設每張寵物照片都以相應寵物的生日來標示,由於出生日期本質上沒有規律可言,因此無論演算法有多先進,這項任務都會出現錯誤。

同樣的原則也適用於預先訓練;拼寫和括號均遵循一致的規律,因此錯誤會隨着訓練規模的增加而消失。反之,隨機且低頻率出現的實際情況,例如寵物的出生日期,則無法單憑規律進行預測,因此會導致模型出現幻覺。我們的分析說明了下一字詞預測應該會產生哪些類型的幻覺;在理想的情況下,預先訓練後的進一步程序應該可以移除它們,但鑑於上一節所述的原因,這種解決方法並不完全成功。 

結論

我們希望本論文中的統計數據能闡明幻覺的本質,並摒除常見的錯誤觀念:

  • 主張:由於 100% 準確度的模型絕不會產生幻覺,因此可藉由提高準確度來消除幻覺。

    研究結果:
    由於現實世界的部分問題本質上無法解答,因此不論模型的大小、搜尋和推理能力如何,準確度永遠無法達到 100%。 
  • 主張:語言模型無法避免會出現幻覺。

    研究結果:
    由於語言模型可以在不確定時放棄作答,因此本說法並不成立。
  • 主張:避免幻覺需要一定程度的智慧,而這種智慧只有在較大的模型中才能實現。

    研究結果:
    小型模型或許較易了解自身的極限,舉例而言,假設要回答毛利語問題時,一個不懂毛利語的小型模型可以簡單回答 「我不知道」,而一個略懂毛利語的模型則必須決定自身對回答問題的把握。正如本文中的討論,「調整」所需的運算量遠低於追求準確度。
  • 主張:幻覺是現代語言模型中的神秘缺陷。

    研究結果:
    我們了解到統計機制令幻覺出現並在評估中獲得獎勵。
  • 主張:如要測量幻覺情況,我們只需要一個良好的幻覺評估。

    研究結果:
    市面上已存在幻覺評估,然而,相比數以百計懲罰謙虛態度、獎賞猜測的傳統準確度評估,一個良好的幻覺評估無法造成多大影響。相反,所有主要的評估指標都有重新設計的需要,藉此獎勵表示不確定答案的回覆。

我們最新的模型出現幻覺的機率較低,而我們亦將繼續努力,進一步降低語言模型自信地輸出錯誤答案的機率。

公告貢獻者

Adam Kalai、Santosh Vempala (Georgia Tech)、Ofir Nachum、Eddie Zhang、David Robinson、Saachi Jain、Eric Mitchell、Alex Beutel及Johannes Heidecke