
OpenAI 努力讓 AI 系統更為實用可靠。即使語言模型已變得更為強大,但仍有一項遲遲難以克服的挑戰:幻覺問題。所謂的幻覺,是指模型自信地產生不實答案的情況。根據我們近期的研究論文(在新視窗中開啟)指出,語言模型之所以會出現幻覺,是因為標準的訓練和評估流程會獎勵猜測行為,而不是承認不確定答案。
ChatGPT 也會出現幻覺。GPT‑5 出現幻覺的情況已大幅下降 (尤其在推理時),但仍難以避免。幻覺仍是所有大型語言模型根深蒂固的一大問題,但我們正傾全力減少這種情況。
幻覺是由語言模型所產生的看似有理、實則謬誤的陳述。即使是看來簡單的問題,幻覺也可能以出乎意料的方式出現。例如,當我們向一個廣為使用的聊天機器人詢問 Adam Tauman Kalai (此論文作者) 的博士論文是什麼題目時,它居然信心滿滿地產生了三個不同的答案,而且沒一個正確;而當我們問他的生日時,它給了三個不同的日期,同樣全錯。
之所以不斷出現幻覺,部分原因是因為目前的評估方法設定了錯誤的誘因。雖然評估本身並不會直接導致幻覺,但大部分的評估在測量模型表現時,都會鼓勵模型的猜測行為、而不是誠實面對不確定答案的行為。
以選擇題測驗為例,如果您不知道答案但隨便亂猜,也可能幸運猜對,但空著不答一定會零分。同樣地,當模型只根據準確率、也就是答對問題的百分比來評分時,等於是鼓勵它們猜測,而不是說「我不知道」。
再舉一例,假設有個語言模型被問到某人的生日,但它不知道,如果它猜「9 月 10 日」,有 1/365 的機會猜對,但說「不知道」則保證會得零分。當測試問題有幾千個時,在模型成績表上猜測答案的模型結果會比謹慎的、不會就承認不會的模型來得好。
以只有單一「正確答案」的問題而言,有三種可能的回應方式:答對、答錯,還有放棄不答,也就是模型不冒險亂猜。放棄不答是謙遜的一種表現,也是 OpenAI 的核心價值之一。多數的模型成績表在評比時都會以準確率優先,但答錯要比放棄不答來得糟。我們的模型規格(在新視窗中開啟)則規定在回答中透露不確定答案或要求釐清問題,要比自信地提供錯誤資訊來得好。
如需具體範例,請看 SimpleQA 評估,這是取自 GPT5 系統說明卡(在新視窗中開啟)的例子。
Metric | gpt-5-thinking-mini | OpenAI o4-mini |
棄答率
| 52% | 1% |
準確率
| 22% | 24% |
錯誤率
| 26% | 75% |
總計 | 100% | 100% |
就準確率而言,先前的 OpenAI o4-mini 模型表現稍微超前,不過其錯誤率 (也就是幻覺率) 卻明顯較高。在不確定答案運用取策略性的猜測能改善準確率,但也增加了錯誤和幻覺結果。
在求取數十種評估的結果平均值時,多數的基準測試會剔除正確性指標,但這可能造成偽二分法,把結果簡化為不是正確,就是錯誤。以 SimpleQA 這類簡單評估而言,有些模型可達到近 100% 的準確率,因此排除了幻覺;不過,在較為複雜的評估與實際使用情況中,準確率會受限在 100% 之下,因為有些問題的答案會因多種原因而無法確定,例如無法取得資訊、小型模型的推理功能有限,或狀況不明需要釐清等等。
不論如何,模型成績表和說明文件中仍充斥著完全依準確率而作定論的計分表,促使開發者建置出會胡亂猜測而非克制不答的模型。這也說明了為何模型即使已越來越進步,但仍可能出現幻覺,自信地提供錯誤答案,而非承認不確定答案。
有一種簡單的修正方法:在模型自信地提供錯誤答案時,扣除比不確定答案時更多的分數,而在模型適當表達出不確定答案時,給予部分分數。這個概念並不新,有些標準測試已長期運用給錯誤答案負分、給留白不答部分分數的做法,來節制盲目亂猜。有幾個研究團體也探究過不同的評估方法,希望可以考慮不確定答案及需要校正的狀況。
我們的看法則不大一樣:單是添加幾個考慮不確定答案情況的測試還不夠,還需要更新廣泛使用的、以準確率為準的評估方法,使評分方式能抑制亂猜的做法。如果主要的模型成績表持續獎勵幸運猜中的做法,模型就會繼續學著亂猜。不論減少幻覺的技術是新開發的或是來自先前的研究,對模型成績表進行修正都能推廣這些技術。
我們已討論過為什麼幻覺這麼難去除,但首先要問的是,這些極為具體的事實謬誤到底從哪裡來的?畢竟,大型預訓練模型很少會展現出如拼字錯誤或不對稱括號之類的其他錯誤。這項差異與資料裡的模式類型有關。
語言模型會先從預訓練 (pretraining) 學習,這項程序是用來預測大量文字中的下一個單詞。與傳統機器學習的問題不同,每項陳述並不會標示「對/錯」標籤。模型只會接觸正面的流利語言範例,且必須藉此估計整體的資料分布狀況。
在未標示無效範例的前提下,要區分有效及無效的陳述加倍困難。但即使有標籤,犯錯也是不可避免的。想理解這點,請看一個比較簡單的類比:在圖像辨識中,如果有數百萬張貓狗的相片被標示為「貓」或「狗」,則演算法可以學習將牠們進行可靠的分類。但請想像改依寵物的生日來標示每張寵物相片。由於生日基本上是隨機的,因此不論演算法有多先進,這項任務都一定會出錯。
相同的原則也適用於預訓練。拼字和括號都遵循一致的模式,所以訓練規模擴大後錯誤就會消失,但像寵物生日這種任意的低頻率事實就不能單從模式預測,因而會導致幻覺。我們的分析說明了預測下一個單詞會造成哪些種類的幻覺。理想上,預訓練之後的後續階段應該可以移除這些幻覺,但因為前一章節所述的理由,目前還無法完全做到這點。
我們希望借鏡於本文提供的統計數字,清楚說明幻覺的本質並反駁一些常見的迷思:
- 迷思:幻覺可透過提升準確率來排除,因為 100% 準確的模型絕不會出現幻覺。
研究結果:準確率絕不會達到 100%,因為不論模型的規模、搜尋和推理功能如何,現實世界中有些問題就是沒有答案。 - 迷思:幻覺不可避免。
研究結果:並非如此,因為語言模型可在不確定答案時放棄不答。 - 迷思:避免幻覺需要一定程度的智慧,只有較大的模型才能達到。
研究結果:小型模型較容易知曉自身的限制;例如,在要求小型模型回答毛利語的問題時,不知道任何毛利語的小型模型可能會直接回答「我不知道」,反而知道一些毛利語的模型必須判斷它多有把握。如同本文所討論,「校正」所需的運算力要比準確回答少得多。 - 迷思:幻覺是現代語言模型中的神秘失常現象。
研究結果:我們了解到幻覺是經由特定的統計機制而產生,因為在評估中獎勵了這種行為。 - 迷思:如果要測量幻覺,我們只需要一項適當的幻覺評估。
研究結果:之前曾發布過幻覺評估,但在面對數百種以準確率為準的傳統評估,也就是會為謙遜扣分並為猜測加分的評估時,就算有一項適當的幻覺評估也幾乎沒有效果,反而需要重調所有的主要評估指標,讓它們在模型表達不確定答案時加分。
我們最新推出的模型擁有較低的幻覺率,而我們也會繼續努力以降低我們語言模型輸出高自信錯誤的比率。


