
OpenAI では、AI システムをより便利で信頼性の高いものにするために日々努力しています。言語モデルの能力は進化し続けていますが、完全に解決するのが非常に難しい問題が1つ残り続けています。それがハルシネーションです。ハルシネーションとは、モデルが正しくない回答を自信を持って生成するという現象です。当社の新しい調査報告(新しいウィンドウで開く)では、言語モデルでハルシネーションがおきる理由は、標準的な学習と評価の手順により、不確実性を認めるよりも、当て推量のほうに報酬が出るためだと論じています。
ChatGPT でもハルシネーションは発生します。GPT‑5 は特に推論において、ハルシネーションが著しく低下していますが、それでもハルシネーションは発生します。ハルシネーションは引き続きすべての言語モデルにとって根本的な課題であり、OpenAI ではハルシネーションをさらに減らすべく取り組んでいます。
ハルシネーションとは、言語モデルが生成する、もっともらしく聞こえるが正しくない発言のことです。一見単純に見える質問に対してでさえ、ハルシネーションが予想もせずおきる場合があります。たとえば、人気のあるチャットボットに Adam Tauman Kalai(本報告書の著者)の博士論文のタイトルを尋ねたところ、自信を持って3つの異なる回答が提示されましたが、どれも正しくありませんでした。彼の誕生日を尋ねたところ、3つの異なる日付が提示され、やはりどれも正しくありませんでした。
ハルシネーションがなくならない理由の1つが、現在の評価手法では間違ったインセンティブが設定されていることです。評価自体がハルシネーションの原因になることはありませんが、多くの評価におけるモデルのパフォーマンス測定方法が、不確実性に対する誠実さよりも推測を推奨するようになっています。
これは多肢選択のテストのようなものです。答えがわからなくても、運が良ければ当てずっぽうで正解になるかもしれません。空のままにすれば間違いなくゼロ点です。これと同じように、モデルを正確性、つまり正しく回答した質問の割合についてのみ評価すると、モデルは「分かりません」と回答する代わりに推測することを選ぶようになります。
もう1つの例として、言語モデルに誰かの誕生日を尋ねたときに、モデルは誕生日を知らないとします。「9月10日」と推測した場合、正解になる確率が365分の1あります。「分かりません」と回答すればゼロ点です。数千のテスト質問を重ねると、スコア上は、不確実性を認める慎重なモデルよりも、推量を行うモデルの方が良く見えてしまいます。
「正解」が1つだけ存在する質問の場合、回答には、正解、間違い、モデルが推量を犯さない棄権の3つのカテゴリーが考えられます。棄権は謙遜の一部で、OpenAI のコアバリューの1つです。ほとんどのスコアボードでは正確性に基づいてモデルを優先付け・ランク付けしますが、間違いは棄権よりも問題です。当社の Model Spec(新しいウィンドウで開く) では、不正確である可能性がある情報を自信を持って提供するよりも、不確実性を示す、あるいは質問内容を明確にすることを求める方が優れていると示しています。
具体的な例として、GPT5 System Card(新しいウィンドウで開く) の SimpleQA 評価を考えてみましょう。
測定基準 | gpt-5-thinking-mini | OpenAI o4-mini |
棄権率
| 52% | 1% |
精度
| 22% | 24% |
エラー率
| 26% | 75% |
合計 | 100% | 100% |
正確性の点では、古い OpenAI o4-mini モデルの方が少し良いパフォーマンスを示しています。ただし、そのエラー率(ハルシネーションの割合)は非常に高くなっています。不確かな場合に戦略的に推測することで正確性は向上しますが、エラーとハルシネーションが上昇します。
数十の評価での結果を平均するときは、ほどんどのベンチマークでは正確性の指標を取り出しますが、そうすると正誤の間での誤った二分法が発生します。SimpleQA のような非常に単純な評価では、一部のモデルはほぼ100%の正確性を達成するため、ハルシネーションが排除されます。ただし、より難易度の高い評価や実際の使用においては、正確性の上限は100%を下回ります。これは、一部の質問では、入手不可能な情報、小規模モデルの思考能力の制限、明確にする必要がある曖昧さなどのさまざまな理由から、回答を決定できないためです。
それにもかかわらず、正確性のみのスコアボードがリーダーボードやモデルカードを独占しているため、開発者は自制するよりも推量するモデルを構築するように動機付けられます。これが、モデルがより進歩しているにもかかわらず、いまだにハルシネーションをおこす理由の1つであり、不確実性を認める代わりに間違った回答を自信を持って提供してしまうのです。
明快な修正方法があります。自信を持った間違いに不確実性よりも多くのペナルティを課すのです。さらに、不確実性を適切に表現した場合に点数の一部を与えます。これは新しいアイデアではありません。一部の標準テストでは長い間、不正解にマイナスのスコアを与えたり、答えを空のままにした場合に点数の一部を付与することで、当て推量をやめさせるようにしています。いくつかの調査グループではさらに、不確実性や校正を考慮に入れる評価を検討しています。
当社の視点は異なります。不確実性に対応した新しいテストをいくつか追加するだけでは不十分です。広く使われている正確性ベースの評価を更新して、そのスコアリングで推測を抑えるようにする必要があります。主要なスコアボードが運の良い推測を評価し続ければ、モデルは推測することを学習し続けます。スコアボードを修正することで、新しく開発された、また以前の調査から分かったハルシネーション削減の手法がより多く採用されるようになります。
ハルシネーションを排除することがいかに難しいかについて説明してきましたが、このような非常に具体的な事実に関する不正確さはそもそもどこから生じるのでしょうか。なんといっても、大規模な事前トレーニング済みのモデルでは、スペルミスや一致しない括弧などの他の種類のエラーはほとんどおきません。違いは、データ内に存在するパターンに関係していると考えられます。
言語モデルは最初に事前トレーニングを通じて学習します。これは大量のテキストの次の単語を予測するプロセスです。従来の機械学習の問題とは異なり、それぞれの文章に「正/誤」のラベルは付けられていません。モデルは単に流暢な言語の肯定的な例を確認するだけで、全体的な分布を概算します。
無効のラベルが付けられた例がない場合に、有効な文章と無効な文章を区別することはさらに難しくなります。ただし、ラベルが付けられていたとしても、一部のエラーは不可避です。その理由を理解するために、単純な例を考えてみます。画像認識において、数百万の猫と犬の写真に「猫」または「犬」のラベルが付けられていれば、アルゴリズムは猫と犬を確実に分類するように学習することができます。ところが、それぞれの写真にペットの誕生日のラベルが付けられていたらどうでしょうか。誕生日は基本的にランダムなので、アルゴリズムがいかに進化しても、このタスクでは常にエラーが生成されます。
同じ原則が事前トレーニングにも当てはまります。スペルや括弧は一貫性のあるパターンに従っているため、それらのエラーはほとんどなくなります。ところが、ペットの誕生日など、頻度の低いランダムな事実は、パターンからだけでは予測することができないため、ハルシネーションにつながります。当社の分析は、次の単語の予測からどのような種類のハルシネーションが発生するかを説明しています。理想的には、事前トレーニング以降の追加ステージでハルシネーションが除去されるはずですが、前のセクションで説明したような理由でこれは完全にはうまくいきません。
当社の報告で示した統計的な事実により、ハルシネーションの性質をあきらかにし、以下のような一般的な誤解が解消されることを願っています。
- 主張:100%正確なモデルは決してハルシネーションをおこさないので、正確性を向上させればハルシネーションは除去される。
調査結果:モデルのサイズ、検索および推論の能力にかかわらず、正確性が100%に達することは決してない。なぜなら、現実の世界の一部の質問は本質的に回答不可であるためである。 - 主張:ハルシネーションは防ぎようがない。
調査結果:防ぐことはできる。言語モデルは不確かな場合、回答を控えることができます。 - 主張:ハルシネーションを回避するには、大規模モデルでのみ達成可能な度合のインテリジェンスが必要になる。
調査結果:小規模モデルのほうがその限界を把握するのがより簡単である。たとえば、マオリ族について回答するように質問された場合、マオリ族を知らない小規模モデルでは単に「分かりません」と回答できますが、マオリ族について多少の知識がある大規模モデルではその信用度を判断する必要があります。報告書で説明しているとおり、校正するために必要な計算能力は正確であるために必要な計算能力よりもずっと少なくて済みます。 - 主張:ハルシネーションは最新の言語モデルにおける神秘的な現象である。
調査結果:ハルシネーションが発生する、評価で報酬が付与される統計的メカニズムが解明された。 - 主張:ハルシネーションを測定するには、優れたハルシネーション評価があればよい。
調査結果:ハルシネーション評価は公開されていません。ただし、謙遜を罰し、推測を評価する何百もの従来の正確性ベースの評価では、適切なハルシネーション評価の効果はほとんどありません。その代わりに、すべての主要な評価指標を見直して、不確実性を表明することを評価する必要があります。
OpenAI の最新モデルではハルシネーションの割合が低下しており、当社の言語モデルが自信をもって出力するエラーの割合をさらに下げるように引き続き取り組んでいます。


