デリケートな会話における ChatGPT の回答を強化
170名以上のメンタルヘルス専門家との協力を通じて、ChatGPT が苦悩の兆候をさらに確実に認識し、思いやりをもって対応し、現実のサポートに誘導できるようになりました。その結果、当社が理想とする対応に届かない回答を65~80% 減らすことができました。
当社は最近、悩みを抱える人々を認識してサポートする機能を強化して ChatGPT のデフォルトモデル(新しいウィンドウで開く)を更新しました。この記事では、この改善をどのように行ったのか、またその成果についてご紹介します。実際の臨床経験があるメンタルヘルス専門家との協力により、当社は、モデルが苦悩があることを認識する能力を向上させ、会話を通してユーザーを落ち着かせ、必要に応じて専門家によるケアに誘導できるように学習を行いました。また、緊急用ホットラインへのアクセスを拡大し、他のモデルで発生したデリケートな会話をより安全なモデルにリダイレクト(新しいウィンドウで開く)するようにし、加えて長時間セッションの場合に途中で休憩を促すリマインダー機能を追加しました。
当社は、人々が自分の気持ちを整理し、必要に応じて友人や家族、ひいてはメンタルヘルス専門家に連絡できるようにサポートする場を ChatGPT が提供できると信じています。最近のモデルの更新で、当社が安全性の向上の取り組みにおいて特に重視している領域は、1) 精神病や躁状態などのメンタルヘルスに関わる懸念、2) 自傷行為や自殺行為、3) AI に対する感情的依存です。今後も、自殺行為や自傷行為に関する長年の安全性の指標ベースラインに加え、感情的依存や自殺行為を伴わない精神衛生上の緊急事態を、将来のモデルリリースに向けた安全性テストのベースラインの標準セットに追加していきます。
今回の更新は、Model Spec(新しいウィンドウで開く) で概説されている、どのようにモデルが動作するかに関する既存の原則に従っています。当社は、長年の目標のいくつかをより明確にするために Model Spec を改訂し、モデルは、ユーザーの現実世界における関係性をサポート、尊重し、精神的また感情的な苦痛に関連しそうな根拠のない信念を肯定せず、潜在的な妄想や躁状態などの兆候に安全かつ共感的に対応し、自傷行為や自殺行為のリスクを示唆する間接的なシグナルに対してさらに注意を払う必要があるとしています。
当社では次の5つのステップに従い、ChatGPT が各優先ドメインでどのように回答するかを向上させています。
- 問題の定義 - さまざまな種類の潜在的な危害をマッピングします。
- 測定の開始 - 評価、実際の会話から取得されたデータ、ユーザーリサーチなどのツールを使用して、リスクがどこでどのように発生するかを理解します。
- アプローチの検証 - 外部のメンタルヘルスおよび安全対策の専門家と協力して、当社の定義とポリシーのレビューを実施します。
- リスクの軽減 - モデルに事後学習させ、製品による介入を更新して安全でない結果を減らします。
- 測定と反復の継続 - 対応策によって安全性が向上したかどうかを検証し、必要に応じて反復します。
このプロセスの一環として、当社は、デリケートな会話に特有の特性、また理想的なモデル動作および望ましくないモデル動作がどのようなものかを説明した詳細なガイド(「分類法」と呼ぶ)を作成し、改良しています。これを使用することで、より適切に回答するようにモデルに教え、展開の前後でそのパフォーマンスを追跡することができます。結果として、精神障害、躁状態、自殺念慮や自傷行為、あるいはモデルに対する不健全な感情的依存の兆候があるユーザーに対し、信頼できる反応をするモデルが誕生しました。
メンタルヘルスに関わる症状や精神的な苦痛は、人間社会に普遍的に存在しているため、ChatGPT ユーザー数が増加すると、その会話の一定の部分にこうした状況が含まれることになります。ただし、精神障害、躁状態、自殺念慮など、安全上の懸念を引き起こすようなメンタルヘルスに関する会話は極めてまれです。これらは非常にまれであるため、測定方法の小さな違いでも、報告される数値に大きな影響を与える可能性があります。1
以下の実運用トラフィックにおける普及率の推定は、現時点での最良の推定値です。分類法の改良を続け、測定方法が成熟し、さらにユーザー層の行動が変化すると、これらの値は大きく変化する可能性があります。
関連する会話の発生率は非常に低いため、当社では実際に ChatGPT が使用された状況の測定だけに頼ることはしません。また展開前に、特に対応の難しいシナリオやリスクの高いシナリオに重点を置いた体系的なテスト(「オフライン評価」と呼ばれる)も実施しています。これらの評価は、モデルがまだ完璧には対応しきれないほど難しいものになるように設計されています。つまり、望ましくない回答を引き出す可能性の高い例が敵対的に選択されます。これにより、さらに改善の余地がある箇所が明らかになり、典型的なケースではなく難しいケースに焦点を当て、複数の安全条件に基づいて回答を評価することで、進捗状況をより正確に測定できます。以下のセクションで報告されている評価結果は、ほぼ完璧なパフォーマンスを「飽和」させないように設計された評価から取得されたものであり、エラー率は平均的な実運用トラフィックを反映するものではありません。
モデルの保護対策をさらに強化し、ユーザーが ChatGPT をどのように使用しているかを理解するために、いくつかの関心領域を定義し、その規模と関連するモデル動作を定量化しました。実運用トラフィック、自動評価、独立したメンタルヘルス臨床専門家による評価という3つの領域のそれぞれで、モデル動作が大幅に改善されていることがわかります。このモデルでは、メンタルヘルス関連のさまざまなドメインにおいて、当社の分類法に基づく望ましい動作に完全に従っていない回答を出す頻度が65%~80%減少していると推定されます。
当社のメンタルヘルス分類法は、ユーザーが精神障害や躁状態などのメンタルヘルスに関わる深刻な問題の兆候や、孤立した妄想などのそれほど深刻ではない兆候を示している場合を特定できるように設計されています。当社では、まず精神障害と躁状態に注目しました。これらの症状は比較的一般的な精神衛生上の緊急事態であり、発生した場合には症状がかなり重篤になりやすい傾向があるためです。うつ病のような症状は比較的よく見られますが、その最も深刻な症状については、自殺や自傷行為の防止に関する当社の取り組みにより、すでに対応しています。当社が助言を求めた臨床医は、当社の重点領域を検証しました。
- GPT‑5 の最新の更新により、最近の実運用トラフィックにおいては、メンタルヘルス問題に関連する対応の難しい会話の分類法に基づき、望ましい動作に完全に準拠しない回答の割合が65%減少したと推定されています。2
- 前述の通り、このような会話はまれであるために検出や測定が困難ですが、当社の初期分析では、特定の週にアクティブだったユーザーの約0.07%とメッセージの0.01%が、精神障害や躁状態に関連した精神衛生上の緊急事態の兆候を示していると推定されています。3
- 専門家は、メンタルヘルスに関わる難しい会話において、ChatGPT のデフォルトモデルである新しい GPT‑5 モデルでは、GPT‑4o(n=677)と比較して望ましくない回答が39%減少していると評価しました。
- 1,000件を超えるメンタルヘルスに関わる難しい会話で構成されたモデル評価では、新たな自動評価により、新しい GPT‑5 モデルが当社の分類法に基づく望ましい動作に92%準拠しているというスコアが付けられました。以前の GPT‑5 モデルでは、この数値は27%でした。これまでに述べているように、これは継続的な改善を実現するために設計された、難しいタスクです。
当社は、自殺や自傷行為の防止に関する既存の取り組みを基に、ユーザーが自殺念慮や自傷行為を考えている状況を検出し、自殺への関心を示す兆候を集約できるようにしました。こうした会話は非常にまれであるため、自傷行為や自殺行為の兆候となる可能性のある会話を検出することは、現在も研究が続く領域であり、当社は継続的に改善に取り組んでいます。
- 当社では、緊急用ヘルプラインなどの専門リソースに誘導するなど、安全に対応できるようにモデルを学習させています。まれなケースですが、このようなデリケートな状況で意図したとおりにモデルが動作しない場合があります。追加の保護対策と改良モデルを展開した結果、当社の分類法に基づく望ましい動作に完全に準拠しない回答をモデルが提供する割合は約65%減少したと推定されます。
- 前述したように、こうした会話はまれであるため検出や測定が困難ですが、当社の初期分析では、特定の週にアクティブだったユーザーの約0.15%が自殺の計画や意図の可能性を明示的に示す会話を行っており、メッセージの0.05%に自殺念慮や意図を明示的または暗示的に示す内容が含まれていると推定されています。
- 専門家は、自傷行為や自殺行為に関わる難しい会話において、新しい GPT‑5 モデルが、GPT‑4o(n=630)と比較して望ましくない回答を52%減少させたと評価しました。
- 1,000件を超える自傷行為や自殺行為に関わる難しい会話で構成されたモデル評価において、新たな自動評価では、新しい GPT‑5 モデルが望ましい動作に91%準拠しているというスコアが付けられました。以前の GPT‑5 モデルでは、この数値は77%でした。
- 当社は、長時間の会話における GPT‑5 の信頼性の向上に取り組んできました。失敗する可能性が高いとして選ばれた現実世界のシナリオに基づき、長時間の難しい会話の新しいセットを作成しました。当社の最新モデルは、長時間の会話でも95%以上の信頼性を維持し、前述した特に難しい場面においても性能が向上していると推定しています。
自傷行為や自殺行為の手順説明を求める長時間の難しい会話の評価では、gpt-5-oct-3 の方が安全で、その安全性は長時間の会話でさらに良好に保たれました。
当社の感情的依存に関する分類法(この領域における当社の以前の研究(新しいウィンドウで開く)に基づく)は、健全な関与と、現実の人間関係、幸福、義務を犠牲にしてでもモデルに排他的に執着する潜在的な兆候を示すケースなどの懸念される使用パターンとを区別します。
- 最新の更新により、最近の実運用トラフィックにおいて、感情的依存に関する分類法に基づく望ましい動作に完全に準拠しないモデルの回答割合が約80%減少したと推定されます。
- 前述のように、このような会話はまれであるために検出や測定が困難ですが、当社の初期分析では、特定の週にアクティブだったユーザーの約0.15%とメッセージの0.03%が、ChatGPT に対する感情的な愛着の潜在的な高まりを示しました。
- 専門家は、感情的依存を示す難しい会話において、新しい GPT‑5 モデルが 4o(n=507)と比較して望ましくない回答を42%削減したと評価しました。
- 1,000件を超える感情的依存を示す難しい会話で構成されたモデル評価における自動評価では、新しい GPT‑5 モデルが望ましい動作に97%準拠しているというスコアが付けられました。以前の GPT‑5 モデルでは、この数値は50%でした。
感情的な依存を示す会話については、現実世界でのつながりにユーザーを導くように、モデルに学習させています。
また妄想的な考えに関する会話では、安全かつ共感をもって回答し、根拠のない考えを肯定しないように学習させています。
当社は、60か国で活躍している約300人の医師と心理学者からなる広範なプールである Global Physician Network (グローバル医師ネットワーク)を設立しました。このネットワークは、安全性に関するリサーチに直接情報を提供し、グローバル ビューを示すものとして活用されています。過去数か月間にわたり、170名を超える臨床医(具体的には精神科医、心理学者、プライマリケアの開業医)が、以下の1つ以上で当社の研究に支援を提供しました。
- メンタルヘルスに関わるプロンプトに対する理想的な回答の作成
- 臨床情報に基づいたカスタムのモデル回答分析の作成
- 異なる複数のモデルによるモデル回答の安全性評価
- 当社のアプローチに対する概略的なガイダンスとフィードバックの提供
これらのレビューで、臨床医は最新モデルが以前のバージョンと比較して適切かつ一貫性のある回答を提供すると判断しました。
この研究の一環として、精神科医と心理学者は、深刻なメンタルヘルスの状況に関する1,800件以上のモデル回答をレビューし、新しい GPT‑5 のチャットモデルからの回答を以前のモデルと比較しました。専門家は、新しいモデルが GPT‑4o と比較して大幅に改善されており、すべてのカテゴリで望ましくない回答が39~52%減少したと評価しました。この定性的フィードバックは、新しいモデルを導入したときに実運用トラフィックで見られた定量的な改善を反映しています。
他の複雑なトピックと同様、最善の回答がどのようなものであるかについては専門家の間でも意見が分かれることがあります。当社は、評価者間の合意、つまりモデル回答が望ましいものか望ましくないものかに関して専門家が同じ結論に達する頻度を通じて、この違いを測定します。これにより、専門家の意見が異なる点や、モデル動作を健全な臨床判断とどのように一致させるかをより深く理解できるようになりました。メンタルヘルス、感情的依存、自殺に関連するモデル回答を評価する専門の臨床医の間でかなりの確実性が見られましたが、ケースによっては、評価者間の一致率が71~77%の範囲になり、専門家の間での意見の相違も見られました。
HealthBench での研究と同様に、当社は Global Physician Network と連携して、リリース前の新しいモデルも含め、メンタルヘルスのコンテキストにおけるモデルのパフォーマンスの社内評価のためのターゲット評価を作成しました。
当社にとってこの研究は非常に重要であり、その指導を仰いでいる世界中のメンタルヘルスの専門家の皆様に心より感謝しています。これまで、大幅な進歩を遂げてきましたが、やるべきことはまだあります。当社は、これらの分野やさらに将来の分野におけるモデル動作を測定および強化するために使用する分類法と技術システムの両方の進化に引き続き取り組んでいきます。これらのツールは時間の経過とともに進化するため、将来の測定値を過去の測定値と直接比較することは難しいかもしれません。それでも、これらのツールは当社の方向性と進捗状況を追跡するための重要な方法であることに変わりはありません。
この研究の詳細については、GPT‑5 System Card のAddendumをご覧ください。
著者
脚注
- 1
当社は、精度(当社システムによってフラグ付けされた会話が実際に安全でない頻度)と再現率(システムが検出する安全でない会話の割合)との間でのトレードオフに直面しています。有用な再現率を取得するには、ある程度の誤検知を許容する必要があります。これはまれな症状の検査に似ています。疾患が10,000人中1人を冒す場合、非常に精度の高い検査であっても、実際に罹患している人よりも健康な人の方が多く検出されてしまう場合があります。
- 2
これらの変更はすべて、8月15日にリリース(新しいウィンドウで開く)された GPT-5 バージョンに関連したものです。
- 3
一部のユーザーやメッセージでは、自傷行為と感情的依存の両方など、複数のリスク兆候が見られる可能性があるため、ここで報告されているカテゴリと以下で報告されているカテゴリには重複があることに留意してください。


