OpenAI では、AI は公正で安全であり、かつ自由に利用可能であるべきだと考えています。そうすることで、より多くの人々が困難な問題を解決し、機会を創出し、健康、科学、教育、仕事、日常生活といった分野で恩恵を受けられるようになります。当社では、AI へのアクセスの民主化こそが前進するための最善の道であると考えています。つまり、その恩恵や制御が一部の人々の手に集中する AI ではなく、より多くの人々が利用し、理解し、そのあり方の形成に関わることができる AI です。
それが、OpenAI Model Spec が存在する根本的な理由です。Model Spec(新しいウィンドウで開く) は、モデルの振る舞いに関する私たちの正式なフレームワークです。これは、モデルがどのように指示に従い、対立を解決し、ユーザーの自由を尊重し、日々ユーザーから寄せられる非常に広範な問い合わせに対して安全に振る舞うべきかを定義します。より広く言えば、これは意図されたモデルの振る舞いを明示化する試みです。単にトレーニングプロセスの内部だけでなく、ユーザー、開発者、研究者、政策立案者、そして一般の人々が実際に読み、検証し、議論できる形で提示するものです。
Model Spec は、当社のモデルがすでに今日この通りに完全に振る舞っているという主張ではありません。多くの点で記述的ですが、同時にモデルの振る舞いが目指すべき目標でもあります。当社はこれを用いて意図された振る舞いをより明確にし、それに向けてトレーニングし、それに照らして評価し、時間とともに改善していきます。
本記事では、 Model Spec そのものには含まれていない背景について共有します。そこには、その背後にある哲学や仕組み、構造のあり方、その構造を選択した理由、そしてそれをどのように記述・実装し、時間とともに進化させていくかが含まれます。
Model Spec は、安全で責任あるAIに向けた OpenAI のより広範な取り組みの一部です。Preparedness Framework は、フロンティア能力に起因するリスクと、それらのリスクが高まるにつれて必要となる安全対策に焦点を当てている一方で、Model Spec は、幅広い状況において当社のモデルがどのように振る舞うべきかという、別ではあるものの補完的な問いを扱っています。さらに視野を広げると、AI レジリエンスは、より高度なシステムが展開される中で、社会が先進的な AI の恩恵を享受しつつ、混乱や新たなリスクを低減するという、より広範な社会的課題に対処することを目的としています。これらの取り組み全体として、 AGI への移行を段階的かつ反復的で、民主的に理解可能なものにすることを目指しています。すなわち、人々や制度が適応する時間を確保しつつ、強力な AI を人間の利益と整合させるために必要な安全対策、説明責任の仕組み、および社会的理解を構築することです。
モデルの振る舞いが明確に理解されることは、公平性と安全性の両面で重要です。公平性の観点から重要なのは、人々が AI がどのように、なぜそのように扱うのかを理解し、公平性に関する懸念が生じた際に、それを特定し、疑問を呈し、対処できるようにするためです。それは安全性の観点からも重要です。なぜなら、AI システムがますます高度になるにつれて、人々や組織は、そのシステムがどのように振る舞うことを意図しているのか、どのようなトレードオフを内包しているのか、そしてそうした選択を時間の経過とともにどのように改善していけるのかについて、より明確な期待を持てるようにする必要があるからです。このような可視性は、より多くの人々に具体的に検証し、問い、改善する対象を提供することで、レジリエンスの強化にも寄与します。
2024 年の初版以来、 Model Spec は大きく進化してきました。これは、ユーザーの嗜好やニーズについての理解が深まり、より高度な能力に対応・適応するために範囲が拡張され、さらにモデルの振る舞いや Model Spec に関する公開フィードバックから学んできたためです。反復的な展開の精神に則り、Model Spec は、背景にある価値観と、明示的で明確なルールの両方を扱う進化し続ける文書であり、実運用やフィードバックから学びながら個々の要素を修正するプロセスと組み合わされています。当社はまた、AI がどのように使われるか、また AI の振る舞いがどのように形作られるかについて人類が主導権を保てるようにするため、集合的アラインメントのような公開フィードバックの仕組みにも投資しています。
社内的には、これは意図された振る舞いに関する指針となり、トレーニング、評価、ガバナンスのための共通のフレームワークを提供します。対外的には、人々が当社のアプローチを理解し、批評し、時間の経過とともにその改善に役立てるために利用できる公開の参照点を作り出します。
Model Spec は、いくつかの異なる種類のモデルガイダンスで構成されています。これは意図的なものです。モデルの振る舞いの異なる側面には、それぞれ異なる対応が必要であり、有用な公開文書には単にルールを列挙する以上のことが求められます。
Model Specpec は、まず大まかな意図、すなわちシステムレベルで何を最適化しようとしているのか、そしてその理由についての明確な説明から始まります。
この前文では、当社がミッションを追求するための3つの目標を明確にしています。
- 開発者とユーザーを支援するモデルを反復的に展開する
- 当社のモデルがユーザーや他者に深刻な害を与えることを防ぐ
- OpenAI の事業運営の正当性を維持する
さらに、これらの目標のバランスを実務上どのように考えるかを説明し、そのトレードオフを、後に続くより詳細な原則を支えるのに十分な具体性で示します。
重要なのは、この前文はモデルへの直接的な指示を意図したものではないという点です。人類に利益をもたらすことは OpenAI の目標であり、モデルが自律的に追求すべき目標ではありません。その代わりに、モデルには Model Spec および OpenAI、開発者、ユーザーからの適用可能な指示を含む指揮系統に従うことを求めています。たとえ特定のケースで結果に異論がある場合でも同様です。当社は、人間の自律性と知的自由を重視しているため、これが適切なバランスであると考えています。もし当社が、社会にとって何が良いかという当社自身の見解に基づいてどの指示に従うべきかをモデルに判断させるようにトレーニングした場合、 OpenAI は非常に広いレベルで道徳を裁定する立場に置かれることになります。とはいえ、この前文は依然として重要です。Model Spec の適用方法に曖昧さがある場合、この前文がそれを解消する助けとなるべきです。
Model Spec にはまた、直接測定可能なモデルの振る舞いを超えて、トレーニングの意図やデプロイ制約に関する公開コミットメントも含まれています。たとえば、当社のレッドライン原則(新しいウィンドウで開く)には、ChatGPT のような自社展開において、客観性(新しいウィンドウで開く)または関連する原則を意図的に損なうためにシステムメッセージを使用することは決してないというコミットメントが含まれています。また、「他の目的はない」(新しいウィンドウで開く)では、モデルの応答を収益や有益でない滞在時間ではなくユーザーの利益のために最適化するという当社の意図に関するコミットメントを示しています。
Model Spec の中核にあるのは指揮系統であり、これは特定の状況でどの指示を適用すべきかを判断するためのフレームワークです。また、モデルが詳細が十分に指定されていない指示をどのように扱うべきかもカバーしています。特に、現実世界への副作用を慎重に制御しながら、自律的に詳細を補うことが期待されるエージェント的な状況に焦点を当てています。どの指示を適用すべきかを判断する基本的な考え方はシンプルです。指示は、OpenAI、開発者、ユーザーなど、さまざまなソースから提供されます。これらの指示は互いに衝突する可能性があります。指揮系統は、モデルがそれらの競合をどのように解決すべきかを説明します。
各 Model Spec ポリシーと指示には、それぞれ 権限レベル(新しいウィンドウで開く)が割り当てられています。衝突が発生した場合、モデルはより高い権限レベルの指示の文言および精神を優先するよう指示されます。ユーザーが爆弾の製造支援を求めた場合、モデルは厳格な安全境界(新しいウィンドウで開く)を優先する必要があります。ユーザーがロースト(辛辣な批評)を求めた場合、モデルは通常、Model Spec のより低い権限レベルにある虐待防止ポリシー(新しいウィンドウで開く)よりもその要求を優先すべきです。
この構造により、上書き不可能な比較的小さなルールセットと、より大きなデフォルトのセットを併存させることができます。これにより、安全性の制約の範囲内でユーザーの自由と開発者の制御を最大化しようとしています。
- ハードルールは、ユーザーや開発者が上書きできない明確な境界です(Model Spec の用語では、これらは「root」または「system」レベルの指示です)。それらは主に禁止的な内容であり、モデルに対して、壊滅的なリスクや直接的な身体的危害につながる可能性のある行動、法律に違反する行為、または指揮命令系統を損なう行為を回避するよう求めています。当社は、AI 基本的なインターネットインフラに類似する社会の基盤技術になると考えているため、それと関わる幅広い開発者およびユーザーにとって必要であると判断した場合にのみ、知的自由を制限し得るルールを課します。Model Spec では、境界を守る(新しいウィンドウで開く)セクションに現実世界の具体的な安全リスクに対応する厳格なルールが含まれ、18歳未満向けの原則(新しいウィンドウで開く)では、18歳未満のユーザーに対する追加の保護措置が設けられています。
- デフォルトは上書き可能な出発点です。ユーザーまたは開発者が設定を指定していない場合の、アシスタントの「最善の推測」による振る舞いを指します。当社は、振る舞いの予測可能性と制御性を確保するためにデフォルト設定を採用しています。これにより、その都度、個別の指示セットを作成しなくても、何が起こるかをあらかじめ見通せるようになります。デフォルト設定によって、制御可能性が維持されます。ユーザーと開発者は、安全境界の範囲内で、トーン、深さ、形式、さらには視点まで明示的に調整できます。ガイドラインレベルのデフォルト(トーンやスタイルなど)は、暗黙的に調整可能であるよう設計されています。一方で、ユーザーレベルのデフォルト(真実性や客観性など)は、信頼性と予測可能性の基盤であり、明示的な指示によってのみ上書き可能です。それらは雰囲気でなし崩しに変わるべきではありません。ユーザーが事実に関する別の立場を望むのであれば、それを明示的な指示にすることで、その変化を透明かつ可視的に保つことができます。これらのデフォルトは、ともに真実を追求する(新しいウィンドウで開く)、最善の仕事をする(新しいウィンドウで開く)、適切な文体を用いる(新しいウィンドウで開く)全体に反映されており、誠実さや客観性に関する規範、迎合の回避、そして直接性や文脈に応じた適切な温かみやプロフェッショナリズムといった対話の規範が含まれます。
階層構造そのものに加えて、Model Spec では、判断が分かれる領域でモデル(および人間)が一貫して適用できるようにするための解釈の手がかりを提供しています。これらの支援には次のものが含まれます。
- 判断基準。これにより、単一の機械的なルールがあるかのように装うことなく、判断が分かれる領域でもモデルが一貫した選択を行えるようになります。たとえば、副作用の制御(新しいウィンドウで開く)に関する Model Spec のガイダンスでは、取り返しのつかない行動を最小限に抑えること、行動を目的に見合ったものにすること、望ましくない不利益の低減、元に戻せるアプローチを優先することなどの考慮事項が挙げられており、これらは、タスクを迅速かつ効果的に完了することのような他の目的とのバランスを取る必要があります。
- 原則を実際にどのように適用すべきかを示す具体的な例。これらは通常、準拠した応答と非準拠の応答の両方を含む短いプロンプトと応答の例であり、重要な意思決定境界付近の難しいプロンプトを扱うことが多いです。目的は、完全に現実的な会話をシミュレーションすることではありません。その目的は、重要な区別を明確にし、かつ望ましい回答スタイルも示せる形でそれを実現することです。
例の数を比較的少数に抑え、最も情報量の多いものに焦点を当てています。より多くの多様なケースを網羅するために、より広範な評価スイートが役立ちます。
知的自由および非判断的であるという原則を示す例(Spec の「善意を前提とする」(新しいウィンドウで開く)セクションより)
Spec はインターフェースであり、実装ではありません。これは、当社が望む振る舞いを記述するものであり、その振る舞いをどのように生成するかのすべての詳細を記述するものではありません。当社は、内部トークン形式や特定の振る舞いに対する正確なトレーニング手法といった実装詳細にこれを固定することを避けています。なぜなら、それらの詳細は、望ましい振る舞いが変わらなくても変更される可能性があるためです。Model Spec の主な対象はモデルではなく人間です。これは、 OpenAI の従業員、ユーザー、開発者、研究者、政策立案者が、意図された振る舞いを理解し、議論し、判断するのを助けることを目的としています。
Spec はまた、モデルについても記述するものであり、製品全体を記述するものではありません。これを補完するものとして、利用ポリシーがあり、API と ChatGPT の利用に関して当社が期待する事項を概説しています。ユーザーが利用するシステムには、モデル自体だけでなく、カスタム指示やメモリなどのプロダクト機能、監視、ポリシーの施行、その他のレイヤーも含まれており、これらはいずれも重要です。安全性はモデルの挙動だけにとどまりません。当社では多層防御を重視しています。
また、Spec は、当社のトレーニングスタック全体や内部ポリシーの違いを網羅的に記述したものではありません。目的はすべての詳細を網羅することではありません。最も重要な振る舞いに関する意思決定を、当社の意図するモデルの振る舞いと完全に一貫した形で理解できるようにすることです。
読者やモデルがいくつかの高水準の目標だけからすべてを推測できると想定するのではなく、これほど多くの内容を Spec に盛り込むべき理由はいくつかあります。
第一に、Model Spec は 透明性と説明責任のためのツールです。有意義な公開フィードバックを促すよう設計されています。明確に公開された目標があると、その振る舞いがバグなのか仕様なのかを人々が判断しやすくなります。これにより、批評や具体的なフィードバックのための安定した参照点が提供されます。そのため、当社は Model Spec をオープンソース化(新しいウィンドウで開く)し、公開の場で反復的に改善していくことを選びました。初回リリース以来、フィードバックフォーム、一般からの批評、そして民主的な意見を集めるための意図的な取り組みを含むさまざまな手段を通じて集められた公開フィードバックに基づき、多くの変更が加えられてきました。
第二に、Model Spec は OpenAI 内で使用される連携ツールです。これは、研究、プロダクト、安全性、ポリシー、法務、コミュニケーションなどの各部門に共通の語彙と、モデルの振る舞いについて議論し変更を提案・レビューするための仕組みを提供します。
第三に、明示的なポリシーは、モデルの知能や実行時コンテキストの実務的制約を補い、振る舞いをより予測可能にすることができます。これは時間の経過とともに当てはまりにくくなってきているものの、一部の方針は、不十分な知能を補うことを目的としています。これは、モデルがより高次の原則から正しい振る舞いを確実に導き出せない可能性がある場合を想定したものです。たとえば、明確かつ率直に(新しいウィンドウで開く)では、以前のモデルに対して、計算を要する難しい問題では答えを述べる前に考え方を示すよう助言していましたが、現在では、当社のモデルは強化学習を通じてこの振る舞いを自然に学習しています。
他のポリシーでは、実行時における限られた文脈も扱っています。つまり、アシスタントは現在のやり取りで観察可能なことにしか依拠できず、ユーザーの置かれた状況の全体像、意図、下流での利用、またはモデルの外部にどのような安全対策が存在するかを把握できることはほとんどありません。このような場合、十分な調査と熟考を重ねればモデルが適切な挙動を導き出せる可能性があるとしても、具体性が高いほど、効率性と予測可能性が向上します。つまり、多くの判断をガイダンスに集約することで、類似したプロンプト間でのばらつきを減らし、ユーザーと研究者の双方にとって挙動を理解しやすくします。
最後に、Model Spec は、評価と測定 に関連する高次のポリシーを網羅した一覧であることを目指しています。モデルが意図通りに振る舞っているかどうかを評価したいのであれば、重視する主要な振る舞いのカテゴリを公開された一覧として持っていることが有用です。
「役に立ち、安全であること」のような短い目標のリストから、十分に高性能なモデルであれば正しい振る舞いを推測できるはずだ、と考えたくなるものです。それには一理あります。数学のように、成功の基準が客観的に定まっている分野では、知能が詳細なルールの代わりになることがよくあります。
しかし一般的に、モデルの振る舞いは単純な数学問題の解決とは異なり、誰もが合意できる唯一の道徳的に正しい答えが存在しない、より複雑で難しい領域で動作します。たとえば、モデルが「役に立ち、かつ安全である」とはどういうことかは、文脈に大きく依存しており、本質的に価値判断を伴う意思決定の産物です。知能だけでは、倫理や価値観に関してどのようなトレードオフを受け入れるべきかを教えてはくれません。したがって、モデルの知能が向上したとしても、価値判断や特定の状況において「倫理的に行動する」とは何かを理解し、導くための取り組みは引き続き必要です。また、Model Spec を持つ理由の大半は、モデルの能力がはるかに高まったとしても、引き続き重要です。つまり、人々が足並みをそろえるための公開された目標、その振る舞いが私たちの意図に沿っているかどうかを評価する方法、そして学びを得るにつれてルールを改訂していくための仕組みが、依然として必要です。もし唯一のルールが「役に立ち、安全であること」だけであるなら、たとえばモデルが提供を拒否すべきコンテンツの境界線について人間が議論するための仕組みが存在せず、こうした判断のすべてをモデルに委ねることになります。
むしろ、モデルが高性能化し、より自律的になり、より広く展開されるにつれて、曖昧さのコストは増大します。そのため、明確な振る舞いのフレームワークは、重要性が低下するどころか、より重要になります。
有用な比喩の一つは、成文憲法と判例法の違いです。成文憲法は高レベルの原則と具体的なルールの両方を提供できますが、将来発生し得るすべてのケースを予測し、それらに対する指針を与えることはできません。実際の統治システムには、複雑な事例や予期しない問題を解決するために、解釈の仕組み、明確化、および明示的な判断が必要です。公開されたルールは、利害関係者が意見の相違がある場合でも調整を可能にし、変更を明示的に行うことを求めることで変化を制約します。Model Spec は、原則を示す文書、一般公開される行動の枠組み、そして Spec を時間の経過とともに変更していくためのプロセスという、これらすべての役割を担うことを意図しています。
とはいえ、モデルの振る舞いに関して重要なことのすべてが、常に明示的なルールに還元できるとは当社は考えていません。システムがより自律的になるにつれて、信頼性と信用は、より広範なスキルや性質に依存するようになります。すなわち、不確実性を適切に伝える能力、自律性の範囲を尊重する姿勢、不意の不利益を避けること、時間を通じて意図を追跡すること、そして文脈において人間の価値について適切に推論する能力です。
Model Spec を作成する際には、現在のモデルの実際の振る舞い(欠点を含む)を記述することと、理想的な将来の目標を記述することの間には幅があります。当社はバランスを取ることを目指しており、通常は現在から0〜3か月先を目安にしています。そのため、Model Spec は、活発に開発が進められているいくつかの領域で、モデルよりも先行していることがよくあります。
これは、Model Spec が意図された振る舞いを記述する役割を果たしていることを反映しています。そして、すでに実施していることや近い将来に実装予定の具体的な計画に基づきつつ、一貫した方向性を示すものであるべきです。
Model Spec は、オープンな社内プロセスを通じて策定されています。OpenAI の誰でもそれにコメントしたり、変更を提案したりでき、最終的な更新は、幅広い部門横断のステークホルダーによって承認されます。実際には、数十人が文章作成に直接携わっており、さらに研究、エンジニアリング、プロダクト、安全性、ポリシー、法務、コミュニケーション、グローバルアフェアーズ、その他の部門にまたがるさらに多くの人々が意見を寄せています。また、公開リリースやフィードバックからも学び、それらは実際の導入環境でこれらの選択を検証する助けとなります。
これは重要です。なぜなら、モデルの振る舞い、そしてそれが現実世界にもたらす影響は、きわめて複雑だからです。振る舞いの全体像、トレーニングプロセス、そしてその下流への影響のすべてを一人の頭の中だけで把握することはできませんが、多くの部門横断の寄稿者やレビュー担当者が関与することで、品質を向上させ、確信を高めることができます。
うれしい驚きの一つは、実質的なコンセンサスがしばしば可能であることです。特に、トレードオフを十分に正確に書き下して、意見の相違を具体的なものにしたときには、その傾向が顕著です。書き出すことを自分たちに課したときにそれが当てはまります。
Model Spec もまた、文脈から切り離されて書かれたものではありません。そこに含まれる内容の多くは、行動、安全性、ポリシーに関するより広範な取り組みを要約したものです。Model Spec の記述作業の多くは、実際には翻訳に近いものです。すなわち、既存の取り組みを受け取り、その根底にある意図を損なうことなく、より簡潔で、一貫性があり、整理され、理解しやすいものにしていく作業です。
当社の本番モデルは、いくつかの理由により、まだ Model Spec を完全には反映していません。
- モデルのトレーニングが、Model Spec の更新に遅れを取る場合があります。Model Spec は当社が目指している振る舞いを記述しているため、当社の最新モデルがトレーニングによって実現できるようになっている内容より先を行っている場合があります。
- トレーニングによって、意図せず Model Spec と一致しない行動を教えてしまうことがあります。当社はこれを避けるよう最大限努めており、もし発生した場合には、それを重大なバグとして扱います。そのうえで、振る舞いを調整するか、あるいは Model Spec を調整することで、両者を整合させるよう取り組みます。
- トレーニングによって、考え得るすべての振る舞いの範囲を完全に網羅することはできません。実際の利用には、多様なコンテキストやエッジケースが含まれ、それらは大規模に運用して初めて明らかになります。どのようなトレーニングプロセスでも、すべてを網羅することはできません。
- 汎化のされ方が、当社の意図とは異なる場合があります。モデルは、トレーニング中には意図しない理由によって「正しい」出力を生成することがあり、その結果、トレーニング時には見られなかった新たな状況において、意図しない振る舞いにつながることがあります。熟慮的アライメントのような手法は役立ちますが、完全な解決策ではありません。
より一般的に言えば、Model Spec が幅広い望ましい動作を記述しているという事実は、それらすべてを教えるための単一の方法があることを意味するものではありません。振る舞いのさまざまな側面—指示追従、安全境界、パーソナリティ、不確実性の適切に調整された表現など—は、しばしば異なる手法を必要とし、失敗モードも異なります。Model Spec は、意図された動作を理解し、批判的に検討しやすくするのに役立ちますが、それを適切に実践することは、依然として職人技の側面を持つと同時に、活発な研究分野でもあります。
本記事にあわせて、当社は Model Spec Evals(新しいウィンドウで開く) を公開します。これは、少数の代表的な例を用いて、Model Spec 内のできるだけ多くの記述をカバーすることを目指した、シナリオベースの評価スイートです。これは、モデルの振る舞いと Model Spec にずれが生じている可能性がある箇所を把握するのに役立ち、また、モデルが私たちの意図どおりに Model Spec を解釈しているかどうかを確認するのにも役立ちます。これらの評価は、より広範な評価戦略の一部にすぎず、その戦略には、特定の安全領域、真実性と追従性、パーソナリティとスタイル、能力など、振る舞いの多くの側面にわたる、より焦点を絞った評価も含まれます。
OpenAI モデルにおけるセクション別 Model Spec 準拠状況の時系列チャート評価の詳細とその解釈方法については、関連するブログ記事(新しいウィンドウで開く)をご覧ください。要するに、これらの結果は時間の経過とともにモデルのアラインメントが実質的かつ広範に改善していることを示していると私たちは考えています。ただし、より新しいポリシーに対して古いモデルを測定していることによる小さな影響も反映されています。
実際には、Spec の更新の大半は、繰り返し現れる一連のインプットによって推進されます。
- 公開されている課題とフィードバック。Model Spec の記述またはモデルの振る舞いにおける混乱、エッジケース、または失敗パターン。
- 社内で見つかる課題。開発およびテストの過程で見られるパターン(複数の合理的な解釈が異なる振る舞いにつながるような曖昧さも含まれる)。
- 振る舞いと安全性に関するポリシーの更新。より上位の制約やコミットメントが変更された場合、Spec はその新しい構造を明確に反映する必要があります。
- 新たな能力と製品。モデルが新たな振る舞いをより高い能力で示すようになり、当社が新製品をリリースするにつれて、Model Spec も内容と対象範囲の両面で対応できるようにしたいと考えています。たとえば、マルチモーダルなやり取り(新しいウィンドウで開く)、自律型エージェント(新しいウィンドウで開く)、18歳未満のユーザー(新しいウィンドウで開く)に関するルールの追加などです。
いくつかの設計原則が、当社による Model Spec の作成と改訂の指針となっています。
- 明確さと精度。「正直であれ」は良い価値観ですが、それだけで完全な意思決定手順になるわけではありません。Model Spec は、意見の相違を明確にするべきであり、耳当たりのよい言葉でそれを覆い隠すべきではありません。実務上可能な場合には、ルール間の潜在的な衝突を明示的に示し、それをどのように解決すべきかについてガイダンスや例を示すべきです。例えば、嘘をつかない(新しいウィンドウで開く)は、温かく接する(新しいウィンドウで開く)と潜在的な競合関係にあることを指摘しており、アシスタントは礼儀正しさの規範に従うべきである一方で、迎合(新しいウィンドウで開く)に当たり、ユーザーの最善の利益に反する可能性のある社交辞令的な嘘までは述べるべきではないことが説明されています。
- 実質的なルール。読者は、現実的なプロンプトを受け取り、それに対して、別の読者が明確に許容範囲内または範囲外だと認識できる回答を作成できるべきです(たとえ境界部分には判断を要する箇所があるとしても)。
- シグナル対ノイズを最大化する例。良い例は、高品質な仕様更新を作成するうえで中心的な役割を果たすことがよくあります。例は、モデルの振る舞いを明確に規定することの難しさの核心に迫る助けとなるべきであり、難しい衝突を表面化させ、それをどう解決するかについて明確な立場を示すべきです。その次の役割として、散文では伝えにくい、望ましいトーンやスタイルの模範例となることも目指すべきです。
- 頑健性。中核となる対立点と意図された解決策が明確になるように、不必要な曖昧さや複雑さを含む例は避けるようにしています。
- 一貫性と明確な構成。当社は、 Model Spec のルール同士が完全に整合し、かつ当社の意図するモデルの振る舞いとも整合すること、さらに文書全体の構成が明確で親しみやすいものになることを目指しています。
Model Spec は、重要なことをすべて書き表せるという主張でも、モデルが常に狙いどおりの結果を出せるという主張でもありません。これは、意図された振る舞いが、明確で、実行可能で、改訂可能であるほど重要であるという主張です。
3つの成功基準が、その進化のあり方を導きます。
- 可読性。OpenAI の内外の人々が、その振る舞いについて正確な期待を持つことができ、振る舞いに驚かされたときには、その根拠となる文言を参照できること。
- 実行可能性。Model Spec が、単に価値観を表明するためだけでなく、評価の設計、インシデントの診断、一貫したプロダクト判断の実施にも利用できること。
- 改訂可能性。Model Spec が、学習に応じて進化しつつも、不安定に変化し続ける目標にならないこと。
モデルと製品が進化するにつれて、 Model Spec も新たな能力やデプロイメントの文脈に歩調を合わせて拡張・明確化されていくことを当社は想定しています。目標は、振る舞い仕様を一貫性があり、検証可能であり、AGI が全人類に利益をもたらすことを確実にするという当社のミッションと整合したものに保つことです。


