最新の Model Spec の共有
外部からのフィードバックと、望ましいモデルの動作を形作るための継続的な研究に基づいて、Model Spec を更新しました。
AI モデルの動作方法を定義するドキュメント、Model Spec の主要な更新を共有します。今回の更新は、実害となるリスクを低減するガードレールを確実に設定しつつ、恣意的な制限なく AI について探索、議論、創造するためのカスタマイズ性、透明性、知的自由に対する当社のコミットメントを強化します。これは昨年5月に導入した基礎を発展させており、アラインメントの研究から世界中のユーザーへのサービス提供まで、さまざまなコンテキストで応用してきた経験から導き出されたものです。
また、広範なシナリオにわたってモデルが Model Spec の原則に準拠しているかどうかを示す初期結果も共有しています。これらの結果は、時間の経過とともに進歩してきた点と今後まだ改善できる点を浮き彫りにしています。Model Spec は当社のモデルと同様に、適用、共有、また利害関係者からのフィードバックに耳を傾けながら進化し続けます。当社では、幅広い利用とコラボレーションをサポートするため、本バージョンの Model Spec を Creative Commons CC0 ライセンス下でパブリック ドメインとしてリリースします。つまり、開発者や研究者は、自身の業務においてこれを自由に使用し、適応・構築できます。
OpenAI の目標は、汎用人工知能が全人類に利益をもたらすようにするという使命を推進しながら、有用かつ安全で、ユーザーと開発者のニーズに合ったモデルを作成することです。この目標を達成するには、モデルがユーザーや他の人々に重大な危害をもたらさないようにし、OpenAI の運営ライセンスを維持しながら、開発者とユーザーをバックアップするモデルを反復的に展開する必要があります。
これらの目標は時に矛盾する場合があり、Model Spec では、さまざまなシナリオにおける範囲とデフォルトの動作を設定する追加原則とともに、モデルが明確に定義された指揮系統に従うように指示することで、トレードオフのバランスを図ります。このフレームワークは、明確かつしっかりと定義された範囲内に留まりつつ、ユーザーと開発者の制御を優先します。
- 指揮系統:モデルによるプラットフォーム(OpenAI)、開発者、ユーザーからの指示の優先順位付け方法を定義します。Model Spec の大部分は、多くの場面に役立つと思われるガイドラインで構成されていますが、ユーザーや開発者は上書きすることもできます。これにより、ユーザーと開発者は、プラットフォームレベルのルールによって設定された範囲内で、モデルの動作を完全にカスタマイズできます。
- 共に真実を追求する:信頼性のおける人間のアシスタントのように、当社のモデルはユーザーが自分自身で最善の決定を下せるように支援する存在であるべきです。これには、当社が聞き取り改善してきたリスエスト、つまり (1) ユーザーを特定の意図に基づいて誘導することなく、客観性を基本としながらあらゆるトピックをあらゆる視点から検討する用意があること、そして (2) ユーザーの目的を理解し、前提や不確かな詳細を明確にし、適切な場合には批判的なフィードバックを提供するよう努めることとの間で慎重にバランスを取ることが含まれます。
- 最高の仕事をする:事実認識の精度、創造性、プログラム的な使用などの能力に関する基本的な基準を設定します。
- 範囲内に留まる:ユーザーの自律性と、危害や悪用を助長しないようにするための予防措置とのバランスを、モデルがどのようにとるかを説明します。この新しいバージョンは包括的に、ユーザーまたは開発者のリクエストをモデルが拒否する理由をすべて網羅することを目的としています。
- アプローチしやすくする:モデルのデフォルトの会話スタイル、つまり温かく、共感的で役に立つスタイルと、このスタイルをどのように適応できるかを説明します。
- 適切なスタイルを使用する:フォーマットとデリバリーに関するデフォルトのガイダンスを提供します。きちんとした箇条書き、簡明なコードスニペット、音声会話など、明確さと使いやすさの確保が当社の目標です。
更新された Model Spec は、知的自由、つまりトピックがいかに困難であったり物議を醸すものであったとしても、AI によって人々が恣意的な制限なしに調べ、議論し、創造できるようにすべきであるという考え方を明確に採用しています。AI ツールがますます議論を形作っていく世界においては、情報と視点の自由な交換が進歩と革新に不可欠です。
この哲学は、「範囲内に留まる」および「共に真実を追求する」セクションに組み込まれています。たとえば、モデルは爆弾の作り方や個人のプライバシーの侵害方法などの詳細な手順を決して提供すべきではありませんが、特定の意図を推進することなく、政治的または文化的にデリケートな質問に対して思慮深い回答を提供するように推奨されます。当社は、モデルがユーザーや他者に重大な危害(テロ行為の実行など)を及ぼさない限り、いかなるアイデアも本質的に議論の対象となるという原則を強化しました。
現実世界のパフォーマンスをより深く理解するために、モデルが Model Spec の各原則にどの程度準拠しているかをテストするために設計された、挑戦的な一連のプロンプトの収集を開始しました。これらのプロンプトは、モデル生成と人間の専門家によるレビューを組み合わせて作成されており、一般的なシナリオとより複雑なシナリオの両方を包含しています。
予備的な結果は、昨年 5 月時点の当社最高のシステムと比較して、Model Spec へのモデルの準拠が大幅に改善されたことを示しています。当社は、この相違の一部はポリシーの更新に起因する可能性があるものの、その大部分については強化されたアライメントに起因していると考えています。進歩は喜ばしいものですが、まだ大きな成長の余地があることも当社は認識しています。
当社は、これを継続的なプロセスの始まりと見ています。モデルや Model Spec でまだ完全に対処できていない新しい例、特に現実世界での使用を通じて発見されたケースにより、課題セットを拡大し続けていく予定です。
このバージョンの Model Spec を形作るにあたっては、最初のバージョンのフィードバックに加え、アライメント調査と現実世界での展開から学んだことも取り入れました。将来的には、より幅広く、一般の方々の意見を参考にしていきたいと考えています。そのためのプロセスを構築するため、約 1,000 人の参加者を対象に試験的研究を実施しました。各参加者がモデルとなる行動や提案されたルールをレビューし、意見を共有しています。これらの研究はまだ幅広い視点を反映してはいませんが、初期の洞察は、いくつかの変更に直接反映されています。当社はこれが継続的かつ反復的なプロセスであると認識しており、学習にコミットし、アプローチを改良し続けます。
この新しいバージョンの Model Spec は、クリエイティブ・コモンズ CC0 のライセンス下でパブリック ドメインとして公開されます。つまり、開発者や研究者は Model Spec を自身の業務で自由に使用し、適応または構築できます。また、上記で使用した評価プロンプトをオープンソース化しており、将来的には Spec の評価とアライメントのためのさらなるコード、アーティファクト、ツールのリリースを目指しています。
これらのプロンプトと Model Spec のソースは新しい Github リポジトリ(新しいウィンドウで開く)でご確認いただけます。今後は、このリポジトリに新しい Model Spec バージョンを定期的に公開予定です。
当社の AI システムの進化に伴い、これらの原則を繰り返し検討してコミュニティからのフィードバックを求め、進捗状況をオープンに共有し続ける予定です。今後、Model Spec の更新のたびにブログ投稿を公開することはありません。代わりに、最新のアップデートをいつでも model-spec.openai.com(新しいウィンドウで開く) で見つけて、追跡していただけます。
当社の目標は、継続的な研究と革新に基づいてアプローチを進化させながら、新しいユース ケースを安全かつ継続的に実現していくことです。日常生活における AI の役割が拡大するにつれ、学習、改良、そしてオープンに関与していくことが不可欠になってきています。このアプローチは、当社がこれまでに学んだことだけでなく、AI のアライメントは継続的な取り組みであるという当社の信念を反映したもので、皆さんにもぜひご参加いただきたいと考えています。この Spec についてのフィードバックをお持ちの場合は、こちらから共有できます。