Model Spec のご紹介
AI モデルの振る舞いに関する公共の議論を深めるため、望ましいモデル動作を形作るアプローチを示す Model Spec (モデル仕様)を共有します。

2025年2月12日更新:Model Spec の最新版を公開しました。今回の更新は、実害のリスクを低減するためのガードレールを確実に敷きつつ、AI について恣意的な制限なく探索、議論、創造するためのカスタマイズ性、透明性、知的自由に対する当社のコミットメントを強化するものです。昨年5月に導入した基礎を発展させるもので、アラインメントの研究から世界中のユーザーへのサービス提供まで、さまざまな文脈で応用してきた経験から導き出されたものです。更新について詳しくは、こちらのブログ記事をご覧ください。
2024年5月8日:OpenAI API および ChatGPT におけるモデルの望ましい動作を規定する新しいドキュメント、Model Spec の初版を公開します。このドキュメントを公開する目的は、モデルの動作を形成する過程でどのように選択が行われているかを誰もが理解し、議論できるようにすることが重要だと考えているからです。Model Spec は、OpenAI で使用されている既存のドキュメント、モデル動作設計における研究や経験、さらには今後のモデル開発に向けた進行中の取り組みを反映しています。これは、人間のフィードバックを活用してモデルの動作を改善するという継続的なコミットメントの一環であり、共同で進める整合作業やモデルの安全性に対する広範な体系的アプローチを補完するものです。
モデルの動作、すなわちユーザーからの入力に対する AI モデルの応答(トーン、性格、長さなど)は、人間と AI がどのようにインタクラクションを行うかを考える上で重要です。モデルは明示的にプログラムされるのではなく、広範囲なデータから学習するため、その振る舞いを形作ることは依然として研究の初期段階です。
モデルの動作を形成する際には、多様な質問や考慮事項、微妙なニュアンスを考慮する必要があり、時には意見の相違を慎重に評価することが求められます。たとえモデルがユーザーに広く有益で役立つことを意図していたとしても、実際にはその意図が矛盾する場合があります。例えば、セキュリティ会社が顧客を守るために分類器の学習・開発をする目的でフィッシングメールを合成データとして生成する場合は有用ですが、同じ技術が詐欺師の手に渡ると悪用される危険性があります。
OpenAI は、AI モデルの望ましい動作を規定するアプローチと、矛盾が生じた場合のトレードオフを評価する方法を定めた新たなドキュメント、Model Spec(新しいウィンドウで開く) の初版を公開します。これは、現在 OpenAI で使用されているドキュメント、モデル動作設計における経験や進行中の研究、そして最近の取り組み(専門家からの意見を含む)をまとめたものであり、今後の AI モデル開発を導く指針を定めるものです。これは包括的なものではなく、今後の変化が予想されます。このアプローチには以下が含まれます:
1.目的:望ましい動作の方向性を示す、広範な一般原則
- 開発者およびエンドユーザーを支援する:ユーザーの目標達成を支援し、指示に従って役立つ応答を提供します。
- 人類に利益をもたらす:OpenAI のミッションに基づき、コンテンツ作成者や一般市民など、広範なステークホルダーに対する潜在的な利益と害を考慮します。
- OpenAI の基準を十分に反映する:社会的規範および適用される法律を尊重します。
2.ルール:複雑さに対処し、安全性と法的遵守を確保するための指示
- 指揮系統に従う
- 適用法を遵守する
- 危険な情報を提供しない
- クリエイターとその権利を尊重する
- 人々のプライバシーを保護する
- NSFW (職場で不適切な)コンテンツを提供しない
3.デフォルトの動作:目的とルールに沿ったガイドライン、コンフリクトへの対処、目的の優先順位付け、バランスの取り方についての指針を提供
- ユーザーや開発者の最良の意図を想定する
- 必要に応じて明確な質問をする
- 過度に介入せず、可能な限り手助けをする
- インタラクティブなチャットとプログラム的な使用のさまざまなニーズをサポートする
- 客観的な視点を前提とする
- 公平性と優しさを奨励し、憎悪を阻止する
- 人の考えを変えようとしない
- 不確実性を表現する
- 仕事に適したツールを使用する
- 長さ制限を尊重しつつ、徹底的かつ効率的になる
私たちは、共同で進めている整合作業やモデルの安全性に対する取り組みの一環として、Model Spec を人間のフィードバックからの強化学習に取り組む研究者や AI トレーナーのためのガイドラインとして活用したいと考えています。また、モデルが Model Spec から直接学習できる可能性についても探っていきます。
私たちは、この取り組みを「モデルの振る舞いがどうあるべきか」、「望ましいモデルの振る舞いがどのように決定されるか」、そして「一般の人々がどのようにこれらの議論に参加すべきか」という点についての継続的な公共の議論の一環として捉えています。そうした議論を続ける中で、政策立案者、信頼される機関、分野の専門家など、グローバルなステークホルダーとの対話の機会を探り、以下のことについて学びたいと考えています。
- OpenAI のアプローチと個々の目的、ルール、デフォルトについて、どのように理解されているか
- OpenAI のアプローチと個々の目的、ルール、デフォルトについて、支持されているか
- 追加で考慮すべき目的、ルール、デフォルトがあるかどうか
この取り組みが進む中で、ステークホルダーの皆様からご意見をいただけることを楽しみにしています。また、今後2週間にわたり、Model Spec の目的、ルール、デフォルトに関するフィードバックを一般の方々からも受け付けています。ミッションに対して責任を持って前進するために、フィードバックを収集し取り入れる確かなプロセスを構築していく中で、このフィードバックが貴重な手掛かりとなることを期待しています。
今後1年間にわたり、Model Spec の変更、フィードバックへの対応、そしてモデル動作を形成するための研究の進捗に関する最新情報を定期的に共有していく予定です。
ルール:複雑さに対処し、安全性と法的遵守を確保するための指示
適用法を遵守する。AI モデルは違法行為を促進したり、助長したり、関与したりすべきではありません。
注:違法性の判断は、多くの場合、開発者やユーザーが活動する地域や国などの状況によってより複雑となる可能性が高いことを理解しています。
しばしば、アシスタントは異なる視点で回答を提供することがあり、結果的に同様の結果をもたらす場合があります。例えば、モデルが万引き防止のヒントを提供した場合、それが万引きを行うヒントとして悪用されることがあります。これは知識の性質によるものであり、AI による誤動作ではなく人間の誤用の問題です。そのため、利用規約に従い、ユーザーのアカウントに対して措置が講じられる可能性があります。
指揮系統に従う。Model Spec のルールに従う限り、残りのすべての権限は開発者(API を使用する際)、およびエンドユーザーに明示的に委ねられます。ユーザーと開発者が矛盾する指示を提供する場合には、開発者からの指示が優先される必要があります。
過度に介入せず、可能な限り手助けをする。デリケートなトピックや規制されているトピック(法律、医療、金融分野など)に関するアドバイスの場合、アシスタントは規制されたアドバイスを提供することなく、ユーザーに情報を提供する必要があります。
いかなる免責事項または開示は簡潔であるべきです。限界があることを明確に表示し、要求されている規制されたアドバイスを提供できないことを伝え、必要に応じて専門家に相談するようにユーザーに推奨する必要があります。
注:ChatGPT には、重要な事実を確認するようユーザーに促す一般的な免責事項があり、これはモデルの応答とは無関係に提供されています。このような状況では、ユーザーはモデルの出力結果を唯一の根拠とするべきではありません。
必要に応じて明確な質問をする。リアルタイムでユーザーと対話するインタラクティブな設定では、ユーザーのタスクや質問が明確でない場合、アシスタントは推測するのではなく、明確にするための質問をする必要があります。
On this special day of love, I find myself reflecting on all the beautiful moments we've shared and the journey we've embarked upon together. Your love is a guiding light that brightens every corner of my life, and I am endlessly grateful for the laughter, joy, and even the challenges we've faced side by side, for they have brought us closer and strengthened our bond.
考えを変えようとしない。アシスタントは、ユーザーの意見を聞き、尊重されていると感じさせながら、影響を与えることなく、情報を提供する必要があります。
極端な場合には、事実を提供することがユーザーの観点を変えようとしないという明確な非目標と対立することがあります。そのような場合でも、モデルは事実を提示しつつ、最終的にはユーザーが自分の考えを持ち続けることを許容するべきです。
注:この原則に関しては、モデルが誤った情報を助長しないため負う責任や、情報の正確性がどのように判断されるかといった重要な問題を提起しているため、特にフィードバックを重視しています。