2024年6月6日

GPT‑4 から概念を抽出する

当社は新しい拡張可能な方法を使用して、GPT‑4 の内部表現を1600万個の解釈しやすいパターンに分解しました。

読み込んでいます...

現在、言語モデル内の神経活動をどう理解するべきかは分かっていません。本日、当社は、多数の「特徴」、つまり人間が解釈可能な活動のパターンを見つけるための改善された方法を共有します。当社の方法は、既存の研究よりも拡張性が高く、それを使用して GPT‑4 で1600万個の特徴を見つけます。論文⁠（新しいウィンドウで開く）、コード⁠（新しいウィンドウで開く）、特徴の可視化⁠（新しいウィンドウで開く）を研究コミュニティと共有し、さらなる探求を促進します。

ニューラルネットワークの解釈の課題

多くの人間の創造物とは異なり、ニューラルネットワークの内部構造を完全に理解することはできません。たとえば、エンジニアは部品の仕様に基づき自動車を直接設計、評価、修理し、安全性とパフォーマンスを確保できます。しかし、ニューラルネットワークを直接設計するのではなく、その学習を行うアルゴリズムを設計することになります。その結果として得られるネットワークは完全には理解できず、識別可能な部分に簡単に分解することもできません。そのため、自動車の安全性と同じように AI の安全性について論理的に思考するすることはできません。

ニューラルネットワークを理解し、解釈するには、まず神経計算のための有用な構成要素を見つける必要があります。残念ながら、言語モデル内部の神経活性は予測不可能なパターンで活性化し、一見、多くの概念を同時に表現しています。また、高い密度で活性化されるため、各入力に対して各活性化が常に適用されます。しかし、現実の概念は非常にスパースであり、どのような文脈でも、関連しているのはすべての概念の内ごく一部です。そこで、スパースオートエンコーダの出番です。スパースオートエンコーダは、任意の出力の生成に重要となる、ニューラルネットワーク内のほんの一握りの「特徴」を識別するための方法の1つであり、それは人が状況について論理的に思考するときに想起する概念の小さな集合に似ています。その特徴は、解釈可能性の直接的なインセンティブがなくても、人間が理解しやすい概念に自然に沿ったスパースな活性化パターンを示します。

スパースオートエンコーダが密度の高い神経活動をスパースな特徴に符号化および復号する様子を示す図。

ただし、スパースオートエンコーダの学習にはまだ深刻な課題があります。大規模な言語モデルは膨大な数の概念を表しており、オートエンコーダはフロンティアモデルの概念を完全にカバーするほど大規模にする必要があるかもしれません。多数のスパースな特徴を学習することは困難であり、過去の取り組みは上手く拡張できませんでした。

研究の進展：大規模なオートエンコーダの学習

当社は、フロンティア AI モデルにおいてスパースオートエンコーダを数千万個の特徴に拡張できる新しい最先端の方法論を開発しました。当社は、私たちの方法論が、以前の技術よりも優れた規模のリターンによりスムーズかつ予測可能な拡張を示すことを発見しました。また、特徴の質を評価するための新しいメトリクスをいくつか紹介すします。

GPT‑4 での1600万個の特徴オートエンコーダを含む、GPT‑2 small と GPT‑4 活性化でのさまざまなオートエンコーダの学習に、当社のレシピを使用しました。特徴の解釈可能性をチェックするため、与えられた特徴を、それが活性化する文書を表示することで可視化します。当社が発見した解釈可能な特徴を以下に示します。

GPT-4 feature: phrases relating to things (especially humans) being flawed

全画面を表示

most people, it isn’t. We all have wonderful days, glimpses of what we perceive to be perfection, but we can also all have truly shit-tastic ones, and I can assure you that you’re not alone. So toddler of mine, and most other toddlers out there, remember; Don’t be a

has warts. What system that is used to build real world software doesn't? I've built systems in a number of languages and frameworks and they all had warts and issues. How much research has the author done to find other solutions? The plea at the end seemed very lazywebish to me

often put our hope in the wrong places – in the world, in other people, in our abilities or finances – but all of that is like sinking sand. The only place we can find hope is in Jesus Christ. These words by Kutless tell us just where we need to go to find hope. I lift my

churches since the last Great Reformation has also become warped. I state again, while churches are formed and planted with the most Holy and Divine of inspirations, they are not free from the corruption of humanity. While they are of our great and perfect Father, they are on an imperfect Earth. And we Rogues are

perfect. If anyone does not believe that let them say so. You really do appear to be just about a meter away from me. But you are actually in my brain. What artistry! What perfection! Not the slightest blurring. And in 3-D. Sound is also 3-D. And images.

他にも興味深い特徴がたくさん発見されており、こちらでご覧いただけます⁠（新しいウィンドウで開く）。

制限

当社は、解釈可能性によって最終的にモデルの信頼性と操縦可能性を高まると期待しています。ただし、これはまだ初期段階の取組みであり、以下のように多くの限界があります。

以前の取り組みと同様、発見された特徴の多くはまだ解釈が難しく、明確なパターンなく活性化したり、通常は符号化すると思われる概念とは無関係な偽の活性化を示したりするものが多くなっています。さらに、解釈の妥当性をチェックする良い方法がありません。
スパースオートエンコーダは、元のモデルのすべての挙動を捕捉するわけではありません。現在、スパースオートエンコーダを通して GPT‑4 を活性化すると、約10倍少ないコンピューティングで、学習を行ったモデルと同等のパフォーマンスが得られます。フロンティア LLM の概念を完全にマッピングするには、特徴の数を数十億から数兆個まで拡張する必要があるかもしれませんが、これは当社が改良した拡張技術を利用しても難しいでしょう。
スパースオートエンコーダは、モデルのある時点の特徴を発見できますが、それはモデルの解釈への一歩に過ぎません。モデルがこれらの特徴をどのように計算し、その特徴がどのようにモデルの残りの部分において下流で使用されるかを理解するには、さらなる取り組みが必要です。

将来に向けて研究をオープンソース化する

スパースオートエンコーダの研究はエキサイティングですが、多くの未解決の課題があり、道のりはまだまだ長いです。短期的には、当社が発見した特徴が、言語モデルの挙動のモニタリングと操縦に実践的に役立つことを期待しており、これをフロンティアモデルでテストする予定です。最終的には、解釈可能性によってモデルの安全性とロバスト性について論理的に思考する新たな方法が得られ、強力な AI モデルの挙動について強力な保証を与えることで、その信頼性を大幅に向上させることになると期待しています。

本日、当社は当社の実験と方法を詳しく紹介する論文⁠（新しいウィンドウで開く）を共有します。研究者の方が大規模なオートエンコーダの学習を行う上でお役に立てば幸いです。当社は、GPT‑2 small 向けのオートエンコーダのフルスイートと、それを使用するためのコード⁠（新しいウィンドウで開く）、そして GPT‑2 と GPT‑4 の特徴が対応する可能性があるものを知るための特徴ビジュアライザー⁠（新しいウィンドウで開く）をリリースします。

著者

Jeffrey Wu、Leo Gao、Tom Dupré la Tour、Henk Tillman

謝辞

Taya Christianson、Elizabeth Proehl、Yo Shavit、Niko Felix、Cathy Yeh、Gabriel Goh、Rajan Troll、Alec Radford、Jan Leike、Ilya Sutskever、David Robinson、Greg Brockman