DALL·E 2 における偏見の削減と安全性の向上

当社は、DALL·E が世界中の人々の多様性を更に正確に反映した人々の画像を生成できるように、新たなテクニックを実装しています。このテクニックは、DALL·E が「消防士」などのように人種や性別を指定せずに人物を描写するプロンプトを与えられた場合に、システムレベルで適用されます。

当社の内部評価に基づくと、このテクニックが適用された場合、利用者が DALL·E の画像に多様な背景を持つ人々が含まれていると言う見込みが12倍になりました。当社は、時間をかけて更に多くのデータとフィードバックを集めながら、このテクニックを改善させていく予定です。

4月には人数を限定して DALL·E 2 研究のプレビューを開始しました。このプレビューによって、このシステムの能力と限界に関する理解を更に深め、安全システムを改善することができました。

このプレビュー段階では、早期利用者がセンシティブな画像や偏見のある画像にフラグを立てました。これが新たな緩和策の情報源となり、緩和策の評価の助けとなりました。

当社は、DALL·E のような AI システムがどのように学習データ内の偏見を反映する可能性があるかについて、そしてそういったことに当社が対処できる様々な方法について、これからも研究を続けていきます。

この研究プレビューでは、以下のようなことを含め、安全システムを改善するための他の措置も講じました：

リアルな顔を含む画像のアップロードを排除することによって人の目を欺こうとするコンテンツを作るために DALL·E が悪用されるリスクと、セレブリティや有名政治家を含む有名人の肖像を作り出そうとする試みを最小化すること。
クリエイティブな表現を引き続き可能にしながらも、当社のコンテンツポリシー⁠（新しいウィンドウで開く）に違反するプロンプトや画像のアップロードをブロックする上で更に効果的になるように、コンテンツフィルターを更に正確にすること。
悪用を防止するために自動のモニタリングと人間によるモニタリングを洗練させること。

これらの改善によって、更に多くの利用者の皆様に DALL·E の使用をお勧めすることに自信を深めることができました。

アクセスを拡大することは、当社の責任ある AI システムの展開⁠において重要な部分です。なぜなら、そうすることによって、現実世界での利用方法について更に学ぶことができ、安全システム上における反復を継続できるからです。

著者