2024年6月7日

ボイスエンジンの仕組みと安全性研究の拡大

音声合成モデルを支える技術の探求。

ピンク、オレンジ、紫、緑などのパステルカラーが混ざり合い、鮮やかな風景を想起させる抽象画。

読み込んでいます...

当社の取り組みの進展に関する最新情報を把握していただくため、Voice Engine の仕組みと当社の安全性研究について、より多くのインサイトを提供します。Voice Engine はカスタムボイスを作成できるモデルです。

最終的に私たち自身がこの技術を広く展開するかどうかに関わらず、世界中の人々がこの技術の方向性を理解することが重要です。そのため、このモデルがどのように機能するか、当社がそれをどのように研究や教育に利用しているか、そして、当社がどのようにこのモデルに関する安全性対策を実施しているのかを説明したいと思います。Voice Engine はまだ広く公開されてはいません。

Voice Engine の仕組み

この音声機能はテキスト読み上げ（TTS）モデルに基づいているので、テキストのみや15秒のサンプル音声から実際に人が話しているような音声を生成することができます。

TTS システムは、モデルが対になった音声と文字起こしから発話のニュアンスを理解することを支援することで開発されます。このモデルは、さまざまな声、アクセント、話し方を考慮して、与えられたテキスト原稿に対して話し手が発する可能性の高い音を予測するため学習します。この後、モデルはテキストの発話されたバージョンだけでなく、さまざまなタイプの話し手による発話方法を反映した発話も生成できます。

そこから TTS モデルで音声を生成するために必要なものは、話し手による15秒間の発話サンプルと対応するテキストのみです。モデルは特定の話し手用にファインチューニングされているわけではなく、モデルのカスタマイズは一切行われません。代わりに、拡散プロセスを採用し、ランダムノイズから始めて、15秒間の音声サンプルの話し手によるテキストの発話方法に近づけるため、徐々にノイズを除去します。

当社は、1年以上にわたってこのモデルを開発してきました

Voice Engine の開発は2022年後半に開始されました。初期段階には、Voice Engine モデルの能力と限界を評価するため、公開音声と非公開音声サンプルを混ぜたものを使用して社内でテストしました。この社内プロトタイプは、当社のアライメントと安全性の研究に不可欠であり、当社の安全対策のための情報を提供するものであり、技術フロンティアの理解に対する当社のコミットメントの延長線上にあります。

重要なことは、これらの出力は社内テスト用に用意されたものであり、当社の製品の原動力となるモデルの学習に使用されるものではないという点です。

反復型開発の枠組みの一部として、この初期のプロトタイプは、政策立案者による合成音声モデルの能力の理解をサポートする上でも貴重な役割も果たしました。たとえば、昨年の夏から、当社は世界の最高レベルの政策立案者にこの技術のポテンシャルを示し、それに伴うリスクについて議論しました。

2023年9月に⁠、ChatGPT の Voice Mode 機能に Voice Engine を使用しました。これらの機能には新たなリスクもあるため、当社はこの特定のユースケースに限って公開しました。Voice Mode は、2023年5月からプロの声優、タレント事務所、配役担当責任者、業界アドバイザーを含む詳細なプロセスを経て、厳選された⁠本物の声のみを使用して作成されました。

2023年年11月⁠に、Voice Engine を活用したシンプルな TTS API⁠（新しいウィンドウで開く）もリリースしました。当社は、プロの声優と協力して、API にプリセットされた6つの音声のそれぞれに対応する15秒の音声サンプルを作成する別の限定リリースを選択しました。たとえば、開発者はブログの記事を読み上げるためにこれをウェブサイトに組み込むことができます。

今年3月に⁠、Voice Engine のカスタム音声作成機能を、信頼できる少数のパートナーとともにプレビューしました。この取り組みは、合成音声の機能についての認識を高め、以下の目標をサポートすることを目的としていました。

銀行口座やその他の機密情報へのアクセスに対するセキュリティ対策として音声認証を段階的に廃止
AI における個人の声の利用を保護する政策の検討
AI 技術の能力と限界、偽りの AI コンテンツである可能性などについて一般の人に理解してもらうための教育
視聴覚コンテンツの出所を追跡する技術の開発と導入を加速し、実際の人間との対話か、AI との対話かを常に明確にする

これらの小規模な導入は、私たちのアプローチ、安全策、そしてさまざまな業界で Voice Engine をどのように活用できるかを考える上でも役立っています。

Voice Engine の安全な構築を最優先すること

引き続き、政府、メディア、エンターテインメント、教育、市民社会などさまざまな分野の米国および国際的なパートナーと連携し、その意見を反映させながら構築を進めています。

Voice Engine をテストしているパートナーは、同意のないなりすましを禁止し、元の話し手からの明確な承認を求める使用ポリシーに同意しており、AI が生成した音声についてはその旨を聞き手に開示することを義務付けています。また、技術の使用を追跡および監督するため、透かしや積極的なモニタリングなどの安全対策が施されています⁠。

将来の合成音声の安全性

ネイティブオーディオ機能を持つ GPT‑4o などのオムニモデルは、Voice Engine などの以前のモデルではできなかった新しいインタラクションを可能にします。また、GPT‑4o のオーディオモダリティは、特に音声生成において、いくつかの新たなリスクをもたらすことも認識しています。当社は GPT‑4o に関して積極的にレッドチームを組み、社会心理学、偏見と公平性、偽情報などのさまざまな分野にわたる既知のリスクと予期せぬリスクの両方を特定し、対処しています。モデルの挙動の改良、GPT‑4o のアーキテクチャへの既存のテキストベースシステムの適応、新しい分類子の開発などの多層的な軽減策を構築しています。

Voice Engine のリリースに対する慎重なアプローチに合わせて、GPT‑4o のオーディオ出力は、一般リリースのプリセットされた音声のみに限定しています。これらの音声は、慎重に検討されたキャスティングプロセスによって選ばれたプロの声優によって収録されました。近日公開予定の GPT‑4o System Card でオーディオ関連のリスクと軽減策についての追加情報を共有します。

著者

OpenAI