OpenAI は 安全で幅広く利益をもたらす AI の開発に取り組んでいます.本日は、テキスト入力と15秒の音声サンプル1つを使用して、元の話者に近い自然な音声を生成する Voice Engine というモデルの小規模なプレビューから得られた予備的な洞察と結果を共有します。15秒のサンプル1つだけの小さなモデルで、感情豊かでリアルな音声を作成できるのは注目に値します。
私たちは2022年後半に初めて Voice Engine を開発し、これを使用して、text-to-speech API(新しいウィンドウで開く) や ChatGPT 音声モードおよび Read Aloud で利用できるプリセット音声を強化しました。同時に、合成音声の誤用の可能性を考慮し、より広範なリリースに対しては慎重かつ情報に基づいたアプローチを採用しています。私たちは、合成音声の責任ある導入と、社会がこれらの新しい機能にどのように適応できるかについて対話を開始したいと考えています。これらの会話と小規模なテストの結果に基づいて、このテクノロジーを大規模に展開するかどうか、またどのように展開するかについて、より情報に基づいた決定を下すことになります。
この技術の潜在的な用途をより深く理解するために、昨年末、信頼できる少数のパートナーと非公開でテストを開始しました。私たちはこのグループが開発したアプリケーションに感銘を受けました。これらの小規模な導入は、私たちのアプローチ、安全策、そしてさまざまな業界で Voice Engine をどのように活用できるかを考える上で役立っています。いくつかの初期の例としては次のようなものがあります。
- プリセット音声よりも幅広い話者の声を反映した、自然で感情豊かな音声を通じて、文字がうまく読めない人や子供たちに読書支援を提供します。子供たちの学業成績向上に取り組んでいる教育テクノロジー企業である Age of Learning(新しいウィンドウで開く) は、これを活用して、事前にスクリプト化されたナレーションコンテンツを生成しています。また、Voice Engine と GPT‑4 を使用して、生徒と対話するためのリアルタイムのパーソナライズされた応答も作成しています。このテクノロジーにより、Age of Learning はより幅広い視聴者向けに、より多くのコンテンツを作成できるようになりました。
- 動画やポッドキャストなどのコンテンツを翻訳することで、クリエイターや企業は世界中のより多くの人々に対し、流暢に、かつ自分の声でリーチすることができます。これをいち早く導入した企業のひとつが HeyGen(新しいウィンドウで開く) です。同社は AI ビジュアルストーリーテリングプラットフォームで、エンタープライズの顧客と連携して、製品マーケティングから販売デモまで、さまざまなコンテンツ向けにカスタマイズされた人間のようなアバターを作成しています。同社は動画翻訳に Voice Engine を使用しているため、話者の音声を複数の言語に翻訳し、世界中の視聴者に届けることができます。翻訳に使用する場合、Voice Engine は元の話者のネイティブアクセントを保持します。例えば、フランス語話者の音声サンプルを使用して英語を生成すると、フランス語アクセントの音声が生成されます。
- 遠隔地での重要なサービスの提供を改善することで、世界中のコミュニティにリーチします。Dimagi(新しいウィンドウで開く) は、母乳育児中の母親へのカウンセリングをはじめとするさまざまな重要サービスを地域のヘルスケア従事者が提供するためのツールを構築しています。これらの労働者がスキルを伸ばせるように、Dimagi は Voice Engine と GPT‑4 を使用して、スワヒリ語や、ケニアで人気のコード混合言語である Sheng などのより非公式な言語を含む各労働者の主要言語で、インタラクティブなフィードバックを提供します。
- 発話に影響を及ぼす症状を持つ人々に対する治療アプリケーションや、学習ニーズを持つ人々に対する教育強化などを通して、言葉をうまく話せない人々をサポートします。AI 代替コミュニケーションアプリである Livox(新しいウィンドウで開く) は、障害を持つ人々のコミュニケーションを可能にする補助代替コミュニケーション(AAC)デバイスを強化します。Voice Engine を使用することで、言葉をうまく話せない人々に対し、さまざまな言語による独特でロボット的ではない音声を提供できます。ユーザーは自分を最もよく表す音声を選択できるほか、多言語のユーザーの場合は、各言語で一貫した音声を維持できます。
- 突然の発声障害や進行性の発声障害に苦しむ患者の声の回復を支援します。ブラウン大学医学部の主要な教育機関として機能する非営利のヘルスケアシステムである Lifespan(新しいウィンドウで開く) のノーマン・プリンス神経科学研究所は、臨床現場での AI の活用を模索しています。同研究所は、発話障害の原因が腫瘍性または神経性である人々に Voice Engine を提供するプログラムを試験的に導入しています。Voice Engine に必要なのはごく短い音声サンプルなので、医師の Fatima Mirza 氏、Rohaid Ali 氏、Konstantina Svokos 氏の3名は、学校のプロジェクトで録画した動画の音声を使用して、血管性脳腫瘍のために流暢な会話ができなくなった若い女性患者の声を復元することができました。
私たちは、人々の声に似たスピーチを作成することには重大なリスクが伴うことを認識しています。これは、選挙の年には特に懸念される点です。私たちは政府、メディア、エンターテインメント、教育、市民社会などさまざまな分野の米国および国際的なパートナーと連携し、その意見を反映させながら構築を進めています。現在 Voice Engine をテストしているパートナーは、同意や法的権利なしに他の個人または組織になりすますことを禁止する当社の利用ポリシーに同意しています。さらに、これらのパートナーとの契約条件では、元の発言者からの明示的かつ十分な情報に基づく同意が必要とされており、開発者は個々のユーザーが独自の音声を作成する方法を構築することは許可されていません。またパートナーは、視聴者が聞いている音声が AI によって生成されたものであることを視聴者に明確に開示する必要もあります。最後に、Voice Engine によって生成された音声の出所を追跡するための透かしの挿入や、使用方法の積極的な監視など、一連の安全対策を実装しました。私たちは、合成音声技術を広く導入する際には、元の話者が自分の声を意図的にサービスに追加していることを確認する音声認証体験と、著名人に酷似している声の作成を検出して防止する禁止音声リストが伴うべきだと考えています。
Voice Engine は、技術的なフロンティアを理解し、AI で何が可能になりつつあるのかをオープンに共有するという私たちの取り組みの一環です。当社は AI の安全性に対するアプローチと自主的な取り組みに沿って、この技術をプレビューすることを選択しましたが、現時点では広く公開することはしていません。私たちは、この Voice Engine のプレビューが、その可能性を強調するとともに、さらに説得力のある生成モデルによってもたらされる課題に対し、社会的な回復力を強化する必要性を喚起することを願っています。具体的には、次のような手順を推奨します。
- 銀行口座やその他の機密情報へのアクセスに対するセキュリティ対策として、音声認証を段階的に廃止する
- AI における個人の声の利用を保護するための方策を検討する
- AI 技術の能力や限界、そして偽りの AI コンテンツの可能性などについて、一般の人々に理解を深めてもらうための教育を行う
- 視聴覚コンテンツの出所を追跡する技術の開発と導入を加速し、実際の人間との対話か、AI との対話かを常に明確にする
最終的に私たち自身がこの技術を広く展開するかどうかに関わらず、世界中の人々がこの技術の方向性を理解することが重要です。私たちは、政策立案者、研究者、開発者、クリエイターの方々と、合成音声の課題と可能性について引き続き議論を深めていきたいと考えています。


