OpenAI は、安全で幅広い利益をもたらす AI の開発に取り組んでいます。本日は、テキスト入力と15秒の音声サンプル1つを使用して、元の話者に近い自然な音声を生成する Voice Engine というモデルの小規模プレビューから得られた予備的な洞察と結果を共有します。15秒のサンプル1つだけの小さなモデルで、感情豊かでリアルな音声を作成できるのは注目に値します。
私たちは2022年後半に初めて Voice Engine を開発し、これを使用して、テキスト読み上げ API(新しいウィンドウで開く) や ChatGPT Voice、Read Aloud で利用できるプリセット音声を強化しました。同時に、合成音声の誤用の可能性を考慮し、より広範なリリースに対しては慎重かつ情報に基づいたアプローチをとっています。私たちは、合成音声の責任ある導入と、社会がこれらの新しい機能にどのように適応できるかについて対話を開始したいと考えています。これらの会話と小規模なテストの結果に基づいて、このテクノロジーを大規模に展開するかどうか、またどのように展開するかについて、より情報に基づいた決定を下すことになります。
このテクノロジーの潜在的な用途をより深く理解するために、昨年末、信頼できるパートナーの小グループと非公開でテストを開始しました。私たちはこのグループが開発したアプリケーションに感銘を受けました。これらの小規模な導入は、私たちのアプローチ、安全策、そしてさまざまな業界で Voice Engine をどのように活用できるかを考える上で役立っています。初期の例としては次のようなものがあります。
- プリセット音声よりも幅広い話者の声を反映した、自然で感情的な音声を通じて、読書が苦手な方や子供たちに読書支援を提供します。子供たちの学業成績向上に取り組んでいる教育テクノロジー企業 Age of Learning(新しいウィンドウで開く) は、これを活用して、事前にスクリプト化されたナレーションコンテンツを生成しています。また、Voice Engine と GPT‑4 を使用して、生徒と対話するためのリアルタイムのパーソナライズされた応答を作成します。このテクノロジーにより、Age of Learning はより幅広い視聴者向けに、より多くのコンテンツを作成できるようになりました。
- 動画やポッドキャストなどのコンテンツを翻訳することで、クリエイターや企業は世界中のより多くの人々に、流暢かつ自分の声で届けることができます。これをいち早く導入した企業のひとつが HeyGen(新しいウィンドウで開く) です。同社は AI ビジュアルストーリーテリングプラットフォームで、エンタープライズの顧客と連携して、製品マーケティングから販売デモまで、さまざまなコンテンツ向けにカスタマイズされた人間のようなアバターを作成しています。同社は動画翻訳に Voice Engine を使用しているため、話者の音声を複数の言語に翻訳し、世界中の視聴者に届けることができます。翻訳に使用する場合、Voice Engine は元の話者のネイティブアクセントを保持します。たとえば、フランス語話者の音声サンプルを使用して英語を生成すると、フランス語アクセントの音声が生成されます。
- 遠隔地での重要なサービスの提供を改善することで、世界中のコミュニティにリーチします。Dimagi(新しいウィンドウで開く) は、地域の医療従事者が母乳育児中の母親へのカウンセリングなど、さまざまな重要サービスを提供するためのツールを構築しています。これらの労働者がスキルを伸ばせるように、Dimagi は Voice Engine と GPT‑4 を使用して、スワヒリ語や、ケニアで人気のコード混合言語である Sheng などのより非公式な言語を含む各労働者の主要言語でインタラクティブなフィードバックを提供します。
- 発話に影響を及ぼす症状を持つ人々に対する治療アプリケーションや、学習ニーズを持つ人々に対する教育強化など、非言語の人々をサポートします。AI 代替コミュニケーションアプリである Livox(新しいウィンドウで開く) は、障害を持つ人々のコミュニケーションを可能にする補助代替コミュニケーション(AAC)デバイスを強化します。Voice Engine を使用することで、言葉を話せない人々に、さまざまな言語による独特でロボット的でない音声を提供できるようになります。ユーザーは、自分を最もよく表す音声を選択でき、多言語ユーザーの場合は、各言語で一貫した音声を維持できます。
- 突然の発声障害や進行性の発声障害に苦しむ患者の声の回復を支援します。ブラウン大学医学部の主要な教育機関として機能する非営利の医療システムである Lifespan(新しいウィンドウで開く) のノーマン・プリンス神経科学研究所は、臨床現場での AI の活用を模索しています。同研究所は、発話障害の原因が腫瘍性または神経性である人々に Voice Engine を提供するプログラムを試験的に導入しています。Voice Engine に必要なのはごく短い音声サンプルなので、医師の Fatima Mirza 氏、Rohaid Ali 氏、Konstantina Svokos 氏の3名は、学校のプロジェクトで録画した動画の音声を使用して、血管性脳腫瘍のために流暢な会話ができなくなった若い患者の声を復元することができました。
私たちは、人々の声に似たスピーチを作成することには重大なリスクが伴うことを認識しており、これは選挙の年には特に懸念される点です。政府、メディア、エンターテインメント、教育、市民社会などさまざまな分野の米国および国際的なパートナーと連携し、その意見を反映させながら構築を進めています。現在 Voice Engine をテストしているパートナーは、同意や法的権利なしに他の個人または組織になりすますことを禁止する当社の利用ポリシーに同意しています。さらに、パートナーとの契約条件では、元の発言者からの明示的かつ十分な情報に基づく同意が必要とされており、開発者は個々のユーザーが独自の音声を作成する方法を構築することは許可されていません。またパートナーは、視聴者が聞いている音声が AI によって生成されたものであることを視聴者に明確に開示する必要もあります。最後に、Voice Engine によって生成された音声の出所を追跡するための透かしや、使用方法の積極的な監視など、一連の安全対策を実装しました。私たちは、合成音声技術を広く導入する際には、元の話者が自分の声を意図的にサービスに追加していることを確認する音声認証体験と、著名人に酷似している声の作成を検出して防止する禁止音声リストが伴うべきだと考えています。
Voice Engine は、技術的な最先端を理解し、AI で何が可能になるかをオープンに共有するという私たちの取り組みの一環です。AI の安全性に対するアプローチと自主的な取り組みに沿って、この技術をプレビューすることを選択しましたが、現時点では広く公開することはしていません。この Voice Engine のプレビューで、その可能性が強調されるとともに、さらに説得力のある生成モデルがもたらす課題に、社会の回復力を強化する必要性の促進になることを願っています。具体的には、次のような手順を推奨します。
- 銀行口座やその他の機密情報へのアクセスに対するセキュリティ対策として音声認証を段階的に廃止
- AI における個人の声の利用を保護する政策の検討
- AI 技術の能力と限界、偽りの AI コンテンツである可能性などについて一般の人に理解してもらうための教育
- 視聴覚コンテンツの出所を追跡する技術の開発と導入を加速し、実際の人間との対話か、AI との対話かを常に明確にする
最終的に私たち自身がこの技術を広く展開するかどうかに関わらず、世界中の人々がこの技術の方向性を理解することが重要です。私たちは、方針決定者、研究者、開発者、クリエイターの方々と、合成音声の課題と機会について引き続き話し合いを進めていきたいと考えています。