2024年3月29日

探索合成語音的挑戰與機會

我們正在分享從語音引擎的小規模預覽中獲得的經驗，語音引擎是一個用於創建自訂語音的模型。

載入中…

OpenAI 致力於開發安全且能廣泛造福的 AI⁠.今天，我們分享一項名為 Voice Engine 的模型在小規模預覽中所獲得的初步洞見與結果；該模型使用文字輸入與單一 15-second 音訊樣本，生成自然聽起來的語音，且與原始說話者高度相似。值得注意的是，小型模型只需一段 15-second 樣本，就能創造出富有情感且逼真的聲音。

我們在 2022 年底首次開發 Voice Engine，並已用它來驅動文字轉語音 API⁠(在新視窗中開啟) 中提供的預設語音，以及 ChatGPT 語音和朗讀⁠。同時，鑑於合成語音可能遭到濫用，我們對更廣泛的發布採取審慎且充分知情的方法。我們希望就合成語音的負責任部署展開對話，並探討社會如何適應這些新能力。根據這些對話以及這些小規模測試的結果，我們將能更有依據地決定是否以及如何大規模部署這項技術。

語音引擎的早期應用

為了更深入瞭解這項技術的潛在用途，去年年底我們開始與一小群可信賴的合作夥伴私下進行測試。我們對這個團隊所開發的應用程式印象深刻。這些小規模部署有助於指引我們的做法、防護措施，以及我們對 Voice Engine 如何能在各個產業中發揮正向作用的思考。以下舉幾個早期例子：

提供閱讀輔助 透過自然流暢、富有情感的語音，為不識字者與兒童提供協助，並呈現比預設語音所能提供更廣泛的說話者範圍。Age of Learning⁠(在新視窗中開啟) 是一家致力於兒童學業成功的教育科技公司，一直使用此技術來生成預先撰寫的旁白內容。他們也使用語音引擎和 GPT‑4 來建立即時、個人化的回應，以與學生互動。透過這項技術，Age of Learning 得以為更廣泛的受眾創作更多內容。

翻譯內容，例如影片和 Podcast，讓創作者和企業能以流利且保有自身聲音的方式觸及全球更多人。其中一個早期採用者是 HeyGen⁠(在新視窗中開啟)，這是一個 AI 視覺敘事平台，與其企業客戶合作，為各式內容打造客製化、擬真的人像虛擬分身，涵蓋從產品行銷到銷售示範等多種用途。他們使用 Voice Engine 進行影片翻譯，因此能將講者的聲音翻譯成多種語言，並觸及全球受眾。用於翻譯時，Voice Engine 會保留原始說話者的母語口音：例如，使用法國說話者的音訊樣本來生成英文時，產生的語音會帶有法國口音。

載入中...

接觸到全球社區，透過改善偏遠地區的基本服務提供。Dimagi⁠(在新視窗中開啟) 正在打造工具，協助社區健康工作者提供各式各樣的基本服務，例如為哺乳中的母親提供諮詢。為了協助這些工作者培養技能，Dimagi 利用 Voice Engine 和 GPT‑4，以每位工作者的主要語言提供互動式回饋，包括斯瓦希里語，或像 Sheng 這類較不正式的語言；Sheng 是一種在肯亞很受歡迎的混合語碼語言。

載入中...

支援非口語溝通者，例如為受影響語言表達的個人提供治療性應用，以及為有學習需求者提供教育增強。Livox⁠(在新視窗中開啟)，一款 AI 替代性溝通應用程式，為擴大與替代性溝通 (AAC) 裝置提供支援，讓身心障礙者能夠溝通。透過使用 Voice Engine，他們能夠為無法口語表達的人提供跨多種語言的獨特且不具機器感的聲音。他們的使用者可以選擇最能代表自己的語音，而對於多語言使用者，則能在每種口語語言中維持一致的聲音。

載入中...

協助病患重拾聲音，適用於因突發或退化性語言障礙而受苦的人。位於 Lifespan⁠(在新視窗中開啟) 的 Norman Prince 神經科學研究院隸屬於非營利健康照護體系，並作為布朗大學醫學院的主要教學合作機構，正在探索 AI 在臨床情境中的應用。他們一直在試行一項計畫，向因腫瘤或神經系統病因導致語言障礙的個人提供 Voice Engine。由於 Voice Engine 只需要非常短的音訊樣本，Fatima Mirza、Rohaid Ali 和 Konstantina Svokos 醫師得以使用一段為學校專題錄製的影片中的音訊，為一名因血管性腦腫瘤而失去流暢言語能力的年輕病患恢復聲音。

載入中...

安全地打造語音引擎

我們明白，生成聽起來像人們聲音的語音具有嚴重風險，而在選舉年，這點尤其令人關切。我們正與來自政府、媒體、娛樂、教育、公民社會等各領域的美國與國際合作夥伴合作，確保我們在建置過程中納入他們的回饋意見。目前正在測試 Voice Engine 的合作夥伴已同意我們的使用政策⁠，其中禁止在未經同意或無合法權利的情況下冒充其他個人或組織。此外，我們與這些合作夥伴的條款要求必須取得原始說話者明確且知情的同意，且我們不允許開發者建立讓個別使用者能夠建立自己聲音的方法。合作夥伴也必須向其受眾清楚揭露，他們所聽到的聲音是由 AI 生成的。最後，我們已實施一套安全措施，包括加上浮水印以追溯 Voice Engine 生成之任何音訊的來源，以及主動監控其使用方式。我們相信，任何合成語音技術的大規模部署，都應搭配語音驗證體驗，以確認原始說話者是在知情的情況下將其聲音加入服務，並搭配禁用語音清單，以偵測並防止建立與知名人物過於相似的聲音。

展望未來

Voice Engine 是我們致力於理解技術前沿並公開分享 AI 正在變得可能之事的承諾的延續。符合我們的 AI 安全策略⁠以及我們的自願承諾⁠，我們選擇在此時先行預覽，但暫不廣泛釋出這項技術。我們希望這次對 Voice Engine 的預覽不僅能凸顯其潛力，也能促使大家意識到：面對日益逼真的生成式模型所帶來的挑戰，社會需要強化韌性。具體而言，我們鼓勵採取以下步驟：