2024年3月29日

探索合成語音的挑戰與機遇

我們正分享從 Voice Engine 小規模預覽中汲取的經驗，Voice Engine 是一個用於建立自訂語音的模型。

正在載入...

OpenAI 致力於開發安全且造福廣大社群的 AI⁠。今天，我們分享來自 Voice Engine 模型在小規模預覽中的初步見解和結果，該模型使用文字輸入和單一 15 秒語音樣本，生成語氣自然流暢、且與原講者高度相似的語音。值得注意的是，小型模型只需一段 15 秒樣本，即可創造出富有情感且逼真的語音。

我們於 2022 年底首次開發 Voice Engine，並一直用來為文字轉語音 API⁠（在新視窗中開啟）中提供的預設語音，以及 ChatGPT Voice 和 Read Aloud⁠ 提供支援。同時，由於合成語音可能會被濫用，我們對於廣泛推出採取審慎且資訊充分的態度。我們希望就合成語音的負責任部署展開對話，並探討社會如何適應這些新能力。基於這些對話以及這些小規模測試的結果，我們將就是否以及如何大規模部署這項技術作出更明智的決定。

Voice Engine 的早期應用

為了更好地了解這項技術的潛在用途，我們在去年底開始，私下與一小部分值得信賴的合作夥伴進行測試。我們對這個團隊開發的應用程式印象深刻。這些小規模部署有助我們完善方針、防護措施，以及思考 Voice Engine 如何能在各行各業發揮正面作用。一些初步例子包括：

提供閱讀輔助，透過語氣自然、富有情感的語音，為不識字者與兒童提供協助，並呈現比預設語音更廣泛的講者範圍。Age of Learning⁠（在新視窗中開啟）是一家致力於兒童學業成功的教育科技公司，該公司一直使用此技術來生成預先撰寫的語音旁白內容。他們亦使用 Voice Engine 和 GPT‑4 來建立即時、個人化的回應，從而與學生互動。憑藉這項技術，Age of Learning 得以為廣大受眾創作更多內容。

翻譯內容，例如影片和播客，讓創作者和企業能以流利且保留自身語音的方式，觸及全球更多人。其中一個早期採用者是 AI 視覺敘事平台 HeyGen⁠（在新視窗中開啟），該平台與其企業客戶合作，為各類內容打造自訂、近似真人的虛擬角色，內容涵蓋產品行銷以至銷售示範等多種用途。他們使用 Voice Engine 進行影片翻譯，因此可以將講者的聲音翻譯成多種語言，並觸及全球受眾。用於翻譯時，Voice Engine 會保留原講者的母語口音：例如，以法國講者的語音樣本生成英語，會產生帶法國口音的語音。

正在載入...

透過改善偏遠地區的基本服務觸及全球社區。Dimagi⁠（在新視窗中開啟）正在為社區健康工作者打造工具，讓他們能提供各種基本服務，例如為哺乳期母親提供輔導。為協助這些工作者提升技能，Dimagi 使用 Voice Engine 和 GPT‑4，以每位工作者的主要語言（包括 Swahili 等）提供互動式反饋，亦涵蓋如 Sheng 等非正式的語言；Sheng 是肯亞常見的混合語言。

正在載入...

支援非口語人士，例如為語言能力受影響的個人提供治療應用，以及為有學習需要的人士提供教育方面的強化。Livox⁠（在新視窗中開啟）是一款 AI 替代溝通應用程式，為輔助及替代溝通 (AAC) 裝置提供支援，讓殘疾人士能夠溝通。透過使用 Voice Engine，他們能夠為無口語能力的人士提供多種語言的獨特且非機械化的聲音。用戶可以選擇最能代表自己的語音，而對於多語言用戶，每種口語都能保持一致的語音。

正在載入...

協助患者重拾聲音，為飽受突發或退化性語言障礙困擾的人士而設。Lifespan⁠（在新視窗中開啟）的 Norman Prince Neurosciences Institute（Lifespan 為非牟利健康系統，亦是 Brown University 醫學院的主要教學附屬機構）正在探索 AI 在臨床情境中的應用。他們正試行一項計劃，向因腫瘤或神經系統疾病而出現語言障礙的人士提供 Voice Engine。由於 Voice Engine 只需要極短的語音樣本，Fatima Mirza、Rohaid Ali 和 Konstantina Svokos 醫生能夠使用一段為學校專題所錄製影片中的語音，為一名因血管性腦腫瘤而無法流利說話的年輕病人恢復聲音。

正在載入...

安全地構建 Voice Engine

我們深明，生成與他人聲音相似的語音存在嚴重風險，這一點在選舉年尤其令人關注。我們正與美國以及來自政府、媒體、娛樂、教育、公民社會等領域的國際夥伴合作，確保我們在構建過程中納入他們的反饋意見。現時測試 Voice Engine 的合作夥伴已同意我們的使用政策⁠，當中禁止在未經同意或沒有合法權利的情況下，冒充其他個人或機構。此外，我們與這些合作夥伴的條款規定必須取得原講者明確且知情的同意，而我們亦不允許開發商建立讓個別用戶創建自己語音的方法。合作夥伴亦必須向其受眾明確披露，他們聽到的聲音是由 AI 生成的。最後，我們已實施一系列安全措施，包括加上浮水印以追溯 Voice Engine 所產生任何語音的來源，以及主動監控其使用方式。我們相信，任何廣泛部署的合成語音技術都應配合語音驗證體驗，以核實原講者在知情的情況下將其語音加入服務，並制定一份禁用語音清單，以偵測並防止創建與知名人物過於相似的聲音。

展望未來

Voice Engine 是我們承諾了解技術前沿並公開分享 AI 潛在發展的延續。為配合我們對 AI 安全的方針⁠以及我們的自願承諾⁠，我們目前選擇提供預覽，但暫不廣泛發佈此技術。我們希望此次 Voice Engine 的預覽能夠突顯其潛力，同時也能促使大家意識到有必要加強社會韌性，以應對日益逼真的生成式模型所帶來的挑戰。具體而言，我們鼓勵採取以下步驟，例如：