2023年9月25日

ChatGPT 全面進化：看、聽、說，一次到位

我們已開始在 ChatGPT 中推出全新的語音和圖片功能。全新型態的介面更直覺，使用者不僅能透過語音交談，還能向 ChatGPT 顯示談論的內容。

語音和圖片功能讓 ChatGPT 的日常應用方式更廣泛多元。旅遊期間，你可以拍下地標照片，即時詢問相關趣聞。在家時，您可以拍下冰箱或食品櫃的照片，請最佳助理幫你規劃晚餐菜色，還能進一步提出問題、索取詳細食譜。晚餐後，幫孩子解數學題時，也可以拍下題目並圈出重點，讓 ChatGPT 提供解題提示。

我們將在未來兩週逐步向 Plus 和 Enterprise 用戶開放 ChatGPT 的語音和圖片功能。語音功能將在 iOS 和 Android 版本提供 (可在設定中啟用)，而圖片功能則可在所有平台上使用。

與 ChatGPT 交談互動

您現在可以用語音與您的得力助手輕鬆對話。隨時隨地交談、為家人點播睡前故事，或解決餐桌上爭論的話題。

用語音與得力助手輕鬆對話。

如要開始使用語音功能，請前往行動應用程式的「設定」→「新功能」，啟用語音對話功能，然後點選主畫面右上角的耳機按鈕，從五種人聲中選擇偏好的選項。

新推出的語音功能採用文字轉語音模型，可根據文字和短短幾秒的說話語音樣本，生成真人般的語音內容。我們與專業配音員合作，每種人聲都是精心之作。另外還運用我們的開放原始碼語音辨識系統 Whisper，可將語音內容轉成逐字稿。

載入中...

討論圖片

您現在可以向 ChatGPT 展示一或多張圖片，討論怎麼解決烤爐的啟動問題、掌握冰箱裡有哪些食材並規劃菜色，或是分析複雜的圖表以取得工作相關資料。若要聚焦討論圖片的特定局部，可以使用手機應用程式上的繪圖工具。

向 ChatGPT 展示一或多張圖片，

若要開始使用此功能，請點選照片按鈕來拍攝或選擇圖片。iOS 或 Android 使用者則需先點選加號按鈕。您也可以討論多張照片，或使用繪圖工具來讓最佳助理掌握目標。

圖片理解功能採用多模態 GPT‑3.5 和 GPT‑4 技術。這些模型可將語言推理能力應用在各種圖片上，例如照片、螢幕截圖和含有圖文的文件。

我們正逐步推出圖片和語音功能

OpenAI 的目標是打造可造福人類的安全 AGI。我們之所以選擇循序漸進推出工具，是為了在持續改進技術和加強風險控管機制的同時，也確保人們逐步適應未來更強大的系統。隨著先進模型融入語音和視覺功能，這項策略的重要性更甚以往。

語音

這項全新的語音技術，只需幾秒鐘的真實語音，就能合成出極為逼真的人聲，為創意表達和無障礙應用帶來嶄新的可能性。然而，新功能也伴隨著新風險，例如可能遭有心人士用來惡意冒充公眾人物，或運用在詐欺犯罪。

正因如此，我們只將這項技術應用於特定使用情境：語音聊天。語音聊天內容是我們直接與專業配音員合作打造的成品。我們與其他合作夥伴也是採用類似合作做法。例如，Spotify 正運用這項強大技術測試其語音翻譯⁠(在新視窗中開啟)功能，讓 Podcaster 以自己的聲音將 Podcast 內容翻譯成其他語言，協助拓展觸及範圍。

圖片輸入

視覺模型也面臨新挑戰，例如與人物相關的虛構幻覺，以及應用在高風險領域時，過度依賴模型對圖像的解讀等。在大規模推出前，我們已先讓紅隊成員針對極端主義內容、科學能力等領域進行風險測試，並邀請背景多元的早期測試者參與試用。透過我們的研究，我們確立了一些關鍵細節，釐清如何負責任地使用這項技術。

確保視覺功能實用且安全

就像其他 ChatGPT 功能，視覺功能的目的是協助您處理日常大小事，如今能看到您的視角，就可以提供最準確實用的幫助。

這套做法是受到我們與 Be My Eyes 的合作所啟發，透過這款視障者專用行動應用程式，我們了解了這項技術的實際使用情況與限制。使用者反映，與圖片互動時，能在畫面背景中出現人物時依然自然對話，這非常有幫助。例如在調整電視遙控器設定時，即使電視節目中出現人物，AI 也能專注於提供協助。

為了避免 ChatGPT 誤判或生成錯誤資訊，以及維護個人隱私，我們也採取相關技術措施，大幅限制 ChatGPT 分析或直接評論某人的能力。

實際使用情形和回饋將協助我們進一步強化這些防護措施，同時確保工具實用性。

模型限制資訊公開透明

使用者可能仰賴 ChatGPT 取得專門主題的內容，例如研究等領域。我們的模型限制資訊公開透明，並不鼓勵在缺乏適當驗證的情況下，應用在高風險的情境。此外，雖然模型將英文語音轉成逐字稿的能力堪稱成熟，但對於其他語言的表現卻仍差強人意，尤其是非羅馬字母系文字。因此，建議非英文使用者勿將 ChatGPT 用於這個用途。

歡迎參閱圖片輸入系統說明卡⁠，進一步了解安全機制，以及我們與 Be My Eyes 的合作詳情。