ChatGPT 現已能看、能聽、能講

我們即將推出 ChatGPT 的全新語音和圖像功能。這些功能將提供更直覺的全新介面類型,讓您進行語音對話或向 ChatGPT 展示您正在談論的內容。
語音和圖像功能為您提供更多方式,在生活中善用 ChatGPT。例如,在旅行期間,你可以拍攝地標照片,並針對其有趣之處進行即時對話。回家後,拍張冰箱和食品櫃的照片,即可獲得菜式建議,並可透過後續問題獲得食譜,了解完整的烹調步驟。晚餐後,透過拍照、圈出問題,並請 ChatGPT 分享提示,幫助您的孩子解決數學問題。
我們將在未來兩週內向 Plus 和 Enterprise 用戶推出 ChatGPT 的語音和圖像功能。語音功能將在 iOS 和 Android 上推出(可在設定中選擇啟用),圖像功能則會在所有平台上提供。
現在,您可以透過語音與助理來回對話,並隨時談論所需內容,無論是為家人講述睡前故事,還是解決餐桌上的爭論均可。
使用語音與您的助理來回對話。
如要開始使用語音功能,請前往流動應用程式的「設定」→「新功能」選用語音對話。然後,點按主畫面右上角的耳機按鈕,並從五種不同語音中選擇您的首選語音。
新推出的語音功能運用新的文字轉語音模型,能從純文字及短暫的語音樣本產生逼真的人聲音訊。除了與專業配音員合作創作出每一把聲音,我們亦運用開放原始碼的 Whisper 語音識別系統,將您的說話轉錄成文字。
現在,您可以向 ChatGPT 展示一幅或多幅圖像,藉此排解燒烤爐無法啟動的問題,探索冰箱內的食材以計劃菜式,或者分析複雜圖表以取得工作相關資料。您可以在我們的流動應用程式中使用繪圖工具,集中討論圖像的特定部分。
向 ChatGPT 展示一幅或多幅圖像。
如要開始使用,請點按照片按鈕以拍攝或選擇圖像。如果您使用 iOS 或 Android 系統,請先點按加號按鈕。您也可以針對多張圖片進行討論,或使用我們的繪圖工具來指引你的助手。
圖像理解由多模態 GPT‑3.5 和 GPT‑4 作為核心,這些模型會將其語言推理能力應用於廣泛的圖像,例如照片、螢幕截圖,以及包含文字和圖像的文件。
OpenAI 的目標是建立安全且有益的 AGI。我們相信循序漸進開放工具供大家使用,可讓我們持續改進並緩解風險,同時讓大家作好準備,迎接未來更強大的系統。這項策略對於涉及語音和視覺的進階模型更形重要。
這項新的語音技術能從僅僅幾秒鐘的真實語音中,創造出逼真的合成語音,為許多創意和注重無障礙的應用開啟大門。然而,這些功能也帶來新的風險,例如惡意之徒可能會冒充公眾人物或進行欺詐行為。
這也說明了我們為何使用這項技術,作為語音聊天這項特定功能的核心。語音聊天由我們與配音員直接合作建立,我們也正在以類似的方式與其他人合作。例如,Spotify 正在利用這項技術的力量,進行他們的語音翻譯(在新視窗中開啟)功能試點計劃,播客主持人可以利用此功能,透過自己的聲音將播客內容翻譯成更多語言,藉此讓故事觸及更多聽眾。
同樣,視覺模型也帶來新挑戰,包括對人物的幻覺,以及在高風險領域中仰賴模型對影像的詮釋。在更廣泛部署之前,我們與紅隊成員一起測試此模型在極端主義與科學素養等領域的風險,並邀請來自不同背景的 Alpha 測試人員參與。透過我們的研究,我們得以在負責任使用的若干關鍵細節上取得共識。
視覺與其他 ChatGPT 功能一樣,旨在您的日常生活中提供協助。如果能夠看見您所見的一事一物,它便能發揮最佳作用。
這種方法受到我們與 Be My Eyes 的合作所啟發,這款為盲人和視障人士提供的免費流動應用程式讓我們了解到其用途和限制。用戶告訴我們,他們認為就影像進行一般對話很有價值,特別是背景中有人物的圖像,例如當您嘗試調整遙控器設定時,有人在電視上出現的情況。
由於 ChatGPT 並非必然準確,而且這些系統應尊重個人私隱,因此我們也採納了多項技術措施,大大限制 ChatGPT 分析和直接評論人物的能力。
用戶的實際使用情況和意見將有助我們進一步改善這些防護措施,同時保持工具的實用性。
由於用戶可能會依賴 ChatGPT 處理研究範疇等專業主題,因此我們會如實公開模型的限制,且不鼓勵在未經適當驗證的情況使用 ChatGPT 作高風險的用途。此外,模型雖然擅於轉錄英文文字,但在處理若干其他語言時卻表現欠佳,尤以使用非羅馬字母的語言為甚。因此,我們不建議非英語用戶將 ChatGPT 用於此等目的。
您可以在影像輸入系統卡中進一步了解我們的安全措施,以及我們與 Be My Eyes 的合作計劃。
Plus 和 Enterprise 計劃的用戶將可在未來兩週內體驗語音和圖像功能。我們亦急不及待盡快向開發人員等其他用戶群推出這些功能。
作者
致謝
語音模式核心研究
Alec Radford, Tao Xu, Jong Wook Kim
視覺部署核心研究
Raul Puri, Jamie Kiros, Hyeonwoo Noh, Long Ouyang, Sandhini Agarwal


