跳至主要內容
OpenAI

2023年9月25日

產品

ChatGPT 全面進化:看、聽、說,一次到位

ChatGPT 全面進化:看、聽、說,一次到位

我們已開始在 ChatGPT 中推出全新的語音和圖片功能。全新型態的介面更直覺,使用者不僅能透過語音交談,還能向 ChatGPT 顯示談論的內容。

語音和圖片功能讓 ChatGPT 的日常應用方式更廣泛多元。旅遊期間,你可以拍下地標照片,即時詢問相關趣聞。在家時,您可以拍下冰箱或食品櫃的照片,請最佳助理幫你規劃晚餐菜色,還能進一步提出問題、索取詳細食譜。晚餐後,幫孩子解數學題時,也可以拍下題目並圈出重點,讓 ChatGPT 提供解題提示。

我們將在未來兩週逐步向 Plus 和 Enterprise 用戶開放 ChatGPT 的語音和圖片功能。語音功能將在 iOS 和 Android 版本提供 (可在設定中啟用),而圖片功能則可在所有平台上使用。

與 ChatGPT 交談互動

您現在可以用語音與您的得力助手輕鬆對話。隨時隨地交談、為家人點播睡前故事,或解決餐桌上爭論的話題。

用語音與得力助手輕鬆對話。

如要開始使用語音功能,請前往行動應用程式的「設定」→「新功能」,啟用語音對話功能,然後點選主畫面右上角的耳機按鈕,從五種人聲中選擇偏好的選項。

新推出的語音功能採用文字轉語音模型,可根據文字和短短幾秒的說話語音樣本,生成真人般的語音內容。我們與專業配音員合作,每種人聲都是精心之作。另外還運用我們的開放原始碼語音辨識系統 Whisper,可將語音內容轉成逐字稿。

載入中...

討論圖片

您現在可以向 ChatGPT 展示一或多張圖片,討論怎麼解決烤爐的啟動問題、掌握冰箱裡有哪些食材並規劃菜色,或是分析複雜的圖表以取得工作相關資料。若要聚焦討論圖片的特定局部,可以使用手機應用程式上的繪圖工具。

向 ChatGPT 展示一或多張圖片,

若要開始使用此功能,請點選照片按鈕來拍攝或選擇圖片。iOS 或 Android 使用者則需先點選加號按鈕。您也可以討論多張照片,或使用繪圖工具來讓最佳助理掌握目標。

圖片理解功能採用多模態 GPT‑3.5 和 GPT‑4 技術。這些模型可將語言推理能力應用在各種圖片上,例如照片、螢幕截圖和含有圖文的文件。

我們正逐步推出圖片和語音功能

OpenAI 的目標是打造可造福人類的安全 AGI。我們之所以選擇循序漸進推出工具,是為了在持續改進技術和加強風險控管機制的同時,也確保人們逐步適應未來更強大的系統。隨著先進模型融入語音和視覺功能,這項策略的重要性更甚以往。

語音

這項全新的語音技術,只需幾秒鐘的真實語音,就能合成出極為逼真的人聲,為創意表達和無障礙應用帶來嶄新的可能性。然而,新功能也伴隨著新風險,例如可能遭有心人士用來惡意冒充公眾人物,或運用在詐欺犯罪。

正因如此,我們只將這項技術應用於特定使用情境:語音聊天。語音聊天內容是我們直接與專業配音員合作打造的成品。我們與其他合作夥伴也是採用類似合作做法。例如,Spotify 正運用這項強大技術測試其語音翻譯(在新視窗中開啟)功能,讓 Podcaster 以自己的聲音將 Podcast 內容翻譯成其他語言,協助拓展觸及範圍。

圖片輸入

視覺模型也面臨新挑戰,例如與人物相關的虛構幻覺,以及應用在高風險領域時,過度依賴模型對圖像的解讀等。在大規模推出前,我們已先讓紅隊成員針對極端主義內容、科學能力等領域進行風險測試,並邀請背景多元的早期測試者參與試用。透過我們的研究,我們確立了一些關鍵細節,釐清如何負責任地使用這項技術。

確保視覺功能實用且安全

就像其他 ChatGPT 功能,視覺功能的目的是協助您處理日常大小事,如今能看到您的視角,就可以提供最準確實用的幫助。 

這套做法是受到我們與 Be My Eyes 的合作所啟發,透過這款視障者專用行動應用程式,我們了解了這項技術的實際使用情況與限制。使用者反映,與圖片互動時,能在畫面背景中出現人物時依然自然對話,這非常有幫助。例如在調整電視遙控器設定時,即使電視節目中出現人物,AI 也能專注於提供協助。

為了避免 ChatGPT 誤判或生成錯誤資訊,以及維護個人隱私,我們也採取相關技術措施,大幅限制 ChatGPT 分析或直接評論某人的能力。

實際使用情形和回饋將協助我們進一步強化這些防護措施,同時確保工具實用性。

模型限制資訊公開透明

使用者可能仰賴 ChatGPT 取得專門主題的內容,例如研究等領域。我們的模型限制資訊公開透明,並不鼓勵在缺乏適當驗證的情況下,應用在高風險的情境。此外,雖然模型將英文語音轉成逐字稿的能力堪稱成熟,但對於其他語言的表現卻仍差強人意,尤其是非羅馬字母系文字。因此,建議非英文使用者勿將 ChatGPT 用於這個用途。

歡迎參閱圖片輸入系統說明卡,進一步了解安全機制,以及我們與 Be My Eyes 的合作詳情。

我們將逐步向更多使用者開放

Plus 和 Enterprise 方案用戶將能在未來兩週內開始體驗語音和圖片功能。不久後,我們也會向開發人員等其他使用者推出這些功能。

作者

OpenAI

致謝

語音模式核心研究

Alec Radford、Tao Xu、Jong Wook Kim

視覺開發核心研究

Raul Puri、Jamie Kiros、Hyeonwoo Noh、Long Ouyang、Sandhini Agarwal

查看 GPT-4V(ision) 技術工作與作者