跳至主要內容
OpenAI

更新日期: 2025年4月30日

ChatGPT 和我們基礎模型的具體開發方式

深入了解我們如何開發模型並將其應用於 ChatGPT 等產品的相關資訊

OpenAI 基礎模型 (包括為 ChatGPT 提供支援的模型) 的開發過程主要使用以下三大資訊來源:(1) 網際網路上可公開取得的資訊,(2) 我們與第三方合作取得的資訊,以及 (3) 我們的使用者或真人訓練師及研究人員所提供或生成的資訊。

本文將概述我們用於協助開發模型的公開資訊,以及我們如何在遵守隱私權法規的前提下收集和使用這些資訊。若要了解我們如何收集和使用服務使用者的資訊,包括如何選擇不提供 ChatGPT 對話來協助我們教導模型,請參閱我們的隱私權政策本文章

何謂 ChatGPT?它的運作方式?

ChatGPT 是一項可以透過網路存取、以人工智慧為基礎的服務。您可以使用 ChatGPT 完成各種任務,例如整理資訊或做成摘要、協助翻譯、分析或產生圖片、啟發創意與激發靈感,以及協助處理日常事務。ChatGPT 的開發方式使其能夠理解並回應使用者的問題和指令。它會大量審閱現有資訊,如文字、圖片、音訊或視訊,然後學習這些資訊之間的關聯,藉此達成目標。例如,這種模型會學習單詞與其他單詞在上下文中的出現模式,然後利用所了解的內容來預測最有可能出現的下一個字詞,並預測之後出現的每個字詞,以回應使用者的請求。這些模型還能從訓練資料中的圖片,學習其中像素之間的關係,以及這些像素與描述圖片的標籤之間的關聯,來生成其他形式的資訊,例如圖片。    

舉例來說,在模型學習過程 (稱為「訓練」) 中,我們可能會讓一個模型嘗試完成一個句子:「她沒有向左轉,而是___轉。」在訓練之前,模型會回應一些隨機字詞,但當它閱讀並學習了多行文字內容之後,它就能更好地理解這類句子,並能更準確地預測下一個字詞。然後,它會在大量句子中重複這個過程。

因為在這個句子中,接下來可能出現的字詞很多 (例如,她沒有向左轉,而是「向右」轉、「繞著」轉或「向後」轉),所以模型的反應仍存在一定的隨機性,在許多情況下,我們的模型會以不同方式回答同一個問題。

機器學習模型由許多長串數字 (稱為「權重」或「參數」) ,以及解釋和執行這些數字的程式碼所組成。模型並不包含或儲存它所學習之資訊的副本。反之,隨著模型的學習,組成模型的一些數字會產生細微變化,以反映模型所學到的內容。在上述範例中,模型所審閱的資訊可協助它從預測出隨機錯誤字詞,提升為預測出更準確的字詞,但實際上模型本身只是數字略有變化而已。模型不會儲存或複製它審閱過的句子、影像或音訊。

使用什麼類型的資訊來教導 ChatGPT?

如上所述,ChatGPT 和我們其他服務的開發使用了 (1) 網際網路上可公開取得的資訊,(2) 我們與第三方合作取得的資訊,以及 (3) 我們的使用者或真人訓練師及研究人員所提供或生成的資訊。本文章重點討論第一類資訊:網際網路上可公開取得的資訊。

對於這組資訊,我們只使用可在網際網路上免費公開獲取的公開資訊,例如,我們不會從付費牆後或「暗網」中獲取資訊。我們會應用過濾器,刪除我們不希望我們的模型學習或輸出的資訊,如仇恨言論、成人內容、主要匯總個人資訊的網站和垃圾郵件。然後,我們利用這些資訊來教導我們的模型。

是否會用個人資訊來教導 ChatGPT?

網路上的大量資料都與人有關,因此我們的訓練資訊也免不了包含個人資訊。但我們不會主動尋找個人資訊來訓練我們的模型。

我們只會使用訓練資料來教導模型智慧,例如預測、推理和解決問題的能力。   我們現在和將來都不會使用訓練資訊中的任何個人資訊來建立個人檔案、與他們聯絡、向他們廣告、試圖向他們銷售任何產品/服務或銷售資訊本身。

我們的模型可以從個人資訊中學習,了解姓名和地址這類資訊如何在語言和句子中使用,或了解名人和公眾人物。這樣,我們的模型就能更好地做出相關回應。

我們在訓練模型的同時,也會採取相應措施來減少處理個人資訊。例如,我們會移除匯集了大量個人資訊的網站,並訓練我們的模型去拒絕有關個人隱私或敏感資訊的請求。

ChatGPT 在開發期間如何遵守隱私權保護法?

我們以合法方式使用訓練資訊。我們的基礎模型擁有許多帶來顯著效益的應用程式,並且已經開始協助人們建立內容、提升客戶服務、開發軟體、自訂教育方案、支援科學研究等。如果沒有教導模型的大量訊息,就無法實現這些效益。此外,我們無意使用訓練資訊對個人造成負面影響,而這些訓練資訊的主要來源已經向公眾開放。因此,我們是基於隱私權保護法 (如 GDPR) 所規定的合法權益來收集和使用載於訓練資訊中的個人資訊,詳情請參閱我們的隱私權政策。我們也完成了資料保護影響評估,以協助確保我們合法、負責任地收集和使用個人資訊。

我們會對異議請求和類似權利做出回應。由於學習語言的結果,ChatGPT 的回應有時可能包含某些人士已在公共網際網路上出現多次的個人資訊 (例如公眾人物)。某些司法管轄區的個人可以透過我們的隱私權入口網站(在新視窗中開啟)反對我們的模型處理其個人資訊或提出其他資料主體權利相關之請求。您也可以透過傳送電子郵件至  dsar@openai.com 以行使這些權利。

請注意,根據隱私權保護法,有些權利可能不是絕對的。如有合法理由,我們可以拒絕請求。然而,我們會致力於優先保護個人資訊,並遵守所有適用的隱私權保護法。如果您認為我們沒有充分解決某個問題,您有權向當地監管機構提出申訴。

請參閱我們的《隱私權政策》,以進一步了解 OpenAI 在您使用我們的網站、應用程式和服務時向您收集個人資訊或收集與您相關之個人資訊的做法。