ChatGPT 是一項可透過互聯網使用的人工智能服務。您可以使用 ChatGPT 執行各種任務,例如整理或總結資訊、協助翻譯、分析或生成影像、啟發創意並激發想法,以及協助執行日常任務。ChatGPT 的開發方式旨在可以理解並回應用戶的問題和指令。它透過檢視大量既有資訊,例如文字、影像、音訊或視訊,並從資訊之間的關係學習。例如,模型會學習詞語如何傾向與其他詞語一起出現在上下文中,然後利用所學到的知識來預測下一個最有可能出現的詞語,以回應用戶的請求,並預測隨後出現的每個詞語。這些模型也可以透過學習形成訓練資料中影像的像素彼此之間的關係,以及與描述這些像素的標題之間的關係,來學習生成其他形式的資訊,例如影像。
例如,在模型學習過程(稱為「訓練」)中,我們可能會讓一個模型嘗試完成一個句子:「她沒有向左轉,而是向___轉」。在訓練之前,模型會隨機回答一些詞語,但隨著它閱讀和學習大量文本,它能更好地理解這類句子,並能更準確地預測下一個詞語。然後,它會在大量句子中重複這一過程。
因為在這個句子中,接下來可能出現的詞語有很多(例如,她沒有向左轉,而是“向右轉”、“繞著轉”或“向後轉”),所以模型的回答方式有一定的隨機性,在很多情況下,我們的模型會以不同的方式回答同一個問題。
機械學習模型由一大串數字(稱為「權重 」或 「參數」)以及解釋和執行這些數字的程式碼組成。模型並不包含或儲存其學習資訊的副本。相反,隨著模型的學習,組成模型的一些數字會發生細微的變化,以反映所學到的資訊。在以上範例中,模型檢閱的資訊協助它從預測隨機的錯誤詞語改良到預測更準確的詞語,但實際上模型本身發生的只是數字的輕微變化。模型並沒有儲存或複製它所檢閱的句子、影像或音訊。
如上所述,ChatGPT 和我們的其他服務在開發過程中使用了以下資訊:(1)互聯網上公開的資訊;(2)我們從第三方合作取得的資訊;(3)我們的用戶或我們的人工培訓師及研究人員提供或生成的資訊。本文重點討論第一類資訊:互聯網上公開的資訊。
對於這組資訊,我們只使用互聯網上可免費公開取得的資訊,例如,我們不會尋找已知位於付費牆後或「暗網」中的資訊。我們會應用篩檢程式,移除那些我們不希望模型會學習或輸出的資訊,如仇恨言論、成人內容、主要匯總個人資訊的網站和垃圾郵件。然後,我們使用這些資訊來教授我們的模型。
互聯網上的大量資料都與人有關,因此我們的訓練資訊中也會偶然包含個人資料。我們不會主動尋找個人資料來訓練我們的模型。
我們只使用訓練資訊來提升模型智能,例如預測、推理和解決問題的能力。我們現在和將來都不會使用訓練資訊中的任何個人資料來建立個人檔案、與他們聯絡、向他們兜售、試圖向他們出售任何東西或出售資訊本身。
我們的模型可能會從個人資料中學習,以瞭解姓名和地址等資訊在語言和句子中如何匹配,或者瞭解名人和公眾人物。這樣,我們的模型就能更好地提供相關的回覆。
在訓練我們的模型時,我們也會採取措施減少對個人資料的處理。例如,我們會移除匯總大量個人資料的網站,並訓練我們的模型,以拒絕有關個人私隱或敏感資訊的請求。
我們依法使用培訓資訊。我們的基礎模型應用廣泛,已在幫助人們建立內容、改善客戶服務、開發軟件、自訂教育、支援科學研究等方面發揮重要作用。如果沒有大量的資訊來教授模型,這些優勢就無法實現。此外,我們對培訓資訊的使用不會對個人造成負面影響,而且這些培訓資訊的主要來源已經公開。基於這些原因,我們收集和使用培訓資訊中包含的個人資料是基於私隱法律(如 GDPR)規定的合法權益,詳情請參見我們的私隱政策。我們還完成了資料保護影響評估,以幫助確保我們合法、負責任地收集和使用這些資訊。
我們會回應異議請求和類似權利。由於學習語言的原因,ChatGPT 的回覆有時可能會包含個人資料多次出現在公共互聯網上的個人(例如公眾人物)的個人資料。某些司法管轄區的個人可以透過此私隱入口網站(在新視窗中開啟)反對我們的模型處理其個人資料,或提出其他資料當事人權利請求。您可以透過 dsar@openai.com 行使這些權利。
請注意,根據私隱權法,某些權利可能不是絕對的。如果有合法理由,我們可能會拒絕某項請求。但是,我們會努力優先保護個人資料,並遵守所有適用的私隱權法。如果您認為我們沒有充分解決某個問題,您有權向當地監管機構投訴。
欲瞭解更多有關 OpenAI 在您使用我們的網站、應用程式和服務時從您那裡收集的個人資料或與您有關的個人資料的處理方式,請參閱我們的 私隱政策。