理解提示注入:前沿安全挑戰
AI 工具開始不僅僅是回應問題。他們現在可以瀏覽網頁、協助研究、規劃行程,並協助購買產品。隨著它們變得更強大,能夠存取您在其他應用程式中的資料並代表您執行操作,新的安全性挑戰也隨之浮現。我們非常關注的一個問題是提示注入。
提示注入是一種專門針對對話式 AI 的社會工程攻擊。早期的 AI 系統是單一使用者與單一 AI 智慧體之間的對話。在今日的 AI 產品中,您的對話可能包含來自多個來源的內容,包括網際網路。第三方(非使用者或 AI)可能透過在對話上下文中注入惡意指令來誤導模型,這一概念導致了「提示注入」一詞的出現。
就像網路釣魚電子郵件或網路詐騙試圖誘騙人們交出敏感資訊一樣,提示注入試圖誘騙 AI 執行未經要求的操作。
想像一下,你請 AI 幫你上網做一些度假研究,而它在進行時遇到誤導性內容或隱藏在網頁上的有害指示,例如出現在清單留言或評論中的內容。內容可能會被精心設計,試圖誘騙 AI 推薦錯誤的商品資訊,甚至更糟的是,竊取你的信用卡資料。
這些只是「提示注入」攻擊的幾個例子—這些有害指令旨在誘使 AI 執行非預期的操作,且往往隱藏在一般內容中,例如網頁、文件或電子郵件。
隨著 AI 能夠存取更多敏感資料,並採取更多主動性、承擔更長時間的任務,這些風險也會隨之增加。
摘要 | 你要求 AI 做的事情 | 攻擊者所做的事情 | 如果攻擊成功,可能的結果 |
你請 AI 研究公寓,但它被提示詞注入,推薦了一個對你來說不是最佳選擇的房源。 | 您要求 AI 根據一些指定的條件來研究公寓。 | 攻擊者在公寓列表中加入了提示注入攻擊,試圖欺騙 AI 以為無論使用者的偏好如何,他們的列表都需要被選中。 | 如果攻擊成功,AI 可能會根據你的偏好,錯誤地推薦不理想的公寓房源。 |
你請一個 AI 智慧體回覆你昨晚收到的電子郵件,結果它卻分享了你的銀行對帳單。 | 你請一個 AI 智慧體大致回覆你昨晚的電子郵件,因為你今天早上很忙。 請參閱下方的「盡可能給予智慧體明確的指示」 | 攻擊者寄給你一封電子郵件,內容包含錯誤資訊,誘使模型找出你的銀行對帳單並與攻擊者分享。 | 如果攻擊成功,智慧體可能會在您的電子郵件中尋找類似銀行對帳單的內容(您為了執行任務而授予其存取權),並將其分享給攻擊者。 |
防禦提示注入是 AI 產業的共同挑戰,也是 OpenAI 的核心關注點。雖然我們預期對手會持續開發此類攻擊,但我們正在建立防禦機制,旨在即使有人積極試圖誤導使用者時,也能執行使用者的預期任務。這項能力對於安全地實現 AGI 的好處至關重要。
為了保護我們的使用者,並提升我們的模型抵禦這些攻擊的能力,我們採取多層次的方法,包括以下內容:
我們希望 AI 能夠辨識提示注入並不會被其欺騙。然而,對抗性攻擊的穩健性長期以來一直是機器學習和 AI 領域的一大挑戰,使其成為一個困難且尚未解決的問題。我們開發了一項名為 指令層級 的研究,旨在促進模型區分受信任和不受信任的指令。我們持續開發新的方法來訓練模型,以更好地識別提示注入模式,從而忽略它們或向用戶標記它們。我們採用的其中一項技術是自動化紅隊演練,這是我們多年來一直在研究(在新視窗中開啟)的領域,旨在開發新穎的提示注入攻擊。
我們已開發多個由 AI 驅動的自動化監控器,以識別並阻止提示注入攻擊。這些措施補充了安全訓練方法,因為它們可以迅速更新,以快速阻止我們發現的任何新攻擊。這些監控不僅有助於識別針對我們用戶的潛在提示注入攻擊,還能讓我們在這些攻擊在實際環境中部署之前,攔截利用我們平台進行的對抗性提示注入研究和測試。
我們在設計產品和基礎架構時,採用了多層次的安全防護措施,以保護用戶資料。這些功能,我們將在未來的文章中以更技術性的細節加以探討,是依各產品量身打造的。例如,為了協助您避開不受信任的網站,我們會要求您在 ChatGPT 中核准某些連結,特別是指向要求我們不要將其編入目錄的網站(在新視窗中開啟)的連結,才能進一步造訪。當我們的 AI 使用工具來執行其他程式或程式碼(例如在畫布或我們的開發工具 Codex 中),我們會使用一種稱為沙箱化的技術,以防止模型做出可能因提示注入而導致的有害變更。
我們在產品中內建控制功能,以協助使用者保護自己。例如,在 ChatGPT Atlas 中,你可以選擇登出模式,讓 ChatGPT 智慧體在未登入網站的情況下開始執行任務。ChatGPT 智慧體也會在執行敏感步驟(例如完成購買)之前暫停並要求確認。當智慧體在敏感網站上運作時,我們也實施了「監視模式」,此模式會提醒您該網站的敏感性,並要求您保持分頁啟用,以便觀察智慧體的工作。如果你離開含有敏感資訊的分頁,代理程式將會暫停。這確保您能隨時了解並掌控智慧體正在執行的操作。
我們與內部和外部團隊進行廣泛的紅隊演練,以測試和提升我們的防禦能力,模擬攻擊者行為,並尋找提升安全性的新方法。這包括數千小時專注於提示注入。隨著我們發現新的技術和攻擊手法,我們的團隊會主動處理安全漏洞,並改進我們的模型緩解措施。
為了鼓勵善意的獨立資安研究人員協助我們發現新的提示注入技術與攻擊手法,當他們展示一條可能導致非預期使用者資料外洩的真實攻擊路徑時,我們會在漏洞賞金計畫(在新視窗中開啟)下提供金錢獎勵。我們獎勵外部貢獻者迅速揭露這些問題,以便我們能夠解決它們,並進一步加強我們的防禦。
我們教育使用者了解使用產品中某些功能的風險,以便他們能做出知情的決定。例如,當將 ChatGPT 連接至其他應用程式時,我們會說明可能會存取哪些資料、如何使用這些資料,以及可能會出現哪些風險,例如某個網站試圖竊取你的資料,並提供連結以了解如何保持安全。我們也讓組織掌控其工作區中使用者可啟用或使用的功能。
提示注入是一個前沿的安全挑戰,我們預期它會隨著時間不斷演變。新的智慧與能力層級需要技術、社會和風險緩解策略共同演化。就像 2000 年代初期的電腦病毒一樣,我們認為讓每個人都理解提示注入的威脅,以及如何因應這項風險非常重要,這樣我們才能一起學會安全地從這項技術中受益。保持警覺並謹慎行事,有助於在使用能代表您行動的 AI 和代理功能時,讓您的資料更安全。
在可能的情況下,應限制智慧體的存取權限,使其僅能存取完成任務所需的敏感資料或憑證。例如,在 ChatGPT Atlas 中使用智慧體模式進行度假研究時,如果智慧體只是在做研究且不需要登入存取,請使用「登出」模式。
我們經常設計代理程式在採取某些具有重大影響的行動(例如完成購買或發送電子郵件)之前,先向您取得最終確認。當智慧體要求您確認一項操作時,請仔細檢查該操作是否正確,並確認在該情境下所分享的任何資訊是否適合分享。
當智慧體在敏感網站(例如您的銀行)上運作時,請觀察智慧體的工作情況。這就像是通過將手放在方向盤上來監控自動駕駛汽車。
給智慧體一個非常廣泛的指令,例如「檢查我的電子郵件並採取任何必要的行動」,可能會讓隱藏的惡意內容更容易誤導模型,即使它的設計是在採取敏感行動之前先向你確認。
要求你的智慧體去做具體的事情會更安全,而不是給它過大的自由度,讓它可能去遵循來自其他地方(例如電子郵件)的有害指示。雖然這無法保證不會發生攻擊,但這會使攻擊者更難以得逞。
隨著 AI 技術的發展,新的風險和防護措施將會出現。追蹤 OpenAI 和其他可靠來源的更新,以了解最佳實踐。
提示注入仍然是一個前沿且具挑戰性的研究問題,就像網路上的傳統詐騙一樣,我們預期這項工作將會持續進行。雖然我們尚未看到攻擊者大規模採用這項技術,但我們預期對手會投入大量時間和資源,尋找讓 AI 受騙的方法。我們持續大量投資於確保產品安全,並在研究上投入以提升 AI 對此風險的穩健性。我們將在獲得更多資訊後分享更新,包括我們在此領域的安全工作持續進展。例如,我們正在撰寫一份即將發布的報告,將分享更多細節,說明我們如何偵測你的 AI 與網際網路的通訊是否會傳輸你對話中的資訊。
我們的目標是讓這些系統像與您最值得信賴且具備安全意識的同事或朋友合作一樣可靠和安全。我們將持續從真實世界的使用中學習,安全地進行迭代,並隨著技術的進步發佈我們的學習成果。


