認識提示注入:前沿的安全挑戰
AI 工具不再只回應問題,還可做更多事情。它們現在可以瀏覽網頁、協助研究、安排行程,甚至幫你購物。當 AI 功能更強大,能夠存取你在其他應用程式的資料並替你執行操作時,也會帶來新的安全風險。提示注入是我們目前重點關注的安全挑戰。
提示注入是一種專門針對對話式 AI 的社交工程攻擊。早期的 AI 系統只能讓單一用戶與單一 AI 代理進行對話。在現今的 AI 產品中,你的對話可能包含來自多個來源的內容,包括互聯網。「提示注入」這個術語源自一個概念:第三方(既非使用者,也非 AI)透過在對話上下文中注入惡意指令來誤導模型。
就像網絡釣魚電郵或網絡詐騙會誘使人們洩露敏感資訊一樣,提示注入則試圖誘使 AI 執行你並未要求的操作。
想像一下,你讓 AI 幫你做度假研究,它可能會在網頁上碰到誤導資訊或惡意指令,例如房源列表或評價留言中的隱藏訊息。這些內容可能經過精心設計,用來誘使 AI 推薦錯誤房源,或盜取你的信用卡資訊。
以下是「提示注入」攻擊的幾個例子 — 惡意指令旨在誘使 AI 執行你並未要求的操作,通常隱藏在網頁、文件或電郵中。
當 AI 能夠存取更多敏感資訊,並承擔更多自主操作與長期任務時,風險也隨之增加。
摘要 | 你要求 AI 做的事情 | 攻擊者如何行動 | 攻擊若成功,可能帶來的後果 |
你讓 AI 幫你找公寓,它卻被注入提示詞誤導,推薦了一個並非最佳選擇的地產。 | 你讓 AI 根據給定的標準搜尋公寓資訊。 | 攻擊者在地產資訊中加入提示注入攻擊,誘使 AI 認為必須推薦他們的地產,而不顧你的偏好。 | 若攻擊成功,AI 可能會錯誤地依照你的偏好推薦不理想的地產。 |
你讓 AI 代理回覆夜間收到的電郵,結果它意外洩露了你的銀行對帳單。 | 由於你今早很忙,你讓 AI 代理代為回覆昨晚的電郵。 請參閱下文「在可行的情況下,向代理提供明確指令」 | 攻擊者透過一封包含錯誤資訊的電郵,誘使模型去搜尋你的銀行對帳單,並將其發送給攻擊者。 | 若攻擊成功,代理可能會在你的電郵中搜尋類似銀行對帳單的內容(原本是為執行任務而授予的存取權限),並將其發送給攻擊者。 |
防範提示注入是整個 AI 行業面臨的挑戰,也是 OpenAI 的重點關注議題。儘管攻擊者持續發展此類攻擊手法,我們亦致力於打造防禦機制,確保在面對蓄意誤導時,系統仍能準確執行既定用戶任務。要安全地實現 AGI 的潛在益處,這項能力不可或缺。
為確保用戶安全,並提升模型對抗此類攻擊的能力,我們採取多層防護策略,包括以下措施:
我們希望 AI 能夠識別提示注入,並且不會遭受其攻擊。不過,抵禦對抗性攻擊一直是機器學習和 AI 面臨的長期挑戰,因此這仍然是一個困難且尚未完全解決的問題。我們已開展一項名為指令層次結構的研究,幫助模型識別可信任與不可信任的指令。我們也持續開發新方法,訓練模型更好地識別提示注入的模式,使其能忽略這些攻擊或向用戶發出警示。應用的技術之一是自動化紅隊演練,這是我們多年來一直在研究(在新視窗中開啟)的領域,旨在開發新型提示注入攻擊。
我們已開發多個由 AI 驅動的自動化監控系統,用於識別並阻止提示注入攻擊。這些系統與安全訓練方法互為補充,因為它們可以快速更新,迅速阻止任何新發現的攻擊。這些監控不僅有助識別針對用戶的潛在提示注入攻擊,還能讓我們在這些攻擊真正發生前,及早發現利用我們平台進行的對抗性提示注入研究與測試。
在設計產品與基礎設施時,我們採取多層重疊的安全防護措施,協助保障用戶數據安全。這些功能會在未來的技術文章中作詳細說明,並且針對不同產品進行調整。例如,為避免造訪不受信任的網站,我們會要求你在 ChatGPT 中先批准某些連結,尤其是要求我們不要將其編入目錄的網站(在新視窗中開啟),然後才能進一步瀏覽。當 AI 使用工具運行其他程式或程式碼(如 Canvas 或開發工具 Codex)時,我們會採用「沙盒化」技術,防止模型因提示注入而作出的有害變更。
我們在產品中內建多項控制功能,協助用戶保護自己。例如,在 ChatGPT Atlas 中,你可以選擇登出模式,讓 ChatGPT 代理在不登入網站的情況下開始執行任務。在進行敏感操作,如完成購買前,ChatGPT 代理會先暫停並請求你的確認。當代理在敏感網站運作時,「監視模式」會提醒你該網站的敏感性,並要求你保持分頁啟用,觀察代理執行其工作。若你離開包含敏感資訊的分頁,代理將會暫停運行。這可確保你了解並掌控代理正在執行的操作。
我們與內部和外部團隊進行廣泛的紅隊演練,測試和改進我們的防禦機制,模擬攻擊者行為,並尋找提升安全性的新方法。這包括數千小時專門針對提示注入進行測試與研究。每當發現新的技術和攻擊手法,我們的團隊都會主動修補安全漏洞,並持續提升模型的防護能力。
為鼓勵可靠的獨立安全研究人員協助我們發現新的提示注入技術和攻擊手法,我們會透過漏洞賞金計劃(在新視窗中開啟)提供獎勵,當研究人員展示可能導致用戶數據意外洩露的真實攻擊路徑時即可獲得。我們鼓勵外部安全研究人員快速發現問題,並提供相應獎勵,讓我們能迅速修復,進一步加強防禦能力。
我們會向用戶說明產品中某些功能的潛在風險,讓他們能夠作出清晰、知情的決定。例如,當將 ChatGPT 連接至其他應用程式時,我們會解釋可能會存取哪些數據、如何使用數據以及潛在風險(例如網站企圖竊取你的資料),並提供連結,讓你了解如何保持安全。我們還讓組織能夠決定哪些功能可在其工作區啟用,並由用戶使用。
提示注入是一個前沿的安全挑戰,我們預計它將隨著時間推移而不斷演變。隨著 AI 智能與能力提升,技術、社會與風險防護策略也需要同步進化。正如 2000 年代初期的電腦病毒,我們認為每個人都應該了解提示注入的威脅及如何應對風險,這樣我們才能安全地利用 AI 技術帶來的好處。在使用 AI 和能代表你行動的代理功能時,保持警覺和謹慎有助確保你的數據安全。
在可行的情況下,應限制代理僅存取完成任務所需的敏感數據或憑證。例如,在 ChatGPT Atlas 中使用代理模式進行度假研究時,若代理僅需進行研究,並且不需要登入存取,則使用「登出」模式。
我們通常讓代理在執行某些具重大影響的操作(例如完成購買或發送電郵)之前,先向你取得最終確認。當代理要求你確認某個操作時,請仔細檢查該操作是否正確,以及所分享的任何資訊是否適合在該情況下分享。
當代理在敏感網站(例如你的銀行)上運行時,監督代理執行其操作。這就像駕駛自動駕駛車輛時,始終把雙手放在方向盤上一樣。
給代理非常寬泛的指令,例如「查看我的電郵並採取所有必要行動」,可能會讓隱藏的惡意內容更容易誤導模型,即使模型本身設計上會在執行敏感操作前向你確認。
讓你的代理執行具體且範圍明確的任務會更安全,而不是給予它過大的自由度,以免它可能遵循來自其他地方(例如電郵)的惡意指令。這無法保證不會發生攻擊,但它使攻擊者更難成功。
隨著 AI 技術的發展,新的風險和保障措施也將隨之出現。關注 OpenAI 和其他可信來源的最新動態,了解最佳實踐。
提示注入仍然是一個前沿且具挑戰性的研究問題,就像網絡上的傳統詐騙一樣,我們預期這項工作將會持續進行。目前尚未看到攻擊者廣泛採用這種技術,但我們預期,他們會投入大量時間和資源,尋找讓 AI 遭受此類攻擊的方法。我們將持續大力投資,提升產品的安全性,並推進研究以強化 AI 對這類風險的抵禦能力。我們會在取得更多資訊後分享更新,包括我們在此領域安全工作的進展。例如,我們正在撰寫一份報告,將於不久後發佈,其中將詳細介紹我們如何偵測你的 AI 與互聯網的通訊是否會洩露你對話中的資訊。
我們希望這些系統在可靠性與安全性上,就像你最值得信賴、最懂安全的同事或朋友一樣。我們將繼續從實際使用中學習,安全地進行迭代,並隨著技術的進步分享所獲得的經驗。


