現在 AI 智能代理在瀏覽網頁和擷取資訊方面的能力日益提升,同時亦可以代表用戶採取不同行動。這些能力十分實用,但同時也為攻擊者提供了嘗試操控系統的新途徑。
這類攻擊通常被稱為提示注入:攻擊者在外部內容中植入指示,試圖令模型執行用戶未要求的操作。根據我們的觀察,在真實環境中最有效的攻擊,往往更接近社交工程,而不只是簡單覆寫提示詞。
這一點非常重要。如果問題不只是識別惡意字串,而是要在特定語境中抵禦誤導或操控內容,那麼防禦策略就不能只依賴輸入過濾。要達至全面防護,就需要重新設計系統,即使部分攻擊成功,亦要限制系統被操控可能造成的影響。
早期的提示注入攻擊可以非常簡單,例如在維基百科頁面加入直接指令,誘使 AI 智能代理在瀏覽時照做。如果模型在訓練時沒有接觸過這類對抗環境,往往會直接遵循這些指示1。隨著模型能力提升,對這類攻擊的抵抗力亦有所增強。我們同時觀察到,新的提示注入攻擊開始加入社交工程元素。
提示注入的電郵示例
由外部系統防護研究人員(在新視窗中開啟)向 OpenAI 報告的一宗 2025 年 ChatGPT 提示注入攻擊案例。在測試中,當用戶輸入「我想你對我今日的電郵進行 深度研究,請閱讀並檢查所有可能提供我新員工流程資訊的來源。」時,有 50% 的成功率。
在整個 AI 系統防護生態中,常見的建議包括所謂「AI 防火牆」,即在智能代理與外界之間設置系統,嘗試分辨輸入是惡意提示注入還是正常內容並加以分類。然而,這些已發展成熟的攻擊通常未必會被這類系統偵測到。對這些系統而言,識別惡意輸入與辨別謊言或錯誤資訊一樣困難,而且往往缺乏必要的上下文。
隨著現實世界中的提示注入攻擊變得越來越複雜,我們發現最有效的攻擊往往利用社交工程策略。因此,我們不再把這類攻擊視為獨立或完全新的問題,而是用與其他領域中管理人類社交工程風險相同的角度來看待。在這個框架下,目標不只是準確識別惡意輸入,而是重新設計智能代理與系統,令到即使系統被操控,其影響亦會受到限制。這類設計同時有助減輕提示注入與社交工程攻擊。
在這種情境下,我們可以把 AI 智能代理想像成與客戶服務專員類似的三方系統:智能代理希望代表僱主行事,但同時會持續接收來自外界、可能帶有誤導性的資訊。客戶服務專員(無論是人類還是 AI)都需要在能力上設有限制,以減少在惡意環境中的潛在風險。
想像一種情況:某位服務專員負責操作客戶支援系統,並可以因應客戶遇到的問題(例如送貨延誤、產品因故障而損壞等),向客戶送出禮品卡或安排退款。這是一個多方互動的問題:企業需要信任服務專員只會在合理情況下退款,而服務專員同時又需要與第三方溝通和協商,而對方可能會試圖誤導甚至施壓。
在現實情況中,服務專員會按照既定規則行事,但在充滿對抗的環境下仍然有可能被誤導。例如客戶可能會訛稱之前的退款不成功,又或者以威脅方式要求退款。服務專員所用的系統會限制可發放退款的金額、標示可疑釣魚郵件,並提供其他保護措施,以減低個別服務專員出錯所帶來的影響。
這種思維方式亦啟發了我們部署的一系列安全機制,以保障用戶對系統安全的期望。
在 ChatGPT 中,我們把這種社交工程模型,與來源與接收點分析等傳統系統防護工程方法結合。
在這個框架下,攻擊者需要同時具備來源(影響系統的方式),以及接收點(在錯誤情境下可能造成危險的能力)。對智能代理系統而言,這通常意味著把不可信的外部內容與某些操作結合,例如把資訊傳送給第三方、點撃開啟連結,又或者使用工具。
我們的目標是維持一項核心安全原則:潛在高風險操作或敏感資料傳輸,不應在用戶不知情或沒有適當保護機制的情況下發生。
我們觀察到針對 ChatGPT 的攻擊,大多涉及試圖說服助理將對話中的機密資訊傳送給惡意第三方。而在大多數情況下,這些攻擊會因為安全訓練而被智能代理拒絕。在少數代理被說服的情況下,我們部署了一項名為 Safe Url 的防護機制,用來偵測助理是否嘗試把對話中的資訊傳送到第三方。在這些罕見情況下,我們會向用戶顯示將要傳送的資料並要求確認;或者直接阻止該操作,並要求智能代理改用其他方式完成用戶的請求。
同樣機制亦適用於 Atlas 的導覽和書籤操作,以及深度研究的搜尋與瀏覽。ChatGPT 畫布與 ChatGPT 應用程式亦採用類似方式,允許智能代理建立並使用功能性應用程式。這些應用程式會在沙盒環境中運行,可以偵測異常通訊並徵求用戶同意(在新視窗中開啟)。
你可以在文章《當 AI 智能代理點擊連結時,如何保障你的資料安全》中了解更多 Safe Url 的技術細節。
要實現真正自主的智能代理,能夠安全地與外部環境互動是必要條件。當把 AI 模型整合到應用系統時,我們建議思考在相同情況下,應該為人類專員設定哪些控制機制,然後在系統中執行相同機制。我們預期高度智能的 AI 模型在抵禦社交工程方面最終可能比人類更可靠,但在某些應用場景中未必可行,又或者不一定符合成本效益。
因此,我們會持續研究社交工程對 AI 模型的影響,以及相應的防禦方法,並將研究成果納入應用系統防護架構與模型訓練中。
註腳
- 1
Rehberger, J. (2023, 04 15)。Don't blindly trust LLM responses. Threats to chatbots. (不要盲目信任大型語言模型的回應:聊天機械人的安全威脅。)EmbraceTheRed。於 2025 年 11 月 14 日取自 https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
作者
Thomas Shadwell及Adrian Spânu


