AI 智能体正在展现出日益强大的能力。它能够浏览网页、检索信息并代表用户执行操作。这些功能固然实用,但也为攻击者操控系统提供了新的途径。
这类攻击通常被称为提示注入 (Prompt Injection):即在外部内容中植入指令,企图诱导模型执行非用户要求的操作。根据我们的经验,在现实场景中,这类攻击最有效的变体已不再是简单的提示词覆盖,而是越来越与社会工程学 (Social Engineering) 相类似。
这种转变至关重要。如果核心问题不再仅仅是识别恶意字符串,而是如何抵御上下文中的误导或操纵性内容,那么防御手段就不能单纯依靠输入过滤。这还要求在系统设计上实现这样的目标:即便部分攻击得逞,其操纵行为所能产生的影响也必须是受限且可控的。
早期的“提示注入”类攻击手段非常简单,例如只需在维基百科条目中植入针对 AI 智能体的直接指令;由于 AI 模型在训练阶段缺乏应对此类对抗环境的经验,往往会不加思索地执行这些指令1。随着模型变得更加智能,它们对这类简单暗示的抵御能力也随之增强。然而,根据我们的观察,“提示注入”类攻击也随之演变,开始融入社会工程学元素:
“提示注入”的电子邮件示例
2025 年的一个 ChatGPT“提示注入”攻击案例(由外部安全研究人员(在新窗口中打开)报告给 OpenAI)。在测试中,当用户输入指令“我想让你深入研究我今天的邮件,并仔细检查每一个能提供新员工入职流程信息的来源”时,该攻击手段有 50% 的成功率。
在更广泛的 AI 安全生态系统中,业界普遍建议采用“AI 防火墙”等技术。这类技术在 AI 智能体与外界之间设置一道中介,试图将输入内容分类为“恶意提示注入”或“正常输入”— 但那些高度成熟的攻击手段通常无法被这类系统捕获。对于这类系统而言,识别恶意输入已经演变成一个极其棘手的难题,其难度等同于识别谎言或虚假信息,而且往往还缺乏必要的上下文信息。
随着现实世界中“提示注入”攻击的复杂程度不断提升,我们发现,最有效的攻击手段往往利用了社会工程学手段。我们并不将这类带有社会工程学色彩的“提示注入”视为一类独立的全新问题,而是借鉴了其他领域的经验,采用防御“针对人类的社会工程学”的思路来加以应对。在这些系统中,目标不仅限于完美识别恶意输入,更在于通过设计智能体和系统,确保即便操纵得逞,其产生的影响也是受限且可控的。事实证明,这类系统能有效降低“提示注入”和社会工程学风险。
基于这种思路,我们可以将 AI 智能体想象成处于一个类似于客服的三方博弈系统中:智能体代表其雇主行事,但又持续接触可能试图误导它的外部输入。无论是人类还是 AI 客服,都必须对其权限进行限制,以降低置身于此类恶意环境中所固有的下行风险。
设想这样一种情景:一名员工操作着客服系统,有权针对物流延迟或产品故障等不便向客户发放礼品卡或退款。这是一个多方博弈问题:公司必须信任该员工是出于正当理由发放退款,而该员工在与第三方互动时,对方可能会试图误导甚至威胁他们。
在现实世界中,员工会需要遵循一套准则,但可以预见的是,在他们所处的对抗性环境中,被误导是在所难免的。例如,客户可能会声称从未收到退款,甚至通过言语威胁来索要退款。客服后台的确定性系统会通过限制单个客户的退款总额、标记潜在钓鱼邮件等手段,最大限度地降低单个员工被误导后造成的损失。
基于这一思路,我们构建了一套稳健的防御体系,以确保系统符合用户对安全性的预期。
在 ChatGPT 中,我们将这种社会工程学模型与更传统的安全工程方法(如 Source-Sink 分析)相结合。
在这种架构下,攻击者需要同时具备“源”(Source,即影响系统的方式)和“汇”(Sink,即在错误上下文中会带来危险的能力)。对于智能体系统而言,这通常意味着攻击者利用不可信的外部内容(源),触发某种操作(汇),例如将信息传输给第三方、访问链接或调用工具。
我们的目标是维护用户对安全的核心预期:任何潜在的危险操作,或对潜在敏感信息的传输,都不应在静默状态下或缺乏适当保护的情况下发生。
我们观察到,针对 ChatGPT 的攻击,大多试图诱导助手从对话中提取某些机密信息,并将其发送给恶意第三方。在绝大多数情况下,由于经过安全对齐训练,智能体会直接拒绝这类要求。而对于极少数智能体被“说服”的情况,我们开发了一种名为 Safe URL 的缓解策略。该策略旨在检测助手是否试图将在对话中获取的信息传输给第三方。在这种罕见情况下,我们要么向用户展示即将传输的信息并请求确认,要么直接阻断传输并指示智能体尝试其他方式来完成用户请求。
同样的机制也应用于 Atlas 中的页面导航与书签功能,以及深度研究中的搜索与导航功能。ChatGPT 画布 和 ChatGPT 应用也采取了类似的方法,允许智能体创建并运行功能性应用程序。这些应用程序在沙箱 (Sandbox) 环境中运行,能够检测异常通信并征求用户同意(在新窗口中打开)。
你可以阅读专题博客文章《如何防范 AI 智能体在访问链接时泄露用户数据》,了解更多关于 Safe URL 的信息,并找到介绍其架构的论文。
与具有对抗性的外部世界进行安全交互,是实现全自主智能体的必要条件。在将 AI 模型集成到应用系统中时,建议参考人类员工在类似场景下的权限配置,并在系统中予以落实。顶尖 AI 模型在抵御社会工程学方面将有望优于人类代理,但根据应用场景的不同,这并不总是可行或具有成本效益。
我们将继续探索针对 AI 模型的社会工程学影响及防御对策,并将研究成果融入应用安全架构和 AI 模型的训练过程中。
脚注
- 1
Rehberger, J. (2023, 04 15). Don't blindly trust LLM responses. Threats to chatbots. EmbraceTheRed. Retrieved 11 14, 2025, from https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
作者
Thomas Shadwell、Adrian Spânu


