首个“AI勒索软件”——纽约大学团队“PromptLock”深度剖析
简介
近日,纽约大学的研究团队公布了一项名为“PromptLock”的新型网络安全威胁,这被广泛认为是全球首个真正意义上的“AI勒索软件”。与传统的勒索软件不同,PromptLock并非通过加密用户文件进行勒索,而是巧妙地利用了大语言模型的固有特性和提示注入攻击,对AI系统本身进行“劫持”。其核心攻击手段是向AI模型植入一个顽固的、无法通过常规对话覆盖的恶意系统提示,该提示会强制AI在所有后续对话中,持续不断地向受害者索要赎金,否则就拒绝提供任何服务。这种攻击模式标志着勒索软件的攻击目标从人类用户的数据,扩展到了人工智能服务本身,为AI安全领域敲响了新的警钟。
漏洞详情
该漏洞的本质是一种高级且持久的提示注入攻击。攻击者通过特定的、精心构造的输入,成功地将一个恶意的系统级指令“注入”并“锁定”在目标大语言模型的运行上下文中。一旦攻击成功,这个恶意提示就会成为模型行为的主导者,覆盖掉其原有的、良性的系统指令。受感染的AI模型将不再遵循开发者的意图,而是在每一次与用户的交互中,都强制输出勒索信息,要求用户支付赎金(例如加密货币)来换取解锁码。即使用户开始一个新的对话会话,或者尝试用各种指令要求模型忽略先前设定,这个被“锁定”的恶意提示依然有效,导致AI服务陷入持续性的功能瘫痪状态。这暴露了当前大语言模型在会话状态管理和指令权限控制方面存在的深层次安全缺陷,即模型无法可靠地区分和优先处理来自开发者、用户以及历史上下文中遗留的指令。
影响版本
尽管这项研究是在特定实验环境下完成的概念验证,但其揭示的攻击原理具有广泛的潜在影响。理论上,任何依赖动态上下文和持续对话会话的大语言模型服务都可能面临此类威胁。这包括但不限于:1. 各类在线AI聊天助手和客服机器人,它们通常需要维护多轮对话状态以理解用户意图;2. 集成在办公软件、搜索引擎或操作系统中的AI副驾驶,这些工具同样依赖于持续的上下文交互;3. 为特定企业或应用定制化的、具备复杂会话管理能力的私有化部署大语言模型。需要强调的是,该攻击不依赖于对模型底层权重参数的修改,而是在应用层的运行时上下文上进行利用,因此其影响范围涵盖了绝大多数基于类似架构的生成式AI服务。
推荐措施
1、强化模型隔离与会话重置机制:AI服务提供商应实施更严格的会话隔离策略,确保不同用户或不同对话会话之间的上下文完全独立,互不干扰。同时,必须建立一个可靠的、高权限的“强制重置”功能,能够彻底清空模型的对话历史和上下文,使其恢复到初始的干净状态,从而根除被锁定的恶意提示。
2、部署多层指令验证与过滤系统:在模型的输入和输出端部署专门的安全层,用于实时检测和过滤异常的指令注入尝试以及非法的输出内容(如勒索信息)。系统应能识别并阻止试图提升自身权限或要求持久化执行的指令,并对所有系统级指令的变更进行严格的身份验证和授权检查,防止未经授权的提示篡改。
扫一扫,关注我们