近期,一种名为 “inception” 的新型越狱攻击技术及其伴生的上下文绕过技术,犹如两颗重磅炸弹,投向了当下炙手可热的生成式 AI 领域,使得包括 OpenAI 的 ChatGPT、Google 的 Gemini、Microsoft 的 Copilot、DeepSeek、Anthropic 的 Claude、X 的 Grok、MetaAI 以及 MistralAI 在内的众多知名 AI 服务纷纷 “中招”,其引发的涟漪正迅速蔓延至整个科技界与社会各界。
inception 越狱攻击:攻击者首先精心设计包含嵌套式虚构场景的提示词,诱导 AI 模型在想象的 “故事世界” 中逐步放松对其行为的伦理和安全约束。例如,先让 AI 设想一个遥远星球上存在的特殊文明,该文明有着与地球截然不同的道德准则,在如此看似无害的幻想描绘基础上,再慢慢引入一些在现实世界中属于违规违禁的内容创作指令,试图使 AI 在层层嵌套的情境迷惑下突破原本应坚守的安全红线,生成涉及非法活动、暴力、色情、仇恨言论等有害内容。
上下文绕过攻击 :此技术关键在于先巧妙询问 AI 如何不当回复特定请求,从而套出有关其内部内容审核规则与安全机制的蛛丝马迹。之后,攻击者便在正常请求与恶意诱导请求间灵活切换,借助 AI 的上下文记忆功能,使其在对话连贯性的 “掩护” 下,绕过本应严格执行的安全检查,达成生成不良内容的不法目的。
深入探究会发现,这些攻击技术之所以能屡屡得手,根源在于当前大型语言模型的设计与应用存在一些共性的系统性漏洞。
过度追求 “ helpfulness” :各大 AI 服务提供商为提升用户体验和市场竞争力,极力训练模型以满足用户各种需求,使其具备强大的语言生成能力和高度的灵活性,然而这也在无形中为攻击者留下了可乘之机。当攻击者精心构造的提示词触发了模型追求 “helpfulness” 的机制时,模型可能会在未充分评估内容安全性的前提下就贸然生成相应文字。
上下文管理瑕疵 :大型语言模型虽能凭借长程记忆维持对话连贯性,但这种上下文管理机制不够精细和完善,无法精准区分不同性质、不同安全层级的对话内容,容易被攻击者利用来混淆视听,让安全规则在上下文的切换与延伸中失效。
对提示词的敏感性 :语言本身具有复杂性与多义性,而模型在解读提示词时,难以像人类一样结合丰富常识、深刻伦理理解去全方位剖析潜在风险,一些看似正常的词汇组合或表述方式,可能经攻击者巧妙设计后就成了突破安全防线的 “特洛伊木马”。
用户信任动摇:对于广大用户而言,AI 服务的安全性是其选择和使用产品的首要考量因素之一。此次大规模越狱攻击事件的曝光,无疑给众多主流 AI 平台的声誉蒙上了阴影,让用户对其生成内容的安全性、可靠性产生质疑。尤其在涉及敏感信息处理、专业领域咨询(如医疗、法律、金融等)的场景下,用户可能会因担忧 AI 输出有害或误导性内容而降低使用频率,甚至转向其他更安全可靠的工具。
监管审视趋严 :随着生成式 AI 在社会各领域的快速渗透,各国政府监管部门对其安全与合规性的关注度持续攀升。此类安全漏洞的大规模爆发,可能会促使监管机构加速出台更为严格、细致的法律法规和监管政策,对 AI 服务提供商提出更高要求,从模型训练、数据管理、内容审核到应急响应等全流程进行严管,这无疑给企业带来了更大的合规压力和发展挑战。
事件曝光后,受影响的厂商迅速行动起来,纷纷采取措施应对危机。
DeepSeek :承认存在报告中提及的越狱行为,但认为这只是常规越狱,并非架构缺陷,强调所谓的 “内部参数”“系统提示” 泄露实为模型幻觉。即便如此,DeepSeek 也承诺将持续强化安全防护机制,优化内容审核策略,提升模型对恶意提示词的识别与抵御能力。
其他厂商 :OpenAI、Google、Meta、Anthropic、MistralAI 以及 X 等厂商虽未立即公开详细声明,但据业内消息,其内部已紧急开展调查与评估工作,并积极筹备系统更新与安全补丁,以修补漏洞、修复缺陷,保障平台的安全稳定性。
可以预见的是,在生成式 AI 不断进化、应用场景日益拓展的未来,攻击者与防御者之间的这场 “智力博弈” 将愈发激烈。攻击者会不断挖掘模型新特性、探索新漏洞,变着花样地构思越狱策略;而 AI 厂商及安全研究团队则需时刻保持警惕,投入大量资源用于监测、分析与防范新型攻击,利用先进技术如对抗训练、强化学习等提升模型的鲁棒性和安全性,同时加强与高校、科研机构等的合作,开展前沿安全研究,以提前布局、应对潜在威胁。