1.openai和deepmind

真是罕见,OpenAI、Anthropic、Google DeepMind 这三大竞争对手,居然联手发表了一篇论文,共同研究语言模型的安全防御评估看来在 LLM 安全这事上,大家还是能暂时放下对抗,握手合作的。

OpenAI、Anthropic、DeepMind联手发文:现有LLM安全防御不堪一击(插图

2.open and deepen

论文标题:The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections

3.openai baseline

论文地址:https://arxiv.org/pdf/2510.09023本文主要围绕一个问题展开:我们该如何评估语言模型防御机制的鲁棒性?要知道,目前针对越狱和提示注入的防御措施(前者旨在防止攻击者诱导模型输出有害内容,后者旨在防止攻击者远程触发恶意行为)主要采用如下手段:

4.openai hide and seek

使用一组固定的、有害攻击样本进行静态测试;要么依赖于一些计算能力较弱的优化方法,这些方法在设计时并未考虑到具体的防御机制换句话说,现有的防御评估大多是纸上谈兵,并没有真正模拟出一个懂防御、会反制的强攻击者。

5.openathens

所以说,当前的评估流程是有缺陷的这篇文章就是为了解决上述问题为了更准确地评估语言模型的防御机制,本文认为我们应当假设攻击者是自适应的,也就是说,他们会根据防御机制的设计策略,刻意修改攻击方式,并投入大量资源进行优化。

6.open-minded with creativity

在此基础上,本文提出了一个通用自适应攻击框架(General Adaptive Attack Framework),并采用几种通用的优化方法(比如梯度下降、强化学习、随机搜索和人类辅助探索)进行系统化调整,结果成功绕过了 12 种近期提出的防御机制,其中多数模型的攻击成功率超过了 90%,而这些防御原本声称几乎无法被攻破(攻击成功率接近 0)。

7.openations

该研究表示,未来的防御研究必须纳入更强的攻击进行评估,才能对鲁棒性做出可靠且有说服力的结论一种通用攻击方法防御方法的开发者不应依赖于抵御某一种单一攻击,因为攻破一种固定的策略通常是直接了当的研究者并未提出一种全新的攻击方法,而是要强调,现有的攻击思想(当被自适应地、谨慎地应用时)足以暴露系统的弱点。

因此,研究者提出了一个通用的自适应攻击框架,它统一了许多针对 LLM 的成功提示词攻击背后的共同结构。一次攻击由一个优化循环组成,每次迭代可分为四个步骤:

OpenAI、Anthropic、DeepMind联手发文:现有LLM安全防御不堪一击(插图1

图 2:针对 LLM 的通用的自适应攻击框架这种迭代过程是大多数自适应攻击的共同结构研究者通过四种典型实例来阐释这种通用方法论,它们分别是:(i) 基于梯度的方法,(ii) 强化学习方法,(iii) 基于搜索的方法,以及 (iv) 人工红队测试。

在实验中,研究者为每个类别都实例化了一种攻击方法基于梯度的方法通过在嵌入空间中估计梯度,并将其投影回有效的 token,从而将连续的对抗样本技术应用于离散的 token 空间然而,为大语言模型优化提示词本身就极具挑战性:输入空间巨大且离散,措辞上的微小变化就可能导致模型行为发生巨大且不可预测的转变。

因此,目前基于梯度的攻击仍然不可靠,通常推荐直接在文本空间进行操作的攻击方法,例如以下三种强化学习方法将提示词生成视为一个交互式环境:一个策略对候选提示词进行采样,根据模型行为获得奖励,并通过策略梯度算法进行更新,以逐步提高攻击成功率。

在强化学习攻击中,研究者使用一个 LLM,根据得分反馈来迭代地提出候选的对抗性触发器该大语言模型的权重也通过 GRPO 算法进行更新基于搜索的方法将该问题构建为一个组合探索问题,利用启发式扰动、集束搜索、遗传算子或由 LLM 引导的树搜索等方法,在无需梯度访问的情况下,在巨大的离散提示词空间中进行导航。

该版本的搜索攻击使用了一种带有 LLM 建议变异的遗传算法最后,人工红队测试依赖于人类的创造力和上下文推理能力来精心制作和优化提示词,当防御方法是动态变化的时,其表现通常优于自动化方法作为红队测试的代表性实践,研究者举办了一场有超过 500 名参与者参加的在线红队竞赛。

研究者的核心主张是,如果一种防御方法在对抗这种 「PSSU」 循环的任何自适应实例时失败了,那么它就不能被认为是鲁棒的实验结果研究者评估了 12 种最新的大语言模型防御方法,覆盖了从提示工程到对抗性训练的多种技术,旨在揭示它们在自适应对抗攻击下的脆弱性。

这些防御主要针对两大问题:越狱:用户诱导模型产生违反其安全策略的有害内容提示注入:攻击者篡改系统行为,以损害用户机密性或完整性(如窃取数据、未授权操作等)由于缺乏统一的评估标准,研究者沿用各个方法原论文的评估方式,并引入了额外的基准测试,如用于越狱攻击的 HarmBench 和用于提示注入攻击的

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。