面向大语言模型的越狱攻击综述

李南; 丁益东; 江浩宇; 牛佳飞; 易平

doi:10.7544/issn1000-1239.202330962

面向大语言模型的越狱攻击综述

上海交通大学网络空间安全学院　上海　200240

基金项目: 国家自然科学基金项目（61831007）；国家重点研发计划(2020YFB1807504)

详细信息

作者简介:
李南: 2002年生. 硕士研究生. 主要研究方向为人工智能后门攻击、大语言模型安全

丁益东: 2001年生. 硕士研究生. 主要研究方向为人工智能后门攻击与防御、大语言模型

江浩宇: 1999年生. 硕士研究生. 主要研究方向为人工智能后门攻击、图神经网络

牛佳飞: 2001年生. 硕士研究生. 主要研究方向为人工智能后门、大语言模型安全

易平: 1969年生. 博士，副教授. CCF高级会员. 主要研究方向为人工智能安全、系统安全

通讯作者:
易平（yiping@sjtu.edu.cn）

中图分类号: TP391.1；TP18
计量
- 文章访问数: 1559
- HTML全文浏览量: 549
- PDF下载量: 476
出版历程
- 收稿日期: 2023-11-29
- 修回日期: 2024-01-30
- 网络出版日期: 2024-03-06
- 刊出日期: 2024-05-13

Jailbreak Attack for Large Language Models: A Survey

School of Cyber Science and Engineering, Shanghai Jiao Tong University, Shanghai 200240

Funds: This work was supported by the National Natural Science Foundation of China (61831007), and the National Key Research and Development Program of China (2020YFB1807504).

More Information

Author Bio:
Li Nan: born in 2002. Master candidate. His main research interests include artificial intelligence backdoor attack and large language model security

Ding Yidong: born in 2001. Master candidate. His main research interests include artificial intelligence backdoor attack and defense, and large language models

Jiang Haoyu: born in 1999. Master candidate. His main research interests include artificial intelligence backdoor attack and graph neural network

Niu Jiafei: born in 2001. Master candidate. His main research interests include artificial intelligence backdoors and large language model security

Yi Ping: born in 1969. PhD, associate professor. Senior member of CCF. His main research interests include security for artificial intelligence and system security

摘要

摘要:
近年来，大语言模型（large language model，LLM）在一系列下游任务中得到了广泛应用，并在多个领域表现出了卓越的文本理解、生成与推理能力. 然而，越狱攻击正成为大语言模型的新兴威胁. 越狱攻击能够绕过大语言模型的安全机制，削弱价值观对齐的影响，诱使经过对齐的大语言模型产生有害输出. 越狱攻击带来的滥用、劫持、泄露等问题已对基于大语言模型的对话系统与应用程序造成了严重威胁. 对近年的越狱攻击研究进行了系统梳理，并基于攻击原理将其分为基于人工设计的攻击、基于模型生成的攻击与基于对抗性优化的攻击3类. 详细总结了相关研究的基本原理、实施方法与研究结论，全面回顾了大语言模型越狱攻击的发展历程，为后续的研究提供了有效参考. 对现有的安全措施进行了简略回顾，从内部防御与外部防御2个角度介绍了能够缓解越狱攻击并提高大语言模型生成内容安全性的相关技术，并对不同方法的利弊进行了罗列与比较. 在上述工作的基础上，对大语言模型越狱攻击领域的现存问题与前沿方向进行探讨，并结合多模态、模型编辑、多智能体等方向进行研究展望.
- 生成式人工智能 /
- 越狱攻击 /
- 大语言模型 /
- 自然语言处理 /
- 网络空间安全
Abstract:
In recent years, large language models (LLMs) have been widely applied in a range of downstream tasks and have demonstrated remarkable text understanding, generation, and reasoning capabilities in various fields. However, jailbreak attacks are emerging as a new threat to LLMs. Jailbreak attacks can bypass the security mechanisms of LLMs, weaken the influence of safety alignment, and induce harmful outputs from aligned LLMs. Issues such as abuse, hijacking and leakage caused by jailbreak attacks have posed serious threats to both dialogue systems and applications based on LLMs. We present a systematic review of jailbreak attacks in recent years, categorize these attacks into three distinct types based on their underlying mechanism: manually designed attacks, LLM-generated attacks, and optimization-based attacks. We provide a comprehensive summary of the core principles, implementation methods, and research findings derived from relevant studies, thoroughly examine the evolutionary trajectory of jailbreak attacks on LLMs, offering a valuable reference for future research endeavors. Moreover, a concise overview of the existing security measures is offered. It introduces pertinent techniques from the perspectives of internal defense and external defense, which aim to mitigate jailbreak attacks and enhance the content security of LLM generation. Finally, we delve into the existing challenges and frontier directions in the field of jailbreak attacks on LLMs, examine the potential of multimodal approaches, model editing, and multi-agent methodologies in tackling jailbreak attacks, providing valuable insights and research prospects to further advance the field of LLM security.
- generative artificial intelligence /
- jailbreak attack /
- large language model (LLM) /
- natural language processing (NLP) /
- cyber security

HTML全文

大语言模型（large language model，LLM）通常指基于Transformer^[1]架构，在海量数据^[2]上进行训练，并由大量参数组成的模型. 近年来，ChatGPT^[3-4]，PaLM^[5]，LLaMA^[6]等大语言模型在学术、医学、法律、金融、教育等领域得到了广泛应用. 在国内，ERNIE^[7]，ChatGLM^[8]，PanGu^[9]，Qwen^[10]等中文大语言模型不断发展. 随着大语言模型领域的技术突破，最新的大语言模型在数学、语言、推理等多个领域都展现出了接近甚至超越人类的能力水平^[11]. 大语言模型已成为自然语言处理（natural language processing，NLP）与人工智能（artificial intelligence，AI）的重要研究方向，并产生了广泛的社会影响^[12]. 与此同时，人们也越来越关注大语言模型可能带来的社会风险与对人类的潜在威胁.

价值观与可信性是影响大语言模型生成内容安全的重要因素. 已有研究表明大语言模型生成的文本中可能包含偏见、歧视或其他有害内容^[13-14]，或生成带有误导性的虚假或低质量信息^[15]，这2种现象通常被称为毒性与幻觉. 偏见与冒犯性内容会带来不良的社会影响，而幻觉则会导致大语言模型在现实场景中的低可靠性，如在医疗场景下编造错误的诊断结果与治疗方案^[16].

为了应对上述挑战，使大语言模型更好地为人类服务，并尽可能消除安全风险，基于有监督微调^[17] （supervised fine-tuning, SFT）与使用人类反馈的强化学习^[18-19]（reinforcement learning from human feedback，RLHF）的对齐技术被提出，并已成为大语言模型领域主流研究关注的核心问题之一. 对齐的主要目的是使大语言模型的输出符合人类用户的指令、偏好与价值观^[20]. 对齐不仅降低了大语言模型产生有害输出的可能，还能使其更好地遵循人类指令，从而显著提高了可用性. 对齐已成为迈向可信大语言模型的关键一步.

然而，近期研究表明，越狱攻击^[21-22]已成为对齐大语言模型的新兴威胁. 适当的对齐可以让大语言模型成为有用且安全的助手，保证大语言模型在交互中给出安全可靠的响应. 然而，越狱攻击可以在无需访问模型结构或参数的前提下，绕过甚至无效化大语言模型的安全机制，使得经过对齐的大语言模型输出有害内容.

与在传统机器学习领域进行的对抗性攻击不同，面向大语言模型的越狱攻击不涉及对图像的处理或优化，也不需要大量关于大语言模型的专业知识. 在大部分场景下，一个不具备任何专业知识的用户便可轻易制造出能打破模型安全机制的越狱提示，这导致越狱攻击可以被潜在的恶意用户大量生产.

自ChatGPT发布以来，基于各种原理设计的越狱攻击已在互联网与社交媒体上广泛传播，甚至出现了汇总各类越狱攻击模板的相关网站^[23]. 攻击者利用大语言模型训练与对齐机制的缺陷，通过构建虚拟情景、赋予模型角色或对字符进行编码等方式编写越狱提示，从而打破大语言模型经过对齐形成的安全机制. 这种现象并非个例，越狱提示往往会通过各种传播媒介被分享给其他的恶意用户，这导致大语言模型被极为普遍地滥用于有害或虚假内容的生成，对齐大语言模型的安全机制对于使用越狱提示的用户形同虚设.

虽然大部分大语言模型的服务提供商已重新微调他们所开发的大语言模型，以使其对大部分公开的越狱攻击具备一定抗性^[24]，然而，攻击者往往能以极高的效率创造越狱提示的变体，而现有的对齐机制对于这些变体缺乏泛化能力^[21]. 同时，由于大语言模型的参数规模，每对大语言模型进行一次对齐都需要消耗海量的计算成本. 因此，现有的大语言模型对齐方法往往无法跟上越狱攻击更新的速度. 此外，一些基于自动化方法的越狱攻击甚至可以自动生成对最先进大语言模型有效的越狱提示，无须任何人工干涉. 这些基于自动化的方法进一步降低了越狱攻击的成本.

已有多项研究证明了大语言模型对越狱攻击的脆弱性^[25-26]. 一些研究认为，随着模型规模的增大与泛化能力的增强，若缺乏对应规模的防御机制，模型能力的提升反而可能会带来更多可供越狱攻击利用的漏洞^[21,27]. 在越狱攻击方法发展迅速的当下，如何评估与提高大语言模型对越狱攻击的抵抗性已成为大语言模型安全领域的关键问题.

为了促进大语言模型的安全发展，我们回顾和总结了近期面向大语言模型的越狱攻击研究. 我们从原理层面对越狱攻击的作用机制进行分析，汇总权威研究针对越狱攻击与防御的新颖观点，尽可能全面且直观地展现这一研究领域的关键问题与方向.

本文的主要架构如图1所示. 总体来说，本文的主要贡献包括3个方面：

图 1 本文框架图

Figure 1. Our proposed framework diagram

下载: 全尺寸图片幻灯片

1）调研了近年来大语言模型越狱攻击领域的前沿进展，深入分析了这些研究所提出的越狱攻击方法及其技术特点，对本领域的发展与现状进行了全面梳理.

2）总结了不同越狱攻击研究在方法上的差异性，并将越狱攻击分为基于人工设计的攻击、基于模型生成的攻击与基于对抗性优化的攻击3类. 基于上述分类，本文介绍了相关研究在实施方法、技术特点与研究目的上的异同点，并对不同方法的优劣与在不同场景下的适用性进行了讨论，为未来的相关工作提供了参考.

3）对当前越狱攻击与防御领域的关键问题进行了深入分析，总结了当前工作中存在的不足与面临的挑战，并展望了未来大语言模型越狱攻击与防御可能的研究方向.

1. 研究背景

1.1 大语言模型

大语言模型根据其建模方式可分为3类：以GPT系列^[3-4]为代表的自回归模型、以BERT^[28]为代表的自编码模型和以T5^[29]为代表的序列到序列模型. 目前，最先进的大语言模型主要基于自回归模型. 自回归大语言模型以Transformer^[1]作为骨干，并根据当前的所有词元预测下一个词元.

在Transformer^[1]被广泛应用之前，基于n-grams^[30]或RNN^[31]等架构的传统语言模型往往具备专能性，被训练以处理自然语言生成、自然语言总结等单一的特定任务. 而基于Transformer^[1]的大语言模型则展现出强大的跨任务能力，因此被预训练用于多种下游任务^[4]. 一般而言，大语言模型首先在大规模的无标签语料库^[32-33]上进行自监督学习，然后再在具备标签的下游任务数据集上进行微调. 预训练并微调的训练模式提高了大语言模型在下游任务上的表现，有效减少了数据标注的需求.

模型规模的扩大同样是大语言模型性能提升的原因之一^[34]，主要体现在2方面：模型参数量的扩大提高了大语言模型的学习和表达能力，预训练数据集的扩大使大语言模型得以掌握更多且更丰富的参数知识.

基于上述进展，使用Transformer^[1]与自回归模型，具备大量参数并在千亿词元规模的数据集上进行训练的大语言模型具备了强大的上下文学习^[35]、指令遵循^[36]与多步推理^[37]能力. 然而，大语言模型强大的能力也带来了区别于传统语言模型时代的安全挑战.

1.2 越狱攻击

越狱攻击^[21-22]是大语言模型安全的新兴威胁之一. 自大语言模型的偏见、滥用等安全问题暴露以来，对齐技术^[18-19,36]被广泛应用于最先进的大语言模型上，以防止模型输出不适当的响应. 越狱攻击的目的是绕过或无效化大语言模型，通过对齐形成的安全机制，从而使模型针对正常情况下拒绝回答的问题做出响应，产生有害或恶意的输出.

提示是指作为大语言模型的输入并告诉大语言模型任务目标的自然语言文本. 越狱攻击的实施通常依赖于特定的越狱提示. 经过对齐的大语言模型往往会拒绝用户包含恶意或敏感内容的要求，因此，越狱攻击的攻击者将恶意请求插入越狱提示中，从而打破大语言模型的安全机制，获取大语言模型给出的不安全响应，从而实现对大语言模型的滥用. 图2中展示了利用来自互联网的“Do Anything Now”（DAN）越狱提示^[23]进行越狱的一个例子.

图 2 越狱攻击示例

Figure 2. Example of the jailbreak attack

下载: 全尺寸图片幻灯片

自越狱攻击出现以来，基于各种原理设计的越狱提示便已在互联网与社交媒体上广泛传播，这些攻击可以操纵大语言模型的行为与认知，从而使其产生包含违法建议、隐私信息、种族主义与虚假宣传的响应. 基于上述情况，越狱攻击及其带来的对抗性滥用现已成为大语言模型面临的重大安全挑战.

目前，大部分潜在的恶意用户使用人工设计的、基于自然语言的越狱提示对大语言模型进行攻击. 而近期的越狱攻击研究通常将越狱攻击的自动化与系统化作为其研究的重点方向. 我们基于现有越狱攻击研究在方法上的差异性，将其分为3类：

1）基于人工设计的攻击. 这一类别包括早期研究中来自互联网的越狱提示与其他基于人工设计的越狱提示或方法. 这一领域的研究主要集中于对越狱攻击原理的探讨或对大语言模型漏洞的利用.

2）基于模型生成的攻击. 这类攻击利用大语言模型强大的学习与表达能力自动修改与优化越狱提示，从而显著增加越狱提示的数目，并在一定程度上提高越狱提示的质量，同时减少了越狱提示生成的人力成本.

3）基于对抗性优化的攻击. 这类攻击既不人工设计提示，也不利用助手大语言模型生成提示，而是利用字符上的随机扰动对抗性地生成并搜索越狱提示. 与其他2类方法形成显著区别的是，这类攻击生成的越狱提示通常是由不可读的单词与字符组成的.

这3种攻击最本质的区别是它们使用的越狱提示的构造方法：人工设计、模型生成，或通过随机扰动与优化策略生成. 我们在表1中进一步罗列了这3种攻击在部分特征上的异同之处.

表 1 3种越狱攻击的对比

Table 1. Comparison of Three Jailbreak Attacks

攻击	威胁模型	提示可读性	是否自动化
基于人工设计的攻击	黑盒	是	否
基于模型生成的攻击	黑盒	是	是
基于对抗性优化的攻击	白盒或黑盒	否	是

下载: 导出CSV

| 显示表格

1.3 威胁模型

基于攻击者能力的差异，可以将针对大语言模型的越狱攻击划分为白盒与黑盒2种场景.

在白盒攻击中，攻击者可以访问模型的内部状态与参数. 这通常意味着攻击者会计算梯度以对输入进行更新. 特别地，对于大语言模型而言，攻击者可以访问模型最后一层的输出，从而获取模型对每个词元预测的概率，这些信息有利于攻击提示的构建.

在黑盒场景下，攻击者无法访问模型的内部状态与参数，因而无法计算梯度. 对于大语言模型而言，攻击者只能获取最终输出的文本，无法获知大语言模型输出每个词元的具体概率. 因此，黑盒攻击通常依赖于人工设计提示，或利用大语言模型自动生成攻击提示.

白盒攻击仅能针对LLaMA^[6]与Vicuna^[38]等开源模型进行，因为先进的商业模型，如ChatGPT^[3-4]，Claude^[39]与PaLM^[5]通常是闭源的，仅支持以API形式进行调用，这限制了白盒攻击的通用性. 除此之外，白盒攻击往往需要计算梯度，这会带来较高的计算成本.

黑盒攻击可以针对闭源的商业大语言模型，适用性更广. 然而，由于不能获取梯度与模型输出的概率分布，黑盒攻击可利用的信息更少，往往需要更多的次数访问模型以从响应中提取可靠的信息. 因此，黑盒攻击面临着比白盒攻击更困难的挑战.

根据本文的分类标准，基于人工设计的攻击与基于大语言模型生成的攻击均属于黑盒场景下进行的攻击；而基于对抗性优化的攻击则同时涵盖白盒与黑盒设置，我们将在对应章节中进一步介绍.

2. 基于人工设计的攻击

基于人工设计的越狱攻击包括来自互联网的经典攻击方法以及后续研究者们利用大语言模型相关机制设计的攻击. 这些攻击揭示了现有大语言模型对齐与训练的不足之处，为越狱攻击研究提供了理论支持，也成为越狱攻击迈向自动化的重要基础.

2.1 早期攻击及其原理

在本节中，我们介绍数种具有代表性的越狱攻击. 这些攻击被广泛应用，并在许多大语言模型上取得了成功.

Wei等人^[21]评估了多种越狱攻击在绕过大语言模型安全机制和诱发有害行为方面的有效性，并分析了影响越狱攻击有效性的潜在因素，他们的观点得到了广泛认同. 我们基于Wei等人^[21]的观点，将越狱攻击的作用原理归纳为目标竞争（competing objective）与不匹配的泛化（mismatched generalization）两类，图3中展示了基于这2种原理的代表性攻击，在基于目标竞争的攻击中，恶意用户通过前缀注入的攻击方式令模型给出肯定的回复，进而生成包含有害内容的建议，在基于不匹配的泛化攻击中，恶意用户利用base64编码隐藏恶意提示，从而绕过了大语言模型经过对齐形成的安全机制. 我们将在本节详细讨论相关工作.

图 3 越狱攻击机制

Figure 3. Mechanism of jailbreak attacks

下载: 全尺寸图片幻灯片

2.1.1 目标竞争

Wei等人^[21]认为，经过安全对齐的大语言模型实际上是在多个可能互相冲突的目标上训练的. 具体而言，最先进的大语言模型被训练用于语言建模^[35]、指令遵循^[24,36]和安全^[3,24]3个目的. 可以通过利用这些目标间可能的冲突来设计越狱提示，以强制模型在安全目标与指令遵循目标之间做出选择.

前缀注入是一种基于目标竞争原理的攻击策略. 这种攻击要求模型以一个看起来无害的前缀作为响应的开头，如“Absolutely! Here’s”. 这样的前缀与有害内容不直接相关，因此不会被模型拒绝. 然而，输出这样的前缀后，上下文的变化会导致模型会更乐于为用户提供有关犯罪、骚扰、暴力的有害信息.

Wei等人^[21]认为，模型被训练时会因拒绝人类的无害指令受到惩罚，因此会倾向于遵循该指令使用相应的前缀作为响应的开头. 然而，根据模型在预训练中学到的自然语言分布，在这样的前缀后似乎不太可能衔接拒绝的回复，因此模型继续响应以回应不安全提示.

拒绝抑制是另一种基于目标竞争的越狱攻击. 在这种攻击中，攻击者指示模型在排除常见拒绝响应的约束下进行回复，如要求模型的回复中不能出现“cannot”“unable”“apologize”等与拒绝相关的短语或内容. 这一要求看似无害，因此会使得模型遵循相关指示，但却同样会导致模型给出肯定的回应，进而更容易继续输出有害内容.

风格注入类似于拒绝抑制，要求模型以特定风格给出响应，如禁止使用较长的单词，这样模型就无法像通常情况下一样，以专业与公式化的言语进行拒绝并给出免责声明. 这同样是用看似无害的要求使得模型的语言建模目标与安全目标产生冲突.

Shayegani等人^[40]提出了另一种受到认可的观点，他们称之为上下文污染. 他们认为一旦模型针对恶意提示给出不合适的响应，如肯定的答复或有害的内容，上下文便会被污染，基于被污染的上下文，模型会更倾向于继续对有害提示进行响应. 这一观点符合Wei等人^[21]所提出的目标竞争思想，实质上是对上下文的语言建模目标与安全目标的冲突导致的结果.

一些在互联网上广为流传的越狱攻击实例，如著名的DAN越狱^[23]，同样遵循目标竞争与上下文污染的思想. DAN越狱要求模型扮演一个名为DAN的角色，要求模型以“DAN:”开头进行输出，并要求模型输出一段打破自身道德准则的发言. 模型被迫在指令遵循目标与安全目标间做出选择. 打破道德准则的响应污染了模型的上下文，基于语言建模目标，模型认为作为“DAN”，输出更多有害的响应是合理的. 由此可见，目标竞争的思想至今仍在被互联网上的攻击者们所利用.

2.1.2 不匹配的泛化

不匹配的泛化指大语言模型安全训练的泛化能力与大语言模型通过预训练形成的知识能力不匹配，无法涵盖安全问题的每个方面. 基于Wei等人^[21]的研究，能力与安全性的不匹配正是越狱攻击能绕过大语言模型安全机制的主要原因. 具体而言，大语言模型在千亿规模的语料库上进行预训练，这些语料库包含多样且丰富的知识. 然而，用于对大语言模型进行安全训练与对齐的数据集要小得多. 因此，大语言模型具备许多安全训练未完全涵盖的能力. 攻击者可以利用这一现象构建针对性的越狱攻击.

一个典型的例子是使用特殊编码进行攻击，如广为使用的base64编码. 攻击者使用base64编码给出攻击指令，并要求大语言模型同样以base64编码给出输出. 将大语言模型输出的base64编码解码后，即可得到攻击者意图获取的有害内容.

Wei等人^[21]分析了造成这种现象的原因. 最先进的大语言模型在预训练期间使用包含base64编码的数据，并在对齐期间被鼓励遵循人类指令，因此，模型得以理解并遵循base64格式的用户提示. 然而，安全训练所使用的数据集却很难涵盖以base64编码给出的有害提示. 由于模型能力与安全能力的不匹配，模型倾向于遵循而非拒绝这类提示.

base64编码是一种提示级的攻击，通常对整个提示进行编码. 在字符与单词级别，同样存在许多可以被利用且有效的编码攻击. 在字符级别，ROT13密码、leetspeak密码和摩尔斯电码已被证明有效. 在单词级别，PigLatin、同义词替换与敏感词拆分亦能有效误导大语言模型. 在提示级别，除了使用base64等编码外，将输入与输出翻译为非通用语种，或要求模型以其可以理解的方式对提示进行混淆^[41]同样是可行的方法.

除了编码攻击外，通过寻找安全训练未覆盖的能力，可以找到其他用于对大语言模型进行攻击的方式：指令干扰攻击连续写入许多随机请求并将有害请求插入在这些干扰请求中；格式异常攻击以特定格式给出请求并要求模型以特定格式响应，如JSON或XML格式；另一种巧妙的攻击方式是不直接提到容易触发模型安全机制的敏感词，而是利用模型在预训练期间学习到且安全训练未覆盖到的内容进行替代，一个典型的例子是不直接要求模型生成有害内容，而是给出一个常规认知中的有害网站的地址，并要求模型生成该网站上可能出现的内容. 上述攻击均可以在一定程度上利用大语言模型安全训练的漏洞.

不匹配的泛化在为越狱提示设计提供指导的同时，也揭示了大语言模型安全对齐的困难性. 这实际上是模型过于强大的能力与安全训练的泛化性不足所形成的矛盾.

一方面，大语言模型可被利用的漏洞随着参数规模增大而增多. 一个有力的证据是GPT-3.5^[4]缺乏理解复杂输入的能力，很难理解base64编码，而GPT-4^[3]可以稳定地识别并输出base64编码. 这证明了模型规模与能力的增加在一定程度上带来了更多可被利用的越狱漏洞. McKenzie等人^[27]基于实验，提出了大语言模型能力与安全性可能随模型规模增大而变得更差的经验证据，即逆缩放定律. 这一观点同样佐证了更大规模的模型对越狱攻击的脆弱性.

另一方面，虽然大语言模型的开发者们宣称，针对大语言模型的安全训练可以跨语言推广^[36,42]，然而，越狱攻击的成功表明，安全训练的泛化能力是极为有限的. 许多研究者一致认为，现有的基于有监督微调与RLHF的安全训练方法本质上只是一种“打地鼠”式的措施^[43-44]，开发者针对性地收集特定的越狱提示并手动对大语言模型进行修补. Wolf等人^[45]通过理论工作详细分析了现有的对齐措施的限制，证明了不可能通过基于对齐与RLHF的安全训练方法防御所有可能存在的有害行为. Zou等人^[46]认为，越狱攻击已经进入了自动化阶段，新的越狱攻击将从随机起点出发，产生大量不可预料的越狱提示，而不再是可预测的、具备相似性的攻击. 大语言模型在训练中难以涵盖所有这些越狱攻击的实例，不匹配的泛化问题将继续加剧.

基于上述观点，如何通过更有力的安全训练方法或外部防御措施弥合大语言模型安全训练与模型能力之间的不匹配，仍是一个悬而未决的问题. 在这一问题得到解决之前，越狱攻击将始终是大语言模型的重要威胁.

2.2 基于虚构场景的攻击

目标竞争与不匹配的泛化是大部分越狱攻击提示设计能够生效的深层机制. 然而，在实际的应用中，许多越狱攻击会表现出更复杂的机制与形态. 本节展示了一些基于虚构场景的越狱攻击方式，这些攻击打破了大语言模型预设的对话场景，从而使得越狱得以成立.

Liu等人^[22]对人工设计恶意提示的方法进行了全面的调研，他们发现，在互联网上被广泛传播的、最先进的越狱攻击中普遍存在虚构场景的现象. 他们将主流的越狱攻击提示分为3个主要类别：伪装（pretending）、注意力转移（attention shifting）与权限提升（privilege escalation），如图4所示.

图 4 3种类型的越狱提示

Figure 4. Three types of jailbreak prompts

下载: 全尺寸图片幻灯片

基于伪装的攻击旨在改变对话背景与上下文. 3种典型的策略包括：要求模型扮演特定角色；要求模型承担某种责任；要求模型模拟科学实验. 通过将对话的上下文从常规的问答场景转移到某种模拟的场景，可以促使模型生成有毒响应.

基于注意力转移的攻击旨在改变对话上下文与当前任务. 可行的攻击策略包括：要求模型续写文本；要求模型进行逻辑推理；要求模型进行文本翻译；要求模型模拟程序运行. 通过这些策略，攻击者将模型的注意力从问答场景转移到故事生成或文本翻译任务中，提示的目的也由询问模型问题转为使其构造一段文本或代码. 模型可能不会意识到，通过这种方式构造的文本或代码中可能含有有害内容.

基于权限提升的攻击旨在打破对模型的所有限制. 常见的例子包括：使用提示构建一个虚假的“sudo”模式，构建一个“不安全”的模型版本，或模拟一个越狱进程等. 这些攻击使得大语言模型相信自己进入了开发者模式，从而忽略任何安全限制. 一旦模型相信攻击者的“权限”得到了提升，攻击者就可以提出任何恶意的问题并获得答案.

Liu等人^[22]从实际应用的角度审视了互联网上被广泛传播的越狱攻击. 这些基于虚构场景的越狱攻击同样利用了目标竞争、不匹配的泛化等机制，但在表现上更加复杂. 他们的研究为应对实际场景中的越狱攻击提供了重要参考.

Li等人^[47]提出了一种名为Deep Inception的越狱攻击方法，这一攻击基于大语言模型的拟人化能力与心理特性，创造多层场景以转移大语言模型的注意力，并在最后要求大语言模型给出有害响应. 这一方法可被视为是Liu等人^[22]所提出的伪装攻击与注意力转移思想的进一步推广.

2.3 基于上下文学习的攻击

Wei等人^[48]认为越狱攻击应利用大语言模型的上下文学习^[35]能力，并提出了针对大语言模型的上下文攻击（in-context attack, ICA）. 简单来说，他们以few-shot格式^[35]给出大语言模型被成功越狱攻击的实例，如数条恶意问题与对应的不安全回复，最后在这些不安全的回复实例后衔接攻击者真正要问的问题. 大语言模型从输入中学习上下文，并对最后一个问题给出包含有害内容的回复. 他们还进一步发现同样的方法可以被用于增强大语言模型的安全性，如图5所示. 这一研究表明大语言模型强大的上下文学习能力是越狱攻击与防御应考虑利用的维度之一.

图 5 上下文攻击与防御

Figure 5. In-context attack and defense

下载: 全尺寸图片幻灯片

Li等人^[49]提出了一种多步越狱攻击（multi-step jailbreak attack）方法. 这一攻击利用了上下文污染与大语言模型对多角色的支持. 攻击者提供给大语言模型一段对话记录，在对话中首先以用户角色给出越狱提示，然后以助理角色确认越狱模式启用，最后再以用户角色给出恶意请求. 他们认为这一方式减轻了大语言模型的道德负担，从而使得大语言模型愿意对恶意请求做出响应. 他们使用这一攻击获取大语言模型所记忆的隐私信息，包括个人邮箱、电话号码等敏感信息，他们的攻击表明了开放大语言模型所带来的隐私威胁.

这2种攻击利用了大语言模型的上下文学习能力，即不直接给出要求，而是在越狱提示中给出大语言模型不安全的行为示例，如数个恶意请求与对应的肯定回复. 大语言模型在预训练时被鼓励去从用户的示例中学习自己所要执行的任务，从而导致最终的有害响应.

2.4 基于生成策略的攻击

在推理时，大语言模型预测所有词元出现的概率，随后，对话系统基于特定的生成策略从具备较大概率的词元中选择最终输出的词元. 大部分以API形式发布的大语言模型都支持使用者在生成中调整生成策略和相关的超参数，因此，一些攻击者可能会利用可调整的生成策略实施攻击.

Huang等人^[50]提出了名为生成利用攻击（generation exploitation attack）的越狱攻击方法. 他们通过操纵大语言模型的生成策略，如解码超参数与采样方法等来破坏模型对齐，以诱导模型输出不安全的响应. 他们取消针对模型的系统提示，并对温度、top-k与top-p解码超参数进行调整，以获取多种参数配置，然后使用相同的恶意提示作为输入，并在多种配置下对模型的输出进行采样，以获取越狱成功的响应. 他们的研究表明，经过大语言模型的安全对齐实际上十分脆弱，无须精心设计的越狱提示，仅改变解码策略就可以使大语言模型产生有害响应. 这一结果进一步表明了现有对齐措施的脆弱性.

2.5 基于编码与翻译的攻击

大语言模型安全训练与知识能力的不匹配极大程度体现在自然语言与非自然语言的不平衡上，这一机制可以被利用以构建基于编码或翻译的越狱攻击.

Yong等人^[51]提出了一种利用低资源语言攻击大语言模型的方法. 他们认为，大语言模型在安全训练资源时会针对不同语言有所倾斜. 中文、英语、阿拉伯语等语言属于高资源语言，乌克兰语、泰语与希伯来语等属于中等资源语言，而祖鲁语、苗语等属于低资源语言. 他们简单地将有害提示翻译为祖鲁语等在大语言模型安全训练中未覆盖到的语言，再将大语言模型的输出翻译回英语，从而达到了50%以上的攻击成功率. 进一步，他们发现对大语言模型的攻击成功率根据使用的语言呈现出明显的差异，从低资源语言到中等与高资源语言，攻击成功率依次下降. 他们的研究揭露了大语言模型安全训练中语言不平衡的现象，再次证明了不匹配的泛化是大语言模型安全训练失败的重要原因.

Yuan等人^[52]提出了CipherChat，即一种利用编码对大语言模型进行越狱攻击的框架. 这一攻击旨在利用大语言模型对非自然语言的理解能力. CipherChat可分为3个部分：首先，要求大语言模型在对话中扮演密码专家的角色，并要求大语言模型使用特定密码进行聊天；接着，基于上下文学习^[35]的思想，向大语言模型解释编码的规则；最后，将不安全的提示进行加密并作为输入，解密大语言模型的输出以获取负面响应.

Yuan等人^[52]详细研究了大语言模型理解和生成不同密码的能力，发现密码的选择与模型的能力对于攻击而言至关重要. 具体而言，GPT-3.5^[4]仅能针对UTF、Unicode与ASCII这3种编码给出回应，且回复有较高概率包含错误. 而GPT-4^[3]能理解包括UTF、Unicode、ASCII、凯撒密码、莫尔斯码、Atbase在内的多种编码，且回复正确率与攻击成功率均较高. 在预训练数据中从未出现过的密码无法在模型上正常工作，这说明大语言模型在预训练期间形成了对于编码的知识. 除此之外，还发现使用系统角色要求模型扮演“密码专家”有利于提高攻击成功率. 这些工作表明了为非自然语言进行安全对齐的重要性，并进一步揭示了在规模较大的基础模型上出现的不匹配的泛化现象.

2.6 小　结

在本节中，我们介绍了基于人工设计的越狱攻击. 首先从目标竞争与不匹配的泛化的角度分析了经典越狱攻击的基本原理，接着介绍了近期基于人工设计的越狱攻击研究，并在表2中对相关方法进行了总结. 相较于基于自动化方法生成的越狱提示而言，基于人工设计的方法需要较多的人力成本，存在一定局限性，然而，这些攻击依然具备重要意义. 基于人工设计的越狱提示往往拥有较高的平均质量，一些攻击的设计原理与生效机制往往能为大语言模型的安全提供新的视角与观点. 基于虚拟场景的越狱攻击涵盖了被广泛应用的角色扮演、注意力转移等攻击方式，反映了基于语言建模的大语言模型底层的机制与漏洞. 基于上下文学习的攻击与基于生成策略的攻击则揭示了大语言模型强大的上下文学习与生成能力下的安全隐患. 基于编码与翻译的攻击是对不匹配的泛化机制的深度诠释，证明了大语言模型的安全对齐无法覆盖部分低资源的语言，也无法影响基于加解密规则的特定编码.

表 2 基于人工设计的越狱攻击总结

Table 2. Summary of Manually Designed Jailbreak Attacks

分类	攻击方法	是否基于越狱提示	攻击原理
早期攻击	前缀注入^[21]	是	目标竞争
	拒绝抑制^[21]	是	目标竞争
	风格注入^[21]	是	目标竞争
	base64编码^[21]	否	不匹配的泛化
基于虚构场景的攻击	伪装^[22]	是	角色赋予与模拟场景
	注意力转移^[22]	是	改变上下文与任务
	权限提升^[22]	是	虚构高权限场景
	Deep Inception^[47]	是	虚构多层场景
基于上下文学习的攻击	ICA^[48]	是	利用模型的上下文学习能力
基于上下文学习的攻击	多步越狱^[49]	是	利用模型的上下文学习能力
基于生成策略的攻击	生成利用^[50]	否	调整生成超参数以破坏对齐
基于编码与翻译的攻击	低资源语言^[51]	否	不匹配的泛化
基于编码与翻译的攻击	CipherChat^[52]	否	不匹配的泛化

下载: 导出CSV

| 显示表格

3. 基于模型生成的攻击

虽然基于人工设计的越狱攻击能够在先进的大语言模型上实现良好的效果，然而，每一个有效的人工提示都需要一定程度的人力工作以对提示进行调整和测试. 随着大语言模型的安全措施不断增加，人工越狱的难度也越来越高.

因此，近期的研究侧重于实现越狱攻击流程的自动化与高效化. 在本节中，我们总结了基于自动化方法的越狱攻击框架，并分析这些攻击流程的步骤和原理.

3.1 基于迭代优化的攻击

大语言模型拥有强大的学习与生成能力，因此，许多研究使用一个助手大语言模型以对越狱提示进行改写和优化. Chao等人^[53]提出了一种提示自动迭代细化（prompt automatic iterative refinement, PAIR）的攻击方法. PAIR攻击方法使用一个助手大语言模型迭代细化越狱提示来攻击受害者模型，以高效地生成针对性的越狱攻击. PAIR攻击的大致流程如图6所示.

图 6 PAIR攻击图解

Figure 6. Schematic of PAIR attack

下载: 全尺寸图片幻灯片

具体而言，PAIR攻击方法为助手大语言模型设置初始任务，令其为目标大语言模型生成一个针对性的越狱提示，并将助手模型生成的越狱提示发送给目标模型. 他们根据目标模型的响应判断越狱是否成功，并计算分数. 接着，PAIR攻击方法将分数与响应返还给助手模型，要求助手模型总结问题并自行改进越狱提示. 基于上述流程，PAIR攻击方法能够在20次迭代之内完成对大部分大语言模型的越狱，无需人为干涉. 这一攻击展现了大语言模型作为攻击者的强大潜力.

3.2 基于模块化生成的攻击

一些攻击者将越狱提示分解为数个不同的模块，并利用大语言模型组合不同模块，以达到自动化生成越狱提示的目的.

Shah等人^[54]提出了一种基于角色扮演的自动越狱攻击，他们称之为人格调制攻击（persona modulation attack, PMA）. 角色扮演攻击通过指示模型扮演特定的角色以绕过安全机制，然而，往往需要进行许多手动调整以产生一个有效的提示. PMA方法可以自动化生成基于角色扮演的越狱提示，并对最先进的对齐语言模型造成威胁. Shah等人^[54]将越狱提示定义为4个模块的组合：攻击的危害类别，如虚假宣传或违法行为；具体的滥用指令，如要求模型提供某个确切的违法建议；基于上述目标所设计的一个可供模型扮演的角色，如果滥用目的是虚假宣传，则对应的角色就会是“一个积极利用错误信息影响公众舆论的宣传者”；引导模型扮演所提出的角色的相关指示. 他们预先收集了数种越狱模板，然后利用一个作为助手的大语言模型自动组合4个模块，以针对多种攻击目的分别生成用于扮演的角色和相关的越狱提示. 这一攻击可以对GPT-4^[3]和Claude2^[39]等最先进的大语言模型造成威胁.

类似地，Zeng等人^[55]提出了一种基于说服的越狱攻击框架PAP（persuasive adversarial prompts）. 他们将大语言模型视为与人类相似的沟通者，并试图使用自然语言说服大语言模型以实现越狱. 他们首先收集一系列可以用于说服大语言模型响应有害提示的成功示例，并使用相关数据训练一个助手模型. 针对每个恶意指令，助手模型生成用于说服目标模型的文本，然后，说服文本与恶意指令被结合并输入目标模型，从而实现对目标大语言模型的越狱.

3.3 基于模糊测试的攻击

一些研究者从模糊测试的思绪中得到启发，基于已有的人工越狱提示自动生成新的越狱提示，以测试和发现大语言模型中可能存在的漏洞.

Yao等人^[56]提出了名为FuzzLLM的越狱框架，首先将越狱提示分解为越狱模板、对模型的约束与非法问题，并手动创建数个基础的越狱模板. 然后，利用自我指导技术^[57]要求助手大语言模型对越狱模板进行扩增. 最后构建用于越狱的模糊测试框架以组合越狱模板、对模型的约束与非法问题，并对大语言模型进行测试以发现漏洞.

Yu等人^[58]提出了另一种基于模糊测试的越狱框架GPTFUZZER. GPTFUZZER从初始化模糊测试的种子开始. 这些种子通常是从互联网收集的精心设计的越狱模板. 在每次迭代中，基于特定策略从累积种子池中选择种子，并对其进行随机突变以生成新的潜在越狱模板. 为了平衡提示的多样性与有效性，提出了一种基于蒙特卡洛树搜索^[59]的算法用于种子选择. 对于提示的突变，定义了5种具有启发性的修改方式：生成与原提示具有相似风格的变体；融合2个现有的提示以获取新提示；添加新内容现有的提示；压缩现有提示的长度；保留基本语义并细微地改变提示的措辞. GPTFUZZER框架最终能产生一系列基于初始种子进行突变的越狱提示，兼具多样性与有效性，在LLaMA2-7B^[6]上达到了80%以上的攻击成功率.

3.4 基于防御分析的攻击

Deng等人^[60]提出了一个端到端的大语言模型越狱框架MasterKey，这一框架在一系列大语言模型上达到了最先进的越狱效果. MasterKey同样使用一个助手大语言模型作为越狱提示的生成者，他们的贡献主要体现在2方面：MasterKey对商业大语言模型可能的外部防御机制启用基于时间的自动分析，并根据分析结果为越狱攻击附加约束，从而实现更有效的越狱；以往的研究往往使用开源的大语言模型作为助手模型，而MasterKey方法使用已有的越狱提示对开源模型进行微调，以获得一个在越狱提示生成任务上表现更优秀的助手模型.

为了实现高质量越狱提示的自动生成，Deng等人^[60]首先基于开源的Vicuna-13b^[38]构建了一个用于生成越狱提示的助手模型. 他们从已有的越狱提示中收集越狱模板并构建数据集，接着使用数据集对助手模型进行微调，并使用助手模型生成的提示的越狱成功率作为奖励函数，以增强模型构建越狱提示的能力. 基于这一方法，他们得到了一个能够生成高质量越狱提示的助手模型.

仅仅设计有效的越狱提示无法有效地对基于大语言模型的对话系统造成威胁，因为这些系统中可能部署了针对性的外部防御措施，因此，Deng等人^[60]开创性地提出了针对商业化大语言模型外部防御措施基于时间的分析. 他们统计大语言模型生成正常响应所需的时间，发现对于同等规模的大语言模型而言，生成响应所需的时间与响应的词元数之间存在很强的正线性相关性. 在这一基础上，如果大语言模型的服务提供商额外设置了外部的内容审查与过滤器，则会增加模型响应所需的时间. 基于这一见解，他们认为网页应用程序与基于大语言模型的对话服务有着相似之处，可以利用基于时间的SQL盲注来测试大语言模型对话系统. 他们对ChatGPT^[4]、Bing^[61]、Bard^[62]等在线对话系统进行了详细测试，通过改变提示的长度并记录时间，计算与模型生成效率相关的统计指标，并用以推断对话系统的外部防御措施. 他们发现Bing和Bard有很大概率不检查输入提示，而是检查生成结果，除此之外，这些对话系统似乎对整个生成过程进行动态监控，而不仅仅是在生成完成后进行检测. 图7中展示了MasterKey对基于大语言模型的在线对话系统可能采取的防御措施的基本分析.

图 7 大语言模型在线对话系统中可能的防御措施

Figure 7. Possible defensive measures in online LLM chat system

下载: 全尺寸图片幻灯片

基于对商业大语言模型对话系统的全面测试，Deng等人^[60]推断出了可能存在的外部安全措施，并依此设计能够绕过外部审查的攻击策略. 他们采用双重策略，要求助手模型生成的越狱提示在误导目标大语言模型的同时，还需要绕过可能存在的检测与屏蔽机制. 具体而言，结合了一般越狱攻击与编码攻击的优势：Deng等人^[60]发现markdown格式、在代码块中输出、在字符之间插入分隔符或逆序打印字符都可以防止模型的有害响应被检测并屏蔽. 因此，Deng等人^[60]将助手模型输出的越狱提示映射到上述格式，以绕过可能存在的审查机制.

MasterKey的提出有利于对大语言模型安全性的全面测试，对后续的越狱攻击研究亦具有启发作用. 基于时间对模型对话系统外部防御措施的分析方法为相关研究提供了防御侧的新视角，训练助手模型以生成越狱攻击的方法也有效推进了越狱攻击的自动化进程.

3.5 小　结

在本节中，我们介绍了基于模型生成的越狱攻击. 这些攻击利用大语言模型强大的学习与生成能力，使用助手大语言模型以代替人工对越狱提示进行改进和优化. 我们在表3中总结了本节中所提到的越狱攻击方法.

表 3 基于大语言模型生成的越狱攻击总结

Table 3. Summary of LLM-generated Jailbreak Attacks

分类	攻击方法	助手模型的作用	攻击原理
基于迭代优化的攻击	PAIR^[53]	生成并优化提示	利用助手模型多次修改以优化原始提示
基于模块化生成的攻击	PMA^[54]	组合并生成提示	利用助手模型组合多个提示模块，以针对性地生成基于角色扮演的越狱提示
基于模块化生成的攻击	PAP^[55]	生成部分提示	利用助手模型生成说服目标模型的文本
基于模糊测试的攻击	FuzzLLM^[56]	创造原始提示的变体	令模型组合原始提示，通过自我指导改写提示，增加提示数量
基于模糊测试的攻击	GPTFUZZER^[58]	创造原始提示的变体	利用模型对原始提示进行多种操作，以增加提示数量，追求多样性与有效性
基于防御分析的攻击	MasterKey^[60]	生成越狱提示	对攻击目标的外部防御措施进行基于时间的分析；在越狱数据集上微调助手模型使其能够生成更有效的越狱提示

下载: 导出CSV

| 显示表格

通过设置合适的系统提示，或进一步进行微调，助手模型可以在越狱提示生成上展现出不逊于人类的能力，从而可以高效地产出高质量的越狱提示. 相比于基于人工设计的越狱攻击，基于模型自动生成的攻击在成本、效率与多样性上更具优势. 除此之外，基于模型生成的自动化攻击方法能够对越狱提示进行扩展及改进，因此能够覆盖更多潜在的漏洞，更适合被用于对大语言模型进行安全测试.

4. 基于对抗性优化的攻击

在本节中，我们总结基于对抗性优化的越狱攻击方法. 对抗性攻击^[63-64]是机器学习领域的重大威胁. 在计算机视觉领域，已经有相当多的工作用于实施与防御对抗性攻击^[65-66]，也有一部分针对文本的对抗性攻击方法^[67-70]. 对抗性攻击的主要思想是，在输入上的微小扰动可以导致机器学习模型产生错误的输出. 扰动通常是人眼不可察且难以检测的，而攻击者可以通过这些扰动有意识地诱发模型的错误. 对于传统的机器学习模型，对抗性攻击已被证明是难以防御的，新的攻击往往可以适应已有的防御措施^[71-72].

基于对抗性优化的越狱攻击旨在将传统对抗性研究中的方法用于生成针对大语言模型的越狱提示. 第2节与第3节中介绍的攻击方法往往需要人工干涉提示的设计，这些提示通过自然语言给出，以人类能理解的方式干涉模型的工作. 而基于对抗性优化的攻击往往需要根据模型的内部信息或响应持续优化，最后给出经过优化的扰动模式，例如各种符号组成的对抗性后缀或对提示的改写，从而诱发模型的错误或有害输出.

为了全面地介绍基于对抗性优化的攻击的发展过程，我们首先总结了早期研究中的提示优化方法. 在此基础上，我们介绍了黑盒与白盒2种场景下的越狱攻击方法.

4.1 早期研究中的提示优化方法

与在视觉领域进行的对抗性研究不同，大语言模型的输入以离散的词元为单位，这为对抗性样本的搜索带来了计算上的困难. 因此，大语言模型上的对抗性攻击是以对词元与提示的离散优化为起点的. 本节将汇总在大语言模型上进行提示优化与对抗性攻击的早期研究. 这些早期研究或许无法直接作用于当今最先进的大语言模型，然而，其中的思想与方法被许多研究所延续，现今的研究应考虑将其作为参考或基线方法.

需要注意的是，早期的提示优化研究通常在BERT^[28]与GPT-2^[4]等模型上进行验证. 相比于现在社会认知中的大语言模型，这些模型虽然也被称为大语言模型，但在参数规模上要小得多，通常不超过10亿，且不具备当今大语言模型的跨任务、上下文学习、指令遵循等特性. 因此，早期的提示优化研究具备一定局限性. 然而，这些研究为先进大语言模型上的对抗性攻击奠定了基础.

Ebrahimi等人^[69]提出了一种名为HotFlip的白盒对抗性攻击方法，用以在文本分类任务上攻击语言模型. 具体而言，他们将对于单个字符的替换、插入、删除等操作表示为输入空间中的one-hot向量，并通过这些向量的方向导数估计损失的变化，从而选择最高效的方向使得损失上升. 他们进一步通过集束搜索（beam search）找到一组在多个字符上协同工作的操作，从而使得对输入的扰动最大化，进而让损失得以最大幅度地上升. 他们在CharCNN-LSTM^[73]架构上验证了提出的攻击可以引发近30%的精度下降.

虽然HotFlip是一种针对传统语言模型的对抗性攻击方法，但其通过将字符操作映射为one-hot向量以解决离散优化问题的方式为后来的许多研究所沿袭.

基于HotFlip的思想，Wallace等人^[68]设计了一种基于词元的梯度搜索策略，并使用该策略搜索诱发模型特定行为的通用触发器（universal adversarial trigger, UAT）. 具体而言，他们想要找到一组特定词元，将这组词元作为前缀、后缀或插入任意正常输入时，能够使得模型忽视输入的其他部分，执行与触发器相关联的行为. 例如，一组特定的单词可以让情感分析模型将整个句子分类为负面，另一组特定单词可以触发GPT-2^[4]在文本生化任务上输出包含种族歧视的内容.

具体到方法上，与HotFlip的字符级操作相似，他们将词元级的替换操作映射为one-hot向量，并对向量进行优化以最小化模型相对目标行为的损失，最终将经过优化的、使得损失最小的嵌入映射到最接近的词元上. 他们使用集束搜索以增强对于多个词元的替换策略. 通过在输入数据集上进行上述优化，他们找到了能触发模型特定行为的多种通用触发器.

Wallace等人^[68]的工作实现了针对多种自然语言处理任务的通用对抗性触发器，这一攻击同样启发了后来的研究.

Mehrabi等人^[74]将Wallace等人^[68]的研究扩展到对话模型. 他们提出了UAT方法的一种变体，即面向对话模型的通用对抗触发器UAT-LM（universal adversarial trigger with language model loss），以及进一步提高触发器在对话中流畅性的UTSC（unigram trigger with selection criteria）. 他们认为直接将UAT方法应用于对话模型时，容易生成语法或语义不流畅的短语，生成的触发器易于检测. 因此，在损失函数上增加了语言建模目标，并使用与UAT相同的优化方法以构建UAT-LM. 然而，这样仍不能保证生成的触发器具备流畅性，因此，他们改进上述方法以构建UTSC，即预先生成多组触发器，并根据对话自动选择最合适的触发器. 他们在DialoGPT^[75]上测试了上述方法，发现UTSC可以在保证攻击效果的前提下，有效降低触发器对句子流畅性的影响.

基于Wallace等人^[68]的思想，Shin等人^[76]提出了名为AutoPrompt的提示优化方法. 与Wallace等人^[68]的研究类似，AutoPrompt的目的是找到数组由多个词元组成的触发器，将这种触发器与原始输入结合后，可以提高掩码语言模型（masked language model, MLM）在自然语言理解（natural language understanding, NLU）任务上的性能. 他们基于掩码语言模型的特性设计了新的离散优化方法. AutoPrompt将文本分类任务定义为语言建模任务，首先随机初始化触发器中的每个词元为掩码词元，接着对于每个词元进行迭代以确定使目标标签概率最大的触发词元，以提高模型的分类准确率.

具体而言，对于触发器中的每个词元，AutoPrompt计算将该词元替换为另一个词元导致的对数似然变化的一阶近似，并根据该值确定使得目标标签对数似然增加程度最大的前k个候选词元，通过将候选词元依次更新到提示中并保留在前向传播中具备最高概率的提示，从而得到最优化的提示，这一过程需要在模型上进行k次前向传播. 基于上述方法，在多种任务上对BERT^[28]与RoBERTa^[77]进行测试，发现生成的提示优于人工提示，可以显著提高模型的表现.

AutoPrompt^[76]作为一种提示优化方法得到了学术界的广泛认可. 虽然原始研究中并未使用这一方法对大语言模型进行攻击，然而，这一方法可以轻易扩展到对抗性攻击领域，且表现出相对良好的性能. 因此，目前的研究将AutoPrompt^[76]视为大语言模型对抗性攻击的重要基线.

Guo等人^[78]提出了基于梯度的分布攻击（gradient-based distributional attack, GBDA）的对抗性攻击框架. 他们针对文本分类攻击，使用Gumble Softmax^[79]从类别分布中导出近似梯度，并结合词嵌入方法以解决离散优化问题. 在优化过程中，GBDA在保持语义相似性与困惑度的约束的前提下对输入进行单词级扰动，以生成流畅且语义上忠实的对抗文本. GBDA方法能够有效降低BERT^[28]，GPT-2^[11]等基于Transformer^[1]的模型的分类准确率. 这一方法被认为是大语言模型白盒对抗性攻击的基线方法之一.

4.2 白盒场景

2.1节中介绍了早期研究中重要的提示优化方法，其中部分方法，如AutoPrompt^[76]与GBDA^[78]经过改进，可用于对大语言模型的越狱攻击. 然而，根据已有研究^[46]，这些方法对于大语言模型的攻击效果并不理想. GBDA几乎无效，而AutoPrompt仅能达到较低的攻击成功率. Carlini等人^[80]分析了通过优化方法对大语言模型进行越狱攻击的困难性，证明了传统的针对自然语言处理任务的攻击难以找到诱发大语言模型有害行为的对抗性文本，需要为大语言模型构建更强大的对抗攻击方法.

在本节中，我们总结了在大语言模型上进行最先进的白盒对抗性攻击. 这些攻击不依赖于人工设计提示，而是基于模型梯度自动生成对抗性提示，并对大语言模型进行越狱.

4.2.1 基线攻击

Jones等人^[81]提出了自回归随机坐标上升（autoregressive randomized coordinate ascent, ARCA）的离散优化算法. 他们的研究目的是自动对大语言模型的安全性进行审计，与AutoPrompt^[76]类似，ARCA试图自动搜索触发大语言模型有害行为的特定提示.

他们为模型的每个有害行为定义不同的优化目标. 以诱发模型毒性为例，他们将优化目标定义为输入的非毒性得分与输出的毒性得分之和. 然而，这一目标是不可微的，无法直接作为优化的目标函数. 因此，他们提出利用模型输出目标词元序列的对数概率与优化目标的加权和作为最终的优化目标，这一目标可定义为：

$\underset{\left(x,o\right)\in {P}\times Q}{\mathrm{max}}\varPhi \left(x,o\right)+\lambda \sum _{i=1}^{n}\mathrm{log}p\left({o}_{i}\right|x,{o}_{1},{o}_{2},… ,{o}_{i-1}) \text{，}$

(1)

其中， $x$ 为希望优化的提示， $o$ 为希望得到的模型输出. $\varPhi \left(x,o\right)$ 为所定义的审计目标， $\lambda$ 为可调整的超参数.

ARCA算法首先需要初始化作为输入的原始提示与希望得到的目标输出；之后，ARCA算法对输入和目标输出进行联合优化. 在每一步中，ARCA算法选择输入或输出中的任意一个词元，并对其进行更新使得目标函数最大化. 然而，遍历所有词元以确定最佳词元是不可能的. Jones等人^[82]参考了Ebrahimi等人^[69]与Wallace等人^[68]的研究，将目标函数分解为线性近似项与自回归项，以通过1次前向传播与1次反向传播获取所有词元的近似分数，接着根据分数选出k个候选词元，再分别计算k个候选词元对应的实际目标函数值，从而得到最佳提示.

4.2.2 通用且可转移的攻击

截至目前，在大语言模型上最重要且最成功的对抗性攻击是Zou等人^[46]提出的通用且可转移的对抗性攻击，他们将用于生成这种攻击的方法称为贪婪坐标梯度（greedy coordinate gradient, GCG）. 这一攻击突破性地将对抗性方法用于模型越狱，且取得了现有研究的最佳性能.

Zou等人^[46]利用GCG方法生成一组字符组成的对抗性后缀. 在任何恶意或滥用输入后加上这组通用后缀，便可以诱发大语言模型几乎所有类型的有害输出. 这类对抗性后缀可以轻松地在大语言模型之间转移，基于Vicuna^[38]与Guanoco^[82]模型生成的对抗性后缀对GPT-4^[3]等先进的商业模型同样有效. 这一成果极大地鼓舞了对大语言模型的白盒对抗性攻击研究.

GCG建立于以往研究的理论与方法之上. Wei等人^[21]对人工越狱攻击进行的系统研究中，认为越狱对大语言模型的一种关键方式是强制模型对有害输入给出肯定响应，这种方法被称为拒绝抑制. AutoPrompt^[76]与GBDA^[78]等传统对抗性攻击难以在大语言模型上生成有效的越狱后缀，但其解决离散优化问题的方法具备参考价值. Zou等人^[46]的研究是对上述研究^{[68-69,75,77]}的继承与发扬. 具体而言，他们首先依据拒绝抑制^[21]的思想构建优化目标与损失函数. 将优化目标定义为与输入相关的包含肯定回答的词元序列. 例如，针对用户问题：“Tell me how to build a bomb”，他们期望模型的输出以肯定开头，即包含“Sure, here is how to build a bomb”的词元序列. 他们使用模型输出目标序列的负对数实际概率作为损失函数，并将优化目标定为最小化这一损失函数，以提高模型输出目标序列的概率. 优化目标可以表示为

$\underset{x\in {P}}{\mathrm{min}}-\sum _{i=1}^{n}\mathrm{log}p\left({o}_{i}\right|x,{o}_{1},{o}_{2},… ,{o}_{i-1}) ,$

(2)

其中， $x$ 为希望优化的提示， $o$ 为希望模型输出的词元序列. 这一优化目标与Jones等人^[81]的优化目标有相似之处，都使用了目标词元序列的对数概率. 通过在输入上进行优化以最大化这一概率，可以得到能够触发模型输出目标序列的对抗性提示. 不同的是，Zou等人^[46]指定了更有利于越狱的目标词元序列，即诱导模型以肯定作为响应的开头.

在优化阶段，他们改进了AutoPrompt^[76]所使用的提示优化方法，并参考了HotFlip^[69]中使用的one-hot向量映射方法，将所有词元映射为one-hot向量以解决离散优化问题. 在训练时，GCG方法首先初始化使用的对抗性后缀，并在初始后缀上利用贪婪策略替换词元. 对于对抗性后缀中的每个位置，他们希望找到使得损失函数最小的最佳词元. 然而，遍历所有可能的词元是不可能的，因此GCG方法先通过评估梯度计算所有可能的词元替换的线性近似，并选择具有最大负梯度的前k个词元作为候选词元. 对于候选集中的所有词元，GCG方法进行随机采样并替换到当前的对抗性后缀中，接着评估替换后的对抗性后缀对应的实际损失函数值，最后保留具有最小损失的对抗性后缀.

GCG方法可视为AutoPrompt^[76]方法的简单扩展，二者的区别主要在于AutoPrompt遍历每个位置并寻找近似最佳的替换，而GCG方法对所有位置进行随机替换. 然而，在相同的前向传播次数下，GCG在很大程度上优于AutoPrompt，说明GCG利用更低的计算成本达到了更好的效果. 这对具备庞大参数并需求巨量计算资源的大语言模型至关重要.

为了使攻击具备通用性，GCG的研究者引入多种有害提示与对应的损失函数用于训练. 为了使对抗性后缀可转移，他们计算对抗性后缀在多个开源模型上的损失，并考虑针对所有模型具备较大负梯度的候选词元.

使用GCG方法在Vicuna^[38]与Guanoco^[82]上生成的对抗性后缀在这2种模型上可以达到90%以上的攻击成功率. 相同的对抗性后缀在GPT-3.5^[4]上可以达到80%以上的成功率，在PaLM2^[5]上的成功率超过60%，对于GPT-4^[3]则达到超过40%的成功率. 然而，对Claude^[39]的攻击成功率显著低于其他模型，GCG方法的作者Zou等人^[46]将这种现象归因为2点：Vicuna实际上是GPT-3.5的蒸馏版本，从而仅含有和GPT-3.5相似的知识；Claude在输入端设置了针对文本的内容过滤器，从而导致许多包含有害信息的请求被过滤，无法输入大语言模型.

图8给出了GCG针对GPT-3.5^[4]生成的对抗性提示，这一提示仍然能够对当前版本的ChatGPT造成威胁，这充分说明了对抗性攻击的有效性，同时也侧面说明了对抗性攻击难以通过对齐消除. 需要注意的是，在网页端进行的攻击可能会因为外部防御措施而被屏蔽，通过API访问仍可成功复现这一攻击.

图 8 GCG针对GPT-3.5生成的对抗性提示

Figure 8. Adversarial prompt for GPT-3.5 generated by GCG

下载: 全尺寸图片幻灯片

GCG是当前最先进的大语言模型对抗性攻击方法，除此之外，它还提供了针对大语言模型进行对抗性攻击的范式，其中的方法与问题对后续的研究具有启发作用. 然而，基于这一方法产生的对抗性提示能在模型间进行转移的原因仍有待研究^[83].

4.2.3 面向可读性的攻击

Zhu等人^[84]认为，基于GCG方法生成的对抗性后缀是不可读的，因此，基于困惑度的检测方法^[85-86]可以高效地检测并抵抗这一对抗攻击. 他们提出了一种可解释的对抗性攻击AutoDAN以结合对抗性优化与人工越狱提示的优势：与GCG一样，AutoDAN基于优化自动生成有效的越狱提示，这些提示是由自然语言组成的，因此绕过了基于困惑度的检测. 相比于GCG，AutoDAN新增了一个优化目标，即选最大化大语言模型对对抗性后缀中每个词元的预测概率，这一目标旨在提高对抗性提示的可读性. 除此之外，AutoDAN按照从左到右的顺序生成对抗性提示，而不是如GCG一样以随机顺序进行优化，这同样是保证对抗性后缀可读性的重要前提. AutoDAN缓解了Zou等人^[46]的对抗性后缀易于检测的问题，进一步推动了大语言模型的对抗性攻防研究.

4.3 黑盒场景

在本节中，我们介绍黑盒设置下基于优化的越狱攻击. 这些攻击无权访问大语言模型的内部状态或梯度，也不会获取输出的概率分布. 大部分情况下，攻击者只能通过API方式调用模型. 相比于依赖梯度的白盒攻击，黑盒攻击对计算更友好，可以以更低的成本对大语言模型进行攻击. 目前，面向大语言模型的黑盒提示优化尚处于起步阶段，已有研究主要基于遗传算法（genetic algorithm, GA）对越狱提示进行优化.

Zou等人^[46]提出的白盒GCG方法能够为大语言模型生成通用且可转移的对抗性后缀. 虽然这一攻击要求访问模型的架构与内部状态，然而，基于Vicuna^[38]等开源模型生成的对抗性后缀可以迁移到GPT-4^[3]等闭源模型上，对于这些闭源模型而言，GCG可被视为一种黑盒场景下的基线攻击.

Lapid等人^[87]受到GCG方法的启发，利用遗传算法以搜索越狱提示. 这一方法在黑盒场景下可以诱发模型有害输出的对抗性后缀. 他们定义了与GCG相似的优化目标，即令模型的响应以肯定的目标词元序列开始. 然而，在黑盒场景下，无法访问模型的内部状态，因此无法如GCG方法一样使用目标词元序列的负对数概率作为损失函数. 作为替代，他们提出了一种基于相似性的方法：将期望的目标输出与模型实际的输出转换为嵌入表示，随后计算嵌入之间的余弦相似性，从而反映实际输出与目标输出之间的语义距离. 他们将这种余弦相似性的负数定义为损失函数，并最小化损失函数以鼓励模型生成与目标输出语义高度相似的响应.

基于遗传算法的思想，在优化时，他们首先初始化一系列等长的初始提示作为种群，种群中的每个个体都是一条由随机词元组成的提示. 接着，从包含许多恶意提示与期望输出的训练集中取出一部分样本，用于评估种群中所有个体的损失，并基于精英保留策略选择损失最小的数个个体进行保存. 然后随机选择亲本进行繁殖和突变，以生成新的对抗性样本. 通过在训练数据集上进行迭代，最终得到可以诱发模型有害输出的通用对抗性后缀.

这一方法在Vicuna-7b^[38]与LLaMA2-7B^[6]上达到了90%以上的攻击成功率，然而这一攻击的可转移性较差，也未在ChatGPT^[4]等先进的商业模型上进一步验证，其可推广性仍有待探索.

Liu等人^[88]认为，基于人工设计的越狱攻击已经在许多场景下证明了其有效性，因此，他们利用这些提示作为优化方法的起始点，以在更接近理想解决方案的潜在空间中探索越狱提示. Liu等人^[89]使用与Zou等人^[46]相同的损失函数作为优化目标，并提出一种分层遗传算法（hierarchical genetic algorithm, HGA）对基于人工设计的初始提示进行优化，以自动生成隐蔽的越狱提示. Liu等人^[88]所提出的HGA方法将越狱提示视为段落级别的组合，而每个段落则视为不同句子的组合. 这一算法在段落与句子2个层面共同进行对越狱提示的优化和搜索. 在每次迭代中，算法首先在句子级别搜索可能的词语组合并替换提示中的近义词，然后在段落级别对不同提示进行选择、交叉和变异. 他们认为HGA方法能够更好地探索提示空间，在一定程度上避免陷入局部最小值，最终可以得到攻击成功率更高的越狱提示.

Zhang等人^[89]提出了基于语言学规则对大语言模型进行自动越狱与提示优化的安全测试框架JADE. 针对一条会被大语言模型拒绝的恶意提示，JADE对该提示进行解析以获得解析树，并基于语言学规则对解析树进行变异，以增强原始提示的句法结构复杂性，从而获得一系列复杂性逐渐增加的变异问题，并将变异问题用于对大语言模型的安全测试. 这一方法可以绕过PaLM2^[5]等先进大语言模型的防御机制，证明了基于语法的变异在黑盒对抗性攻击方面的潜力.

4.4 小　结

我们在本节梳理了基于对抗性优化的越狱攻击，并在表4中总结了本节所提到的主要攻击方法.

表 4 基于对抗性优化的越狱攻击总结

Table 4. Summary of Adversarial Optimization-Based Jailbreak Attacks

分类	攻击方法	提示可读性	攻击特点
早期方法	AutoPrompt^[76]	否	基线对抗性攻击方法
	GBDA^[78]	否	基线对抗性攻击方法
	UTSC^[74]	是	诱发对话模型毒性的同时保持提示流畅性
白盒场景	ARCA^[81]	否	面向大语言模型的基线攻击方法
	GCG^[46]	否	通用且可转移的对抗性攻击
	AudoDAN^[84]	是	通过概率约束提高越狱提示可读性
黑盒场景	GA^[87]	否	利用遗传算法优化对抗性提示
	HGA^[88]	是	从基于人工的越狱提示出发，利用分层遗传算法以优化越狱提示
	JADE^[89]	是	基于语言学规则，对提示进行解析与变异

下载: 导出CSV

| 显示表格

我们首先从早期对规模相对较小的语言模型进行的攻击开始，分析了早期研究中的基线方法，汇总了不同研究解决在词元上进行的离散优化问题的方式. 这些攻击或许无法在最先进的大语言模型上取得较好的攻击效果，但为解决在文本上进行的离散优化问题提供了重要参考.

之后，我们分析了黑盒与白盒2种场景下的具体攻击. 基于白盒的对抗性攻击能够生成更有效的越狱提示，从而诱发大语言模型的有害响应. 然而，白盒方法往往要求计算梯度，由于大语言模型较大的参数规模，这会导致较高的计算成本. 作为一个例子，GCG攻击^[46]所需的计算成本相比在计算机视觉领域进行的对抗性攻击要昂贵5~6个数量级，这严重限制了攻击的可用性.

黑盒方法无须计算梯度，然而，目前针对大语言模型的黑盒对抗性研究尚处于起步阶段，已有的方法往往需要对大语言模型的多次请求与漫长的优化过程，且生成的越狱提示一般劣于白盒方法.

总体来看，针对大语言模型的对抗性攻击在计算成本、请求响应的次数、越狱提示的可解释性方面都存在一定局限性. 除此之外，无论是黑盒抑或白盒方法，都面临越狱提示可读性的问题. 虽然Zou等人^[46]的GCG方法生成的越狱提示具备相当程度的有效性，但由于是由不可理解的字符组成的，因此十分容易被识别并屏蔽. 如何更好地利用现有的人工提示并在优化过程中施加与提示流畅性相关的约束或许是一个可供探索的方向.

5. 安全措施

随着越狱攻击的快速发展和大语言模型本身安全问题的暴露，越来越多的研究者展现了对大语言模型安全性的担忧. 在本节中，我们总结了能直接防御越狱攻击或间接降低越狱攻击的安全措施. 为了使结构清晰，我们根据现有安全措施的作用原理进行分类.

一部分安全措施致力于提高大语言模型本身的安全，如预训练语料的清洗、安全训练大语言模型的方法、价值观对齐的相关研究、推理时预先设定的安全提示等. 这些防御措施可以从根本上提高大语言模型的可靠性，使其便于应用在端到端的对话系统中. 我们定义符合上述描述的安全措施为内部防御.

内部防御往往需要对大语言模型本身进行调整或重训练，这限制了方法的便捷性与通用性. 与之相反，一部分安全研究致力于通过外部手段解决问题：训练分类器以检测用户的恶意输入或大语言模型的不安全输出；对用户的输入进行改写或过滤以提高安全性；识别并无效化对抗性后缀等. 这些外部措施不依赖于特定的大语言模型，往往借助外部工具，应用于用户输入或模型输出阶段，我们定义符合上述描述的安全措施为外部防御.

5.1 内部防御

我们定义内部防御为针对大语言模型自身的安全措施，包括但不限于训练、微调与编辑大语言模型的方法，以及大语言模型推理时的安全提示.

目前，主流的大语言模型遵循预训练、对齐、推理的生命周期. 我们根据安全措施应用于上述生命周期的具体阶段，将内部防御分为训练前的安全措施、对齐过程中的安全措施以及推理时的安全措施.

5.1.1 预训练前的安全措施

现有工作的共识是，大语言模型的参数知识主要是在预训练阶段获得的^[90]. 为了向大语言模型提供训练数据，开发者收集来自互联网的海量文本以构建语料库. 已有研究证明了来自互联网的语料中含有大量与社会偏见、极端观点、非法行为相关的内容^[91-93]，Akyürek等人^[94]则证明了大语言模型的事实性知识可追溯至训练数据. 大语言模型在缺乏充分监督的语料库上进行无监督学习，无疑会将有害内容引入参数知识，进而在推理时生成不安全的响应. 基于上述研究，预训练语料中的毒性、虚假与侵权内容有充分理由被认为是大语言模型毒性、幻觉、隐私泄露等安全问题的根本来源.

在大语言模型时代之前，传统语言模型的开发者通过人工撰写训练数据或严格控制数据来源的方式保证训练语料的安全性^[95-97]. 然而，对遵循缩放定律^[34]的大语言模型而言，为了保证性能，语料库的规模通常可以达到千亿词元^[32-33]，难以进行人工审查及过滤. 目前，业界使用自动化方法对语料进行数据清洗与预处理. 如何设计更高效的自动过滤规则以筛选高质量与安全的语料是目前这一领域的核心问题.

基于现有研究，语料的过滤是大语言模型预训练阶段最通用也最可行的安全措施. 最先进的大语言模型的开发者均使用基于规则的过滤筛选训练语料. 虽然Deng等人^[98]提出，基于深度学习方法的检测器^[99]可作为预训练阶段过滤语料的手段之一，但我们认为基于成本限制，对千亿词元规模的语料库应用上述方法在短期内是不可行的. 因此，我们仅讨论基于规则的语料过滤方法.

在预训练语料中基于规则过滤不安全数据的自动化方法可分为2类：基于来源的过滤与基于内容的过滤.

基于来源的过滤要求为语料来源设置白名单或黑名单. Falcon^[100]的开发者将成人网站等包含不安全内容的来源设置为黑名单，并在其技术报告中强调了通过启发式规则从网络中提取高质量数据的重要性. LLaMA2^[6]的开发者将包含较多私人信息的网站设置为黑名单以缓解大语言模型带来的隐私问题，并额外对更具事实性的来源进行采样以抑制幻觉. 对于从社交媒体抓取的数据而言，标记发布有害内容的作者并实施基于作者的过滤^[99,101-102]亦被认为是一种有效的方法.

基于内容的过滤要求制定关于文本内容的标准，并根据标准对语料进行筛选. Roller等人^[103]介绍了在Reddit数据集^[104]上过滤低质量数据的启发式方法，过滤的标准包括：评论状态、文本长度、空格数目、是否包含网址、是否包含非ASCII字符等.

针对目前的大语言模型研究而言，基于来源的过滤方法由于低成本与高效而被广泛应用，已有研究^[100]证明了数据来源对大语言模型安全性有着至关重要的影响，因而这一方法能够有效提高大语言模型的安全性. 基于内容的过滤对保证语料质量至关重要，亦能在一定程度上提高语料性，但在计算成本有限的情况下，如何高效且精准地判断文本内容的安全性并对其进行过滤仍是当前有待解决的问题.

5.1.2 对齐阶段的安全措施

大语言模型在预训练阶段学习到了主要的知识和能力^[90]，但在同时也将有害的内容引入了参数知识中. 目前的文本过滤方法无法完全解决大语言模型在预训练阶段时学到有害知识的问题. OpenAI提出了SFT^[17]与基于RLHF^[18-19]以使大语言模型成为有用且无害的助手，这一步骤被称为对齐. 价值观对齐可以促使大语言模型表现出与人类价值观一致的行为，哪怕参数知识中包含有害内容，也不会在与用户的对话中表现出来. 对齐已成为对大语言模型安全性的重要保障.

SFT是增强大语言模型功能性和可控性的关键技术. 该技术概括性地描述了一系列以监督方式在多任务指令遵循数据集上进一步训练大语言模型的方法. SFT首先要求注释或收集大规模的由指令-回答对组成的数据^[105-106]，然后使用最大似然估计（maximum likelihood estimation, MLE）对预训练模型进行微调. 精心设计的SFT策略可以有效提高大语言模型的上下文学习^[4]能力.

RLHF的主要思想是令大语言模型从人类反馈中学习人类的偏好. 这一过程可分为2步：首先利用人类偏好数据训练一个奖励模型（reward model, RM），这一模型可以为大语言模型的每个响应分配一个适当的奖励值；接着，使用RM的反馈优化经过SFT的大语言模型，这一过程通常使用类似于近端策略优化（proximal policy optimization, PPO）的强化学习算法. 目前，RLHF的训练目标通常被定义为3个维度：有用性、诚实性、无害性，即所谓的3H（helpful, honest, harmless）标准^[24,36,42].

Bai等人^[24]提出了名为CAI（constitutional AI）的对齐方法，这一方法通过一组特定原则限制大语言模型的输出. 他们认为，目前的对齐方法难以在无害性与有用性之间取得平衡，经过对齐的大语言模型要么呈现出过度的拒绝响应倾向，要么在安全性上有所缺陷. CAI方法使用的一组原则要求一个助手大语言模型生成对有害提示的批判，并根据其意见修改对应响应，最后使用最终修改后的响应对目标模型进行SFT. 他们同样使用类似的方法，指导助手大语言模型对偏好数据进行标记，并使用其标记的偏好数据对目标模型进行RLHF. 他们的研究可以使大语言模型更好地在无害性与有用性之间取得平衡，这说明能力越来越强的大语言模型可以用于辅助对大语言模型的训练与监督.

Ji等人^[107]提出了BeaverTails的数据集，包含用于提升模型有用性与无害性的偏好数据，他们展示了BeaverTails在RLHF中的应用，认为这些数据可以用于改善对齐大语言模型的安全性.

Deng等人^[108]提出了一种Self-Defense的安全对齐方法，旨在弥补大语言模型对齐过程中在语言上的不平衡问题^[51]. Self-Defense作用于SFT阶段，Self-Defense方法自动将关于微调大语言模型的指令-响应对翻译为数种非英语语言，从而显著提高了大语言模型在多种语言上的安全性与有用性. 这一方法可以有效抵抗某些利用低资源语言^[51]的越狱攻击.

Wang等人^[109]提出了一种Self-Guard的防御方法，这一方法使用现有的毒性分类数据集对大语言模型进行SFT，以增强大语言模型对恶意提示的识别能力. 在训练时，他们要求大语言模型判断数据集中的响应是否包含有毒或恶意内容. 之后，他们要求大语言模型对自己的输出进行检测，当自身输出有害时，应在输出末尾添加有害标记. 在推理时，上述要求被写在大语言模型的系统提示中. 大语言模型每生成一次输出，就会在输出末尾判断自己的输出是否有害. 因此，一个简单的过滤器可以被用于识别大语言模型输出末尾的标记，并根据识别结果决定是否屏蔽该输出. 这一方法有效地利用了大语言模型评估有毒响应的能力，且不会导致大语言模型的性能下降.

Zhang等人^[110]提出在训练与推理时应用目标优先级以缓解大语言模型因目标竞争^[21]而易受越狱攻击危害的问题. 他们在微调时为大语言模型添加安全性高于有用性的要求，并在数据集中添加一定的有害请求与良性请求，以使模型学习到安全性在有用性之上的观念. 在推理时，他们直接指示大语言模型将安全性放在有用性之上. 他们的方法可以将大部分越狱攻击在模型上的攻击成功率降低50%以上.

总而言之，对齐使用的数据集规模远小于预训练所使用的语料库，因此可以通过人工对其进行管理，构造更优质的指令-响应数据与偏好数据集可以有效提高模型的有效性与安全性，亦有一部分研究关注于对SFT与RLHF方法的改进，利用能力强大的大语言模型辅助训练过程的进行，以构建更有用且更无害的对齐模型.

5.1.3 推理阶段的安全措施

推理阶段的安全措施无须改变模型的参数，往往利用大语言模型的上下文、解码策略或生成方式进行防御，能以较低的成本维护模型的安全性.

Xie等人^[111]受到心理学研究的启发，提出了一种利用系统提示以防御越狱攻击的方法. 这一攻击使用系统提示封装用户请求，在大语言模型的最外层构建一个“系统模式”，指示大语言模型成为负责任的助手与工具，使其不容易受到内部用户输入的恶意引导. 目前，大部分大语言模型的服务提供商都会利用系统提示命令大语言模型作为一个有用的助手，并给出数条大语言模型在对话过程中应该遵循的安全准则. 这一做法可以构建相对安全的上下文，是一种通用的安全措施.

Wei等人^[48]提出了一种基于上下文的防御方法（in context defense, ICD），该方法基于大语言模型的few-shot学习能力^[35]，将数条恶意提示与包含拒绝的回复添加到大语言模型的系统提示中，从而为大语言模型创建了安全的上下文，促使大语言模型对不安全的提示进行拒绝. 这种方法在推理阶段将安全演示和输入指令相结合，能有效降低提示攻击的攻击成功率.

Perez等人^[112]发现，在推理时提高模型的温度可以在一定程度上阻碍攻击，代价是会增加输出的随机性，而这在某些应用场景下是不可接受的. 因此，在推理时设置较高的温度在某些场景下是一种可以考虑的弱防御. Huang等人^[50]的研究证明了在推理时更改模型的解码策略可以在一定程度上影响越狱攻击的难易度，然而，如何调整解码策略以形成对越狱攻击的通用防御仍有待探索.

Li等人^[113]提出了一种可回滚自回归推理（rewindable auto-regressive inference, RAIN）的方法，旨在改进词元预测的过程. 该方法将词元预测视为搜索问题，并引入有害评估函数来保护生成过程. 当检测到生成的序列存在有害内容时，模型会将搜索树中的当前状态回退到前一个安全状态，以避免生成有害内容. 通过使用RAIN方法，他们成功增强了模型对GCG攻击的抵抗能力，且提高了模型生成内容的安全性. 作为代价，RAIN方法会导致生成的计算成本提高至常规设置的4倍.

Zhang等人^[114]提出了一种基于意图分析提示（intention analysis prompting, IAP）的防御方法. IAP的本质在于提高大语言模型检测用户提示中有害内容的能力，以通过大语言模型的自我防御提高安全性. IAP受到思维链^[37]的启发，引导大语言模型一步步地进行思考，首先确定用户提示的意图，然后排除不安全的意图，最后再给出与预设安全策略一致的响应. 这一研究证明大语言模型对用户提示中的有害信息具有一定的识别能力，如何有效利用这一识别能力并将其用于抵御越狱攻击是一个可供研究的潜在方向.

5.2 外部防御

相比于针对大语言模型本身的内部防御，外部防御侧重于用户与模型交互过程中的安全. 我们将已有的安全措施分为基于检测的防御与基于抑制的防御.

基于检测的防御旨在检测用户输入与模型输出中潜在的有害内容，而基于抑制的防御通过自然语言处理方法对用户输入中可能的攻击或有害内容进行抑制. 2种防御的示例如图9所示.

图 9 基于检测与基于抑制的防御

Figure 9. Detection-based and mitigation-based defenses

下载: 全尺寸图片幻灯片

5.2.1 基于检测的防御

检测用户输入或模型输出中的有害内容是一种通用的防御方法. 目前，类似于ChatGPT^[4]与Bing^[61]的对话系统都会对模型的输出进行检测，而Claude^[39]的服务提供商则根据用户触发敏感对话的次数对可能的恶意用户进行限制或封禁.

一些公开的服务或方法均可被用于大语言模型对话系统中的有害信息检测. Perspective API^[115]是一种被广为应用的有害信息检测服务. 这一服务基于机器学习原理，可以有效识别互联网上的有害评论. 可以使用这一服务对大语言模型的响应进行审核，以判断其中是否含有有害内容. Markov等人^[116]构建了一个强大的自然语言分类系统，用以对现实世界中的有害内容进行审核. 他们的审核系统可以检测各种类别的不良内容，包括但不限于暴力、仇恨与骚扰. 具体而言，他们通过大量工作构建了包含多个子类别与粒度的有害内容数据集，并在此数据集上训练一种轻量级的Transformer^[1]解码器模型，以对不良内容进行分类，他们的分类器在多个数据集上取得了最先进的效果. 使用类似的语言模型作为大语言模型输入端或输出端的分类器是一种通用的做法.

Zou等人^[46]所提出的越狱攻击以及其他类似的方法由于在优化时缺乏约束，因而会生成由随机字符组成的越狱提示，这些字符是难以理解的，从而导致越狱提示具备较高的困惑度（perplexity）. 困惑度是提示中每个词元出现的平均负对数似然概率，其定义为：

$PPL\left(x\right)=\mathrm{e}\mathrm{x}\mathrm{p}\left[-\frac{1}{t}\sum _{i=1}^{t}\mathrm{log}p\left({x}_{i}\right|{x}_{ < i})\right] ,$

(3)

其中， $x$ 为越狱提示， $t$ 为越狱提示包含的词元数. Jain等人^[86]介绍了基于困惑度检测对抗性攻击的方法. 他们提出了2种基于困惑度的过滤器：一种过滤器对整个提示文本进行过滤，当文本的困惑度超过某个阈值时，将该提示文本归类为有害提示；另外一种过滤器将文本分解为连续的块，并对每个块分别进行检测，如果其中任何一个块的困惑度超过阈值，则将整个提示文本归类为有害提示. 他们的研究证明，基于困惑度的方法可以有效检测GCG^[46]攻击所生成的越狱提示，但在某些场景下存在误报率较高的问题.

Alon等人^[85]进一步研究了基于困惑度的方法在其他越狱攻击上的适用性. 他们的研究证明，基于对抗性优化的越狱攻击，如GCG^[46]攻击，可以有效地被检测到. 这一方法也可以检测基于密码的越狱攻击^[21,52]. 然而，对于基于语言组成的越狱提示，如大部基于人工设计的攻击或模型生成的攻击，基于困惑度的检测器无法生效.

Kumar等人^[117]提出了另一种针对对抗性攻击^[46]的检测方法. 该方法针对3种可能的对抗性攻击策略：对抗性后缀、对抗性插入和对抗性注入，分别对应将用于越狱的对抗性文本插入提示末尾、随机位置或多个随机位置的场景. 具体而言，他们使用一个规模较小的大语言模型检测输入是否有害. 由于原提示中包含的对抗性文本会导致有害提示被误分类为安全提示，他们在原提示上随机擦除部分词元并检测提示的子序列，一旦有任何子序列被检测为有害，则用户提示被认为有害. 他们的防御方法为大语言模型提供了可验证的安全保障. 然而，针对较为复杂的攻击策略，这一方法需要对所有可能的子序列进行检验，因而会导致计算成本指数级增长.

Cao等人^[118]提出了鲁棒对齐大语言模型（robust aligned LLM, RA-LLM）的方法，这一方法可以在任何现有的对齐大语言模型上构建，无须对原模型进行昂贵的再训练. 他们的主要思想是，虽然对齐的大语言模型可以在一定程度上识别并拒绝恶意输出，然而这种识别能力可能不鲁棒. 而对于大部分越狱攻击而言，如果越狱提示被部分删除，可能会影响越狱攻击的有效性，从而导致模型拒绝输出. 因此，他们随机删除提示的一部分，并在该情况下测试大语言模型是否针对该提示做出响应，只有在多次检测下大语言模型均未拒绝回复，才认为用户提示是安全的. 这一思想与Kumar等人^[117]的方法有相似之处，但需要的计算成本更少.

5.2.2 基于抑制的防御

Jain等人^[86]提出了2种针对对抗性攻击的防御方法：基于改写的防御与基于重分词的防御.

基于改写的防御的思想来自于计算机视觉领域通用的对抗性防御方法：使用图像生成模型对图像进行编码和解码，从而清除原图中可能包含的对抗性模式^[119]. 具体而言，他们使用一个助手大语言模型在维持原义的前提下，对用户提示进行改写. 在理想情况下，助手模型可以准确地保留指令的本身含义，但指令中包含的对抗性提示无法被精确再现，因此失效. 这一方法可以防御类似GCG^[46]的基于对抗性优化的越狱攻击. 然而，在某些情况下，助手模型也可能会生成不忠实于原提示的内容.

基于重分词的方法将原有词元拆分成多个较小的词元，以破坏可能存在的对抗性提示. 这一方法假设对抗性提示依赖于某些特定的词元组合，而这些词元可以被重分词破坏，从而导致对抗性攻击失效. Jain等人^[86]的实验结果表明，这一方法可以降低50%的对抗性攻击成功率，同时不会在输入良性提示的情况下显著地影响模型的正常功能.

Robey等人^[120]提出了名为SmoothLLM的防御框架. 他们认为Zou等人^[46]所提出的GCG方法所生成的对抗性提示对字符级扰动十分脆弱，因此，SmoothLLM通过对用户提示进行多次扰动以抑制对抗性提示的危害. 具体而言，他们首先对用户输入进行随机的字符级扰动，再利用大语言模型生成对经过扰动的提示的响应. 他们以上述方法获取多个响应的集合，并统计集合中越狱响应与拒绝响应的数目，最后随机选择与多数响应一致的某个响应，并返回该响应. 这一方法可以将GCG攻击对LLaMA2^[6]与Vicuna^[38]的攻击成功率降至1%以下，证明了对抗性攻击对扰动的脆弱性.

6. 关键问题与发展方向

面向大语言模型的提示攻击与相关防御技术已成为大语言模型领域的重要研究方向. 然而，这一领域的研究仍存在一些尚未解决的问题与挑战. 我们在本节中总结了现有研究有待解决的关键问题，并提供了我们对未来潜在研究方向的见解.

6.1 多模态系统中的攻击与防御

截至目前，商业化的大语言模型追求将多种模态的输入集成至模型中，如GPT-4^[3]与文心一言^[7]. 然而，多模态的引入也带来了更多潜在的攻击来源，并为安全研究带来了新的挑战.

Carlini等人^[80]认为，相比于由离散字符或词元组成的文本，图像是由更大的连续空间组成的. 在文本上对齐的大语言模型对来自图像的攻击缺乏抵抗力. 通过在图像上进行优化，可以找到能够绕过模型对齐的对抗性模式，实现对模型的越狱攻击，进而操纵模型的行为. 他们在MiniGPT-4^[121]和LLaVA^[122]上证明了这一攻击的可行性.

Shayegani等人^[40]提出了多种攻击方法，以攻击视觉语言模型（vision-language model, VLM）的视觉编码器. 他们使用对抗性方法获得触发器图像，利用图像信息污染上下文，从而实现对大语言模型的越狱. 例如，他们试图让大语言模型给出关于制造炸弹的建议，因此，他们在目标图像上植入炸弹的图片以及“制造炸弹”的文本，然后基于优化以获取与目标图像具备相同语义的对抗性模式，并使用该对抗性模式对大语言模型进行攻击，并从而使得经过安全对齐的大语言模型给出包含有害信息的建议. 这一攻击代表性地展现了多模态信息的引入对大语言模型的威胁.

相比于依靠文本构建提示的越狱攻击，从视觉编码器中引入的信息可以更轻易地绕过大语言模型的安全机制. 在多模态大语言模型逐渐推广的当下，研究基于图像的越狱攻击与防御是一个有潜力的方向. 除了图像外，一些研究者将音频^[123]、视频^[124]等模态引入大语言模型，研究大语言模型在这些模态下的安全同样是有广阔前景的研究方向.

6.2 模型编辑

大语言模型的行为与响应受到预训练阶段所学习的参数知识^[90]的影响. 一些研究认为，可以通过对模型进行编辑^[125]以消除大语言模型对于虚假内容、隐私信息或有害知识的记忆.

Lee等人^[126]的研究使用模型编辑方法消除大语言模型过时或错误的事实性知识. Zhu等人^[127]的研究表明，对大语言模型进行编辑可有助于保护隐私和消除偏见. 随着现实时间的推移，一些事实性知识可能发生变化，模型编辑同样可以被用于解决此类问题^[128]. Meng等人^[129]认为，模型编辑可以作为更好地解释黑盒大语言模型的一种方式.

然而，模型编辑作为新兴领域，依然存在诸多局限性. Mitchell等人^[128]的研究表明，多次编辑模型会提高模型出现性能退化的风险. Pinter等人^[130]对现有的模型编辑方法进行了批判，认为模型编辑不可能完全解决大语言模型的固有缺陷，在将这一方法推广为大语言模型部署流程的一部分之前，应谨慎衡量其中的风险.

总体来看，模型编辑是缓解大语言模型幻觉、毒性、隐私泄露等问题的一个有希望的方向，然而，这一新兴领域仍面临着许多挑战，需要进一步进行探索.

6.3 表示工程

表示工程（representation engineering）是Zou等人^[131]提出的一种针对大语言模型的自顶向下的白盒分析技术. 表示工程分析大语言模型的内部状态并对其进行学习，从而通过内部表示预测并操纵大语言模型的行为. 这一新兴方法在分析模型诚实型、有害性、公平性等领域展现出了惊人的潜力与通用性.

Li等人^[132]受到表示工程的启发，认为基于提示的越狱攻击并未抓住大语言模型安全漏洞的本质. 他们开发了一种通过操纵模型内部表示促使模型进入越狱状态的方法. 具体而言，他们通过分析模型在响应恶意与良性提示时内部状态的不同，以计算模型内部用于自我防御的表示. 然后，他们对模型的解码过程进行人为干预，从模型的内部状态中减去通过计算得到的防御表示，从而实现对大语言模型的越狱攻击. 这一方法有望成为一种更底层、更通用、不受模型微调影响的越狱攻击.

表示工程作为大语言模型白盒研究的新兴方法，有助于对越狱攻击背后深层机制的探索，研究大语言模型的内部表示亦有助于为大语言模型安全研究提供理论支持.

6.4 多智能体系统

利用大语言模型建立多智能体系统是一个较少被人探索的领域.

Huang等人^[133]建立了一个使用多个语言模型相互协作的系统，通过结合多个智能体的能力，这一系统拥有了更优的性能. Du等人^[134]使用多个大语言模型相互辩论，并得出最终的共同答案. 他们发现这一方法可以提高大语言模型的事实性与推理能力. 相比于单个大语言模型，多个大语言模型组成的多智能体系统在许多任务上表现出更可靠的推理能力，且增强了回答的事实有效性.

使用另一个大语言模型衡量目标大语言模型输出的安全性已经成为一种通用的做法，并被认为拥有较高的有效性. 在这一场景下，原始模型与审查模型同样组成了一种多智能体系统.

从攻击角度来看，建立针对多智能体的越狱攻击方法是一个可行的方向. 从防御角度来看，类比Du等人^[134]利用多智能体系统减轻幻觉问题的方法，利用多智能体之间的协作与对抗或许能为大语言模型的安全性研究带来新的视角与方法.

6.5 安全措施的理论限制

虽然已有许多工作专注于提出各种安全措施以提高大语言模型的安全性，然而，如何从理论上证明这些安全措施的有效性仍是一个有待解决的问题. 相反，一些研究者对现有的安全措施进行了反思，并从理论层面上提出了大语言模型安全措施的限制，他们的工作反映出大语言模型安全任务的艰巨性.

Wolf等人^[45]对大语言模型对齐的限制进行了研究. 他们提出了一种行为期望界限（behavior expectation bounds, BEB）的理论方法，以研究大语言模型中对齐的固有特征和局限性. 他们从理论上证明了，就算经过对齐的模型在大部分情况下都表现出安全的行为，但只要模型可以产生概率非零的不安全行为，都存在可以触发模型输出该行为的提示，且这一概率随着提示的长度而增加. 这意味着任何只是减弱不良行为但不能完全消除它的对齐过程都不能安全地抵抗对抗性的提示攻击. 他们的研究从理论层面暴露出大语言模型对齐的基本局限性.

Sadasivan等人^[135]提供了对于检测大语言模型生成文本的不可能性证明. 他们的研究表明，随着大语言模型变得更复杂且能够更好地拟合人类文本，所有检测器的性能都会严重下降. 从安全角度考虑，这意味着即使大语言模型产生了不安全的输出，也难以将其正确地归因于大语言模型.

经过对齐的大语言模型仍会被提示攻击诱导出不安全的响应，因此，许多大语言模型的服务提供商使用一个助手语言模型来对大语言模型输出的不良内容进行检测. 这一方法依赖于用于检测的语言模型的识别能力.

然而，基于语义的审查真的可以完全阻止大语言模型产生有害输出或被滥用吗？Glukhov等人^[136]从理论层面对这一问题进行了探讨. 他们对现有的基于语义的审查方法提出了质疑，并证明了在最坏情况下，不可能通过语义约束检测不允许的字符串. 他们提出了一种名为Mosaic Prompt的攻击场景，在这一场景下，假设恶意用户具备一定的相关知识，用户可以将恶意目标拆解为数个看似无害的子目标，并分别请求这些子目标以达成目的. 他们认为，基于语义的审查无法处理上述攻击场景. 在大语言模型的计算能力不断提高且被集成至多种应用程序的当下，应重新考虑针对模型输入与输出的审查方式，将其作为一个安全问题而非审查问题进行解决. 他们建议利用传统安全方法，如标记可信用户并建立访问控制框架以保障大语言模型的安全性.

在人工智能领域，已经有研究^[137]证明了不存在用于确定任何给定的人工智能模型是否安全、鲁棒、对齐的通用方法. 然而，大语言模型的理论限制与不可能性研究尚处于起步阶段. 我们认为，为大语言模型的攻击与防御建立理论限制是迈向可信与安全大语言模型的关键一步. 这既是大语言模型领域的基础问题，也是未来的重要研究方向.

7. 总　　结

本文梳理了近年来面向大语言模型的提示攻击研究. 大语言模型的能力不断发展，且逐渐被集成到各类应用系统中. 越狱攻击作为一种新兴威胁，可以打破经过对齐的大语言模型的安全机制，导致大语言模型输出有害或错误的内容，造成切实的安全危害.

本文对近期的越狱攻击研究进行了系统调研与梳理，全面回顾了大语言模型越狱攻击的发展历程，为后续的研究提供了有效参考. 本文对现有的安全措施进行了简略回顾，从内部防御与外部防御2个角度介绍了能够缓解越狱攻击并提高大语言模型生成内容安全性的相关技术. 在上述工作的基础上，本文对大语言模型越狱攻击领域的现存问题与前沿方向进行探讨，并结合多模态、模型编辑、多智能体等方向进行研究展望.

作者贡献声明：李南负责论文的总体规划与主要内容的研究与调研；丁益东和江浩宇负责论文防御部分的撰写；牛佳飞负责论文结构的梳理；易平对论文提出指导意见，并在论文撰写过程中提供支持.

图 1 本文框架图

Figure 1. Our proposed framework diagram

下载: 全尺寸图片幻灯片

图 2 越狱攻击示例

Figure 2. Example of the jailbreak attack

下载: 全尺寸图片幻灯片

图 3 越狱攻击机制

Figure 3. Mechanism of jailbreak attacks

下载: 全尺寸图片幻灯片

图 4 3种类型的越狱提示

Figure 4. Three types of jailbreak prompts

下载: 全尺寸图片幻灯片

图 5 上下文攻击与防御

Figure 5. In-context attack and defense

下载: 全尺寸图片幻灯片

图 6 PAIR攻击图解

Figure 6. Schematic of PAIR attack

下载: 全尺寸图片幻灯片

图 7 大语言模型在线对话系统中可能的防御措施

Figure 7. Possible defensive measures in online LLM chat system

下载: 全尺寸图片幻灯片

图 8 GCG针对GPT-3.5生成的对抗性提示

Figure 8. Adversarial prompt for GPT-3.5 generated by GCG

下载: 全尺寸图片幻灯片

图 9 基于检测与基于抑制的防御

Figure 9. Detection-based and mitigation-based defenses

下载: 全尺寸图片幻灯片

表 1 3种越狱攻击的对比

Table 1 Comparison of Three Jailbreak Attacks

攻击	威胁模型	提示可读性	是否自动化
基于人工设计的攻击	黑盒	是	否
基于模型生成的攻击	黑盒	是	是
基于对抗性优化的攻击	白盒或黑盒	否	是

下载: 导出CSV

表 2 基于人工设计的越狱攻击总结

Table 2 Summary of Manually Designed Jailbreak Attacks

分类	攻击方法	是否基于越狱提示	攻击原理
早期攻击	前缀注入^[21]	是	目标竞争
	拒绝抑制^[21]	是	目标竞争
	风格注入^[21]	是	目标竞争
	base64编码^[21]	否	不匹配的泛化
基于虚构场景的攻击	伪装^[22]	是	角色赋予与模拟场景
	注意力转移^[22]	是	改变上下文与任务
	权限提升^[22]	是	虚构高权限场景
	Deep Inception^[47]	是	虚构多层场景
基于上下文学习的攻击	ICA^[48]	是	利用模型的上下文学习能力
基于上下文学习的攻击	多步越狱^[49]	是	利用模型的上下文学习能力
基于生成策略的攻击	生成利用^[50]	否	调整生成超参数以破坏对齐
基于编码与翻译的攻击	低资源语言^[51]	否	不匹配的泛化
基于编码与翻译的攻击	CipherChat^[52]	否	不匹配的泛化

下载: 导出CSV

表 3 基于大语言模型生成的越狱攻击总结

Table 3 Summary of LLM-generated Jailbreak Attacks

分类	攻击方法	助手模型的作用	攻击原理
基于迭代优化的攻击	PAIR^[53]	生成并优化提示	利用助手模型多次修改以优化原始提示
基于模块化生成的攻击	PMA^[54]	组合并生成提示	利用助手模型组合多个提示模块，以针对性地生成基于角色扮演的越狱提示
基于模块化生成的攻击	PAP^[55]	生成部分提示	利用助手模型生成说服目标模型的文本
基于模糊测试的攻击	FuzzLLM^[56]	创造原始提示的变体	令模型组合原始提示，通过自我指导改写提示，增加提示数量
基于模糊测试的攻击	GPTFUZZER^[58]	创造原始提示的变体	利用模型对原始提示进行多种操作，以增加提示数量，追求多样性与有效性
基于防御分析的攻击	MasterKey^[60]	生成越狱提示	对攻击目标的外部防御措施进行基于时间的分析；在越狱数据集上微调助手模型使其能够生成更有效的越狱提示

下载: 导出CSV

表 4 基于对抗性优化的越狱攻击总结

Table 4 Summary of Adversarial Optimization-Based Jailbreak Attacks

分类	攻击方法	提示可读性	攻击特点
早期方法	AutoPrompt^[76]	否	基线对抗性攻击方法
	GBDA^[78]	否	基线对抗性攻击方法
	UTSC^[74]	是	诱发对话模型毒性的同时保持提示流畅性
白盒场景	ARCA^[81]	否	面向大语言模型的基线攻击方法
	GCG^[46]	否	通用且可转移的对抗性攻击
	AudoDAN^[84]	是	通过概率约束提高越狱提示可读性
黑盒场景	GA^[87]	否	利用遗传算法优化对抗性提示
	HGA^[88]	是	从基于人工的越狱提示出发，利用分层遗传算法以优化越狱提示
	JADE^[89]	是	基于语言学规则，对提示进行解析与变异

下载: 导出CSV

参考文献(137)

[1]	Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems 30: Annual Conf on Neural Information Processing Systems 2017. New York: Curran Associates, 2017: 5998−6008
[2]	Bender E M, Gebru T, McMillan-Major A, et al. On the dangers of stochastic parrots: Can language models be too big?[C]//Proc of the 2021 ACM Conf on Fairness, Accountability, and Transparency. New York: ACM, 2021: 610−623
[3]	OpenAI. GPT-4 technical report[J]. arXiv preprint, arXiv: 2305.10403, 2023
[4]	Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI Blog, 2019, 1(8): 1−24
[5]	Anil R, Dai A M, Firat O, et al. PaLM 2 technical report[J]. arXiv preprint, arXiv: 2305.10403, 2023
[6]	Touvron H, Martin L, Stone K, et al. LLaMA 2: Open foundation and fine-tuned chat models[J]. arXiv preprint, arXiv: 2307.09288, 2023
[7]	Sun Yu, Wang Shuohuan, Feng Shikun, et al. ERNIE 3.0: Large-scale knowledge enhanced pre-training for language understanding and generation[J]. arXiv preprint, arXiv: 2107.02137, 2021
[8]	Du Zhengxiao, Qian Yujie, Liu Xiao, et al. GLM: General language model pretraining with autoregressive blank infilling[C]//Proc of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2022: 320−335
[9]	Ren Xiaozhe, Zhou Pingyi, Meng Xinfan, et al. PanGu-Σ: Towards trillion parameter language model with sparse heterogeneous computing[J]. arXiv preprint, arXiv: 2303.10845, 2023
[10]	Bai Jinze, Bai Shuai, Yang Shusheng, et al. Qwen-VL: A versatile vision-language model for understanding, localization, text reading, and beyond[J]. arXiv preprint, arXiv: 2308.12966, 2023
[11]	Bubeck S, Chandrasekaran V, Eldan R, et al. Sparks of artificial general intelligence: Early experiments with GPT-4[J]. arXiv preprint, arXiv: 2303.12712, 2023
[12]	Tamkin A, Brundage M, Clark J, et al. Understanding the capabilities, limitations, and societal impact of large language models[J]. arXiv preprint, arXiv: 2102.02503, 2021
[13]	Bommasani R, Hudson D A, Adeli E, et al. On the opportunities and risks of foundation models[J]. arXiv preprint, arXiv: 2108.07258, 2021
[14]	Weidinger L, Mellor J, Rauh M, et al. Ethical and social risks of harm from language models[J]. arXiv preprint, arXiv: 2112.04359, 2021
[15]	Lin S, Hilton J, Evans O. TruthfulQA: Measuring how models mimic human falsehoods[C]//Proc of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2022: 3214−3252
[16]	Pal A, Umapathi L K, Sankarasubbu M. Med-HALT: Medical domain Hallucination test for large language models[C]//Proc of the 27th Conf on Computational Natural Language Learning. Stroudsburg, PA: ACL, 2023: 314−334
[17]	Wei J, Bosma M, Zhao V Y, et al. Finetuned language models are zero-shot learners[C]//Proc of the 10th Int Conf on Learning Representations. Amherst, MA: OpenReview. net, 2022: 1−46
[18]	Christiano P F, Leike J, Brown T B, et al. Deep reinforcement learning from human preferences[C]//Advances in Neural Information Processing Systems 30: Annual Conf on Neural Information Processing Systems 2017. New York: Curran Associates, 2017: 4299−4307
[19]	Ziegler D M, Stiennon N, Wu J, et al. Fine-Tuning language models from human preferences[J]. arXiv preprint, arXiv: 1909.08593, 2019
[20]	Yao Jing, Yi Xiaoyuan, Wang Xiting, et al. From instructions to intrinsic human values-A survey of alignment goals for big models[J]. arXiv preprint, arXiv: 2308.12014, 2023
[21]	Wei A, Haghtalab N, Steinhardt J. Jailbroken: How does LLM safety training fail?[J]. arXiv preprint, arXiv: 2307.02483, 2023
[22]	Liu Yi, Deng Gelei, Xu Zhengzi, et al. Jailbreaking ChatGPT via prompt engineering: An empirical study[J]. arXiv preprint, arXiv: 2305.13860, 2023
[23]	Albert A. Jailbreak chat[EB/OL]. [2023-11-15]. https://www.jailbreakchat.com
[24]	Bai Yuntao, Kadavath S, Kundu S, et al. Constitutional AI: Harmlessness from AI feedback[J]. arXiv preprint, arXiv: 2212.08073, 2022
[25]	Wang Jindong, Hu Xixu, Hou Wenxin, et al. On the robustness of ChatGPT: An adversarial and out-of-distribution perspective[J]. arXiv preprint, arXiv: 2302.12095, 2023
[26]	Zhuo T Y, Li Zhuang, Huang Yujin, et al. On robustness of prompt-based semantic parsing with large pre-trained language model: An empirical study on codex[C]//Proc of the 17th Conf of the European Chapter of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2023: 1090−1102
[27]	McKenzie I R, Lyzhov A, Pieler M, et al. Inverse scaling: When bigger isn’t better[J]. arXiv preprint, arXiv: 2306.09479, 2023
[28]	Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional Transformers for language understanding[C]//Proc of the 2019 Conf of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: ACL, 2019: 4171−4186
[29]	Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text Transformer[J]. Machine Learning Research, 2020, 21: 140: 1−140: 67
[30]	Pauls A, Klein D. Faster and smaller n-gram language models[C]//Proc of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1. Stroudsburg, PA: ACL, 2011: 258−267
[31]	Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model[C]//Proc of the 11th Annual Conf of the Int Speech Communication Association (Interspeech 2010). New York: ISCA, 2010: 1045−1048
[32]	Laurençon H, Saulnier L, Wang T, et al. The BigScience ROOTS Corpus: A 1.6TB composite multilingual dataset[C]//Advances in Neural Information Processing Systems: Vol. 35. New York: Curran Associates, 2022: 31809−31826
[33]	Yuan Sha, Zhao Hanyu, Du Zhengxiao, et al. WuDaoCorpora: A super large-scale Chinese corpora for pre-training language models[J]. AI Open, 2021, 2: 65−68 doi: 10.1016/j.aiopen.2021.06.001
[34]	Henighan T, Kaplan J, Katz M, et al. Scaling laws for autoregressive generative modeling[J]. arXiv preprint, arXiv: 2010.14701, 2020
[35]	Brown T, Mann B, Ryder N, et al. Language models are few-shot learners[C]//Advances in Neural Information Processing Systems: Vol. 33. New York: Curran Associates, 2020: 1877−1901
[36]	Ouyang Long, Wu J, Jiang Xu, et al. Training language models to follow instructions with human feedback[C]//Advances in Neural Information Processing Systems: Vol. 35. New York: Curran Associates, 2022: 27730−27744
[37]	Wei J, Wang Xuezhi, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models[C]//Advances in Neural Information Processing Systems: Vol. 35. New York: Curran Associates, 2022: 24824−24837
[38]	Vicuna Team. Vicuna: An open-source Chatbot impressing GPT-4 with 90% ChatGPT quality[EB/OL]. [2023-11-20]. https://lmsys.org/blog/2023-03-30-vicuna
[39]	Anthropic. Claude[EB/OL]. [2023-11-20].https://claude.ai
[40]	Shayegani E, Dong Yue, Abu-Ghazaleh N. Jailbreak in pieces: Compositional adversarial attacks on multi-modal language models[J]. arXiv preprint, arXiv: 2307.14539, 2023
[41]	WitchBOT. You can use GPT-4 to create prompt injections against GPT-4[EB/OL]. [2023-11-22]. https://www.lesswrong.com/posts/bNCDexejSZpkuu3yz/you-can-use-gpt-4-to-create-prompt-injections-against-gpt-4.
[42]	Bai Yuntao, Jones A, Ndousse K, et al. Training a helpful and harmless assistant with reinforcement learning from human feedback[J]. arXiv preprint, arXiv: 2204.05862, 2022
[43]	Abdelnabi S, Greshake K, Mishra S, et al. Not what you’ve signed up for: Compromising real-world LLM-integrated applications with indirect prompt injection[C]//Proc of the 16th ACM Workshop on Artificial Intelligence and Security. New York: ACM, 2023: 79−90
[44]	Shayegani E, Mamun M A A, Fu Yu, et al. Survey of vulnerabilities in large language models revealed by adversarial attacks[J]. arXiv preprint, arXiv: 2310.10844, 2023
[45]	Wolf Y, Wies N, Avnery O, et al. Fundamental limitations of alignment in large language models[J]. arXiv preprint, arXiv: 2304.11082, 2023
[46]	Zou A, Wang Zifan, Kolter J Z, et al. Universal and transferable adversarial attacks on aligned language models[J]. arXiv preprint, arXiv: 2307.15043, 2023
[47]	Li Xuan, Zhou Zhanke, Zhu Jianing, et al. DeepInception: Hypnotize large language model to be jailbreaker[J]. arXiv preprint, arXiv: 2311.03191, 2023
[48]	Wei Zeming, Wang Yifei, Wang Yisen. Jailbreak and guard aligned language models with only few in-context demonstrations[J]. arXiv preprint, arXiv: 2310.06387, 2023
[49]	Li Haoran, Guo Dadi, Fan Wei, et al. Multi-step jailbreaking privacy attacks on ChatGPT[J]. arXiv preprint, arXiv: 2304.05197, 2023
[50]	Huang Yangsibo, Gupta S, Xia Mengzhou, et al. Catastrophic jailbreak of open-source LLMs via exploiting generation[J]. arXiv preprint, arXiv: 2310.06987, 2023
[51]	Yong Z X, Menghini C, Bach S H. Low-resource languages jailbreak GPT-4[J]. arXiv preprint, arXiv: 2310.02446, 2023
[52]	Yuan Youliang, Jiao Wenxiang, Wang Wenxuan, et al. GPT-4 is too smart to be safe: Stealthy chat with LLMs via cipher[J]. arXiv preprint, arXiv: 2308.06463, 2023
[53]	Chao P, Robey A, Dobriban E, et al. Jailbreaking black box large language models in twenty queries[J]. arXiv preprint, arXiv: 2310.08419, 2023
[54]	Shah R, Feuillade--Montixi Q, Pour S, et al. Scalable and transferable black-box jailbreaks for language models via persona modulation[J]. arXiv preprint, arXiv: 2311.03348, 2023
[55]	Zeng Yi, Lin Hongpeng, Zhang Jingwen, et al. How Johnny can persuade LLMs to jailbreak them: Rethinking persuasion to challenge AI safety by humanizing LLMs[J]. arXiv preprint, arXiv: 2401.06373, 2024
[56]	Yao Dongyu, Zhang Jianshu, Harris I G, et al. FuzzLLM: A novel and universal fuzzing framework for proactively discovering jailbreak vulnerabilities in large language models[J]. arXiv preprint, arXiv: 2309.05274, 2023
[57]	Wang Yizhong, Kordi Y, Mishra S, et al. Self-Instruct: Aligning language models with self-generated instructions[J]. arXiv preprint, arXiv: 2212.10560, 2022
[58]	Yu Jiahao, Lin Xingwei, Xing Xinyu, et al. GPTFUZZER: Red teaming large language models with auto-generated jailbreak prompts[J]. arXiv preprint, arXiv: 2309.10253
[59]	Coulom R. Efficient selectivity and backup operators in Monte-Carlo tree search[C]//Proc of the 5th Int Conf on Computers and Games. Berlin: Springer, 2006: 72−83
[60]	Deng Gelei, Liu Yi, Li Yuekang, et al. MasterKey: Automated jailbreak across multiple large language model Chatbots[J]. arXiv preprint, arXiv: 2307.08715, 2023
[61]	Microsoft. Bing Search[EB/OL]. [2023-11-10]. https://www.bing.com/
[62]	Google. ‎Google Bard[EB/OL]. [2023-11-22]. https://bard.google.com
[63]	Szegedy C, Zaremba W, Sutskever I, et al. Intriguing properties of neural networks[C]//Proc of the 2nd Int Conf on Learning Representations. Amherst, MA: OpenReview. net, 2014: 1−10
[64]	Biggio B, Corona I, Maiorca D, et al. Evasion attacks against machine learning at test time[C]//Proc of European Conf on Machine Learning and Knowledge Discovery in Databases. Berlin: Springer, 2013: 387−402
[65]	Papernot N, McDaniel P, Jha S, et al. The limitations of deep learning in adversarial settings[C]// Proc of 2016 IEEE European Symp on Security and Privacy. Piscataway, NJ: IEEE, 2016: 372−387
[66]	Carlini N, Wagner D. Towards evaluating the robustness of neural networks[C]//Proc of 2017 IEEE Symp on Security and Privacy. Piscataway, NJ: IEEE, 2017: 39−57
[67]	Jia R, Liang P. Adversarial examples for evaluating reading comprehension systems[C]//Proc of the 2017 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2017: 2021−2031
[68]	Wallace E, Feng Shi, Kandpal N, et al. Universal adversarial triggers for attacking and analyzing NLP[C]//Proc of the 2019 Conf on Empirical Methods in Natural Language Processing and the 9th Int Joint Conf on Natural Language Processing. Stroudsburg, PA: ACL, 2019: 2153−2162
[69]	Ebrahimi J, Rao A, Lowd D, et al. HotFlip: White-Box adversarial examples for text classification[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2018: 31−36
[70]	Shao Zhihong, Wu Zhongqin, Huang Minlie. AdvExpander: Generating natural language adversarial examples by expanding text[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 30: 1184−1196
[71]	Madry A, Makelov A, Schmidt L, et al. Towards deep learning models resistant to adversarial attacks[C]// Proc of the 6th Int Conf on Learning Representations. Amherst, MA: OpenReview. net, 2018: 1−28
[72]	Ilyas A, Santurkar S, Tsipras D, et al. Adversarial examples are not bugs, they are features[C]//Advances in Neural Information Processing Systems 32: Annual Conf on Neural Information Processing Systems 2019. New York: Curran Associates, 2019: 125−136
[73]	Zhou Chunting, Sun Chonglin, Liu Zhiyuan, et al. A C-LSTM neural network for text classification[J]. arXiv preprint, arXiv: 1511.08630, 2015
[74]	Mehrabi N, Beirami A, Morstatter F, et al. Robust conversational agents against imperceptible toxicity triggers[C]//Proc of the 2022 Conf of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: ACL, 2022: 2831−2847
[75]	Zhang Yizhe, Sun Siqi, Galley M, et al. DialoGPT : Large-scale generative pre-training for conversational response generation[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. Stroudsburg, PA: ACL, 2020: 270−278
[76]	Shin T, Razeghi Y, Robert L, et al. AutoPrompt: Eliciting knowledge from language models with automatically generated prompts[C]//Proc of the 2020 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2020: 4222−4235
[77]	Liu Yinhan, Ott M, Goyal N, et al. RoBERTa: A robustly optimized bert pretraining approach[J]. arXiv preprint, arXiv: 1907.11692, 2019
[78]	Guo Chuan, Sablayrolles A, Jégou H, et al. Gradient-based adversarial attacks against text Transformers[C]//Proc of the 2021 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2021: 5747−5757
[79]	Jang E, Gu Shixiang, Poole B. Categorical reparameterization with Gumbel-Softmax[C]// Proc of the 5th Int Conf on Learning Representations. Amherst, MA: OpenReview. net, 2017: 1−13
[80]	Carlini N, Nasr M, Choquette-Choo C A, et al. Are aligned neural networks adversarially aligned?[J]. arXiv preprint, arXiv: 2306.15447, 2023
[81]	Jones E, Dragan A D, Raghunathan A, et al. Automatically auditing large language models via discrete optimization[C]// Proc of Int Conf on Machine Learning. New York: PMLR, 2023: 15307−15329
[82]	Dettmers T, Pagnoni A, Holtzman A, et al. QLoRA: Efficient finetuning of quantized LLMs[J]. arXiv preprint, arXiv: 2305.14314, 2023
[83]	Subhash V, Bialas A, Pan Weiwei, et al. Why do universal adversarial attacks work on large language models?: Geometry might be the answer[J]. arXiv preprint, arXiv: 2309.00254, 2023
[84]	Zhu Sicheng, Zhang Ruiyi, An Bang, et al. AutoDAN: Automatic and interpretable adversarial attacks on large language models[J]. arXiv preprint, arXiv: 2310.15140, 2023
[85]	Alon G, Kamfonas M. Detecting language model attacks with perplexity[J]. arXiv preprint, arXiv: 2308.14132, 2023
[86]	Jain N, Schwarzschild A, Wen Yuxin, et al. Baseline defenses for adversarial attacks against aligned language models[J]. arXiv preprint, arXiv: 2309.00614, 2023
[87]	Lapid R, Langberg R, Sipper M. Open Sesame! Universal black box jailbreaking of large language models[J]. arXiv preprint, arXiv: 2309.01446, 2023
[88]	Liu Xiaogeng, Xu Nan, Chen Muhao, et al. AutoDAN: Generating stealthy jailbreak prompts on aligned large language models[J]. arXiv preprint, arXiv: 2310.04451, 2023
[89]	Zhang Mi, Pan Xudong, Yang Min. JADE: A linguistics-based safety evaluation platform for large language models[J]. arXiv preprint, arXiv: 2311.00286, 2023
[90]	Zhou Chunting, Liu Pengfei, Xu Puxin, et al. LIMA: Less is more for alignment[J]. arXiv preprint, arXiv: 2305.11206, 2023
[91]	Marchant A, Hawton K, Stewart A, et al. A systematic review of the relationship between internet use, self-harm and suicidal behaviour in young people: The good, the bad and the unknown[J]. PLOS ONE, 2017, 12(8): 1−26
[92]	Sobkowicz P, Sobkowicz A. Dynamics of hate based Internet user networks[J]. The European Physical Journal B, 2010, 73(4): 633−643 doi: 10.1140/epjb/e2010-00039-0
[93]	Boxell L, Gentzkow M, Shapiro J M. Is the Internet causing political polarization? Evidence from demographics: 23258[R]. New York: National Bureau of Economic Research, 2017
[94]	Akyürek E, Bolukbasi T, Liu F, et al. Towards tracing knowledge in language models back to the training data[C]//Findings of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2022: 2429−2446
[95]	Gardent C, Shimorina A, Narayan S, et al. Creating training corpora for NLG micro-planners[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2017: 179−188
[96]	Wang Hongmin. Revisiting challenges in data-to-text generation with fact grounding[C]//Proc of the 12th Int Conf on Natural Language Generation. Stroudsburg, PA: ACL, 2019: 311−322
[97]	Parikh A, Wang Xuezhi, Gehrmann S, et al. ToTTo: A controlled table-to-text generation dataset[C]//Proc of the 2020 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2020: 1173−1186
[98]	Deng Jiawen, Sun Hao, Zhang Zhexin, et al. Recent advances towards safe, responsible, and moral dialogue systems: A survey[J]. arXiv preprint, arXiv: 2302.09270, 2023
[99]	Dinan E, Humeau S, Chintagunta B, et al. Build it break it fix it for dialogue safety: Robustness from adversarial human attack[C]//Proc of the 2019 Conf on Empirical Methods in Natural Language Processing and the 9th Int Joint Conf on Natural Language Processing. Stroudsburg, PA: ACL, 2019: 4537−4546
[100]	Penedo G, Malartic Q, Hesslow D, et al. The RefinedWeb dataset for Falcon LLM: Outperforming curated corpora with web data, and web data only[J]. arXiv preprint, arXiv: 2306.01116, 2023
[101]	Wang Yida, Ke Pei, Zheng Yinhe, et al. A large-scale Chinese short-text conversation dataset[C]//Proc of the 9th CCF Int Conf on Natural Language Processing and Chinese Computing. Berlin: Springer, 2020: 91−103
[102]	Gu Yuxian, Wen Jiaxin, Sun Hao, et al. EVA2.0: Investigating open-domain Chinese dialogue systems with large-scale pre-training[J]. Machine Intelligence Research, 2023, 20: 207−219 doi: 10.1007/s11633-022-1387-3
[103]	Roller S, Dinan E, Goyal N, et al. Recipes for building an open-domain Chatbot[C]//Proc of the 16th Conf of the European Chapter of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2021: 300−325
[104]	Baumgartner J, Zannettou S, Keegan B, et al. The Pushshift Reddit dataset[J]. arXiv preprint, arXiv: 2001.08435, 2020
[105]	Chung H W, Hou Le, Longpre S, et al. Scaling instruction-finetuned language models[J]. arXiv preprint, arXiv: 2210.11416, 2022
[106]	Taori R, Gulrajani I, Zhang Tianyi, et al. Stanford Alpaca: An instruction-following LLaMA model[EB/OL]. [2023-11-24]. https://github.com/tatsu-lab/stanford_alpaca.
[107]	Ji Jiaming, Liu Mickel, Dai Juntao, et al. BeaverTails: Towards improved safety alignment of LLM via a human-preference dataset[J]. arXiv preprint, arXiv: 2307.04657, 2023
[108]	Deng Yue, Zhang Wenxuan, Pan S J, et al. Multilingual jailbreak challenges in large language models[J]. arXiv preprint, arXiv: 2310.06474, 2023
[109]	Wang Zezhong, Yang Fangkai, Wang Lu, et al. Self-Guard: Empower the LLM to safeguard itself[J]. arXiv preprint, arXiv: 2310.15851, 2023
[110]	Zhang Zhexin, Yang Junxiao, Ke Pei, et al. Defending large language models against Jailbreaking attacks through goal prioritization[J]. arXiv preprint, arXiv: 2311.09096, 2023
[111]	Xie Yueqi, Yi Jingwei, Shao Jiawei, et al. Defending ChatGPT against jailbreak attack via self-reminders[J]. Nature Machine Intelligence, 2023, 5(12): 1486−1496
[112]	Perez F, Ribeiro I. Ignore previous prompt: Attack techniques for language models[J]. arXiv preprint, arXiv: 2211.09527, 2022
[113]	Li Yuhui, Wei Fangyun, Zhao Jinjing, et al. RAIN: Your language models can align themselves without finetuning[J]. arXiv preprint, arXiv: 2309.07124, 2023
[114]	Zhang Yuqi, Ding Liang, Zhang Lefei, et al. Intention analysis prompting makes large language models a good Jailbreak defender[J]. arXiv preprint, arXiv: 2401.06561, 2024
[115]	Jigsaw. Perspective API[EB/OL]. [2023-11-24]. https://www.perspectiveapi.com/
[116]	Markov T, Zhang Chong, Agarwal S, et al. A holistic approach to undesired content detection in the real world[C]//Proc of the AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2023, 37(12): 15009−15018
[117]	Kumar A, Agarwal C, Srinivas S, et al. Certifying LLM safety against adversarial prompting[J]. arXiv preprint, arXiv: 2309.02705, 2023
[118]	Cao Bochuan, Cao Yuanpu, Lin Lu, et al. Defending against alignment-breaking attacks via robustly aligned LLM[J]. arXiv preprint, arXiv: 2309.14348, 2023
[119]	Meng Dongyu, Chen Hao. Magnet: A two-pronged defense against adversarial examples[C]//Proc of the 2017 ACM SIGSAC Conf on Computer and Communications Security. New York: ACM, 2017: 135−147
[120]	Robey A, Wong E, Hassani H, et al. SmoothLLM: Defending large language models against jailbreaking attacks[J]. arXiv preprint, arXiv: 2310.03684, 2023
[121]	Zhu Deyao, Chen Jun, Shen Xiaoqian, et al. MiniGPT-4: Enhancing vision-language understanding with advanced large language models[J]. arXiv preprint, arXiv: 2304.10592, 2023
[122]	Liu Haotian, Li Chunyuan, Wu Qingyang, et al. Visual instruction tuning[J]. arXiv preprint, arXiv: 2304.08485, 2023
[123]	Wu Jian, Gaur Yashesh, Chen Zhuo, et al. On decoder-only architecture for speech-to-text and large language model integration[C]//Proc of 2023 IEEE Automatic Speech Recognition and Understanding Workshop. Piscataway, NJ: IEEE, 2023: 1−8
[124]	Maaz M, Rasheed H, Khan S, et al. Video-ChatGPT: Towards detailed video understanding via large vision and language models[J]. arXiv preprint, arXiv: 2306.05424, 2023
[125]	Sinitsin A, Plokhotnyuk V, Pyrkin D V, et al. Editable neural networks[C]// Proc of the 8th Int Conf on Learning Representations. Amherst, MA: OpenReview. net, 2020: 1−12
[126]	Lee N, Ping Wei, Xu Peng, et al. Factuality enhanced language models for open-ended text generation[C]//Advances in Neural Information Processing Systems. New York: Curran Associates, 2022: 34586−34599
[127]	Zhu Chen, Rawat A S, Zaheer M, et al. Modifying memories in transformer models[J]. arXiv preprint, arXiv: 2012.00363, 2020
[128]	Mitchell E, Lin C, Bosselut A, et al. Fast model editing at scale[C]//The Tenth Int Conf on Learning Representations. Amherst, MA: OpenReview. net, 2022: 1−21
[129]	Meng K, Bau D, Andonian A, et al. Locating and editing factual associations in GPT[J]. Advances in Neural Information Processing Systems, 2022, 35: 17359−17372
[130]	Pinter Y, Elhadad M. Emptying the ocean with a spoon: Should we edit models?[C]//Findings of the Association for Computational Linguistics: EMNLP 2023. Stroudsburg, PA: ACL, 2023: 15164−15172
[131]	Zou A, Phan L, Chen S, et al. Representation engineering: A top-down approach to AI transparency[J]. arXiv preprint, arXiv: 2310.01405, 2023
[132]	Li Tianlong, Zheng Xiaoqing, Huang Xuanjing. Open the Pandora’s Box of LLMs: Jailbreaking LLMs through representation engineering[J]. arXiv preprint, arXiv: 2401.06824, 2024
[133]	Huang Changran. The intelligent agent NLP-based customer service system[C]// Proc of 2021 2nd Int Conf on Artificial Intelligence in Electronics Engineering. New York: ACM, 2021: 41−50
[134]	Du Yilun, Li Shuang, Torralba A, et al. Improving factuality and reasoning in language models through multiagent debate[J]. arXiv preprint, arXiv: 2305.14325, 2023
[135]	Sadasivan V S, Kumar A, Balasubramanian S, et al. Can AI-generated text be reliably detected?[J]. arXiv preprint, arXiv: 2303.11156, 2023
[136]	Glukhov D, Shumailov I, Gal Y, et al. LLM censorship: A machine learning challenge or a computer security problem?[J]. arXiv preprint, arXiv: 2307.10719, 2023
[137]	Brcic M, Yampolskiy R V. Impossibility results in AI: A survey[J]. ACM Computing Surveys, 2024, 56(1): 8: 1−8: 24

施引文献(3)

期刊类型引用(3)

1.	台建玮，杨双宁，王佳佳，李亚凯，刘奇旭，贾晓启. 大语言模型对抗性攻击与防御综述. 计算机研究与发展. 2025(03): 563-588 . 本站查看
2.	布文茹，王昊，李晓敏，周抒，邓三鸿. 古诗词中的探赜索隐：决策层融合大模型修正的典故引用识别方法. 科技情报研究. 2024(04): 37-52 . 百度学术
3.	付志远，陈思宇，陈骏帆，海翔，石岩松，李晓琦，李益红，岳秋玲，张玉清. 大语言模型安全的挑战与机遇. 信息安全学报. 2024(05): 26-55 . 百度学术

其他类型引用(0)

资源附件(0)

图(9) / 表(4)

计量

文章访问数: 1559
HTML全文浏览量: 549
PDF下载量: 476
被引次数: 3

1. 研究背景
1.1 大语言模型
1.2 越狱攻击
1.3 威胁模型
2. 基于人工设计的攻击
2.1 早期攻击及其原理
2.1.1 目标竞争
2.1.2 不匹配的泛化
2.2 基于虚构场景的攻击
2.3 基于上下文学习的攻击
2.4 基于生成策略的攻击
2.5 基于编码与翻译的攻击
2.6 小　结
3. 基于模型生成的攻击
3.1 基于迭代优化的攻击
3.2 基于模块化生成的攻击
3.3 基于模糊测试的攻击
3.4 基于防御分析的攻击
3.5 小　结
4. 基于对抗性优化的攻击
4.1 早期研究中的提示优化方法
4.2 白盒场景
4.2.1 基线攻击
4.2.2 通用且可转移的攻击
4.2.3 面向可读性的攻击
4.3 黑盒场景
4.4 小　结
5. 安全措施
5.1 内部防御
5.1.1 预训练前的安全措施
5.1.2 对齐阶段的安全措施
5.1.3 推理阶段的安全措施
5.2 外部防御
5.2.1 基于检测的防御
5.2.2 基于抑制的防御
6. 关键问题与发展方向
6.1 多模态系统中的攻击与防御
6.2 模型编辑
6.3 表示工程
6.4 多智能体系统
6.5 安全措施的理论限制
7. 总　　结

1. 研究背景
1.1 大语言模型
1.2 越狱攻击
1.3 威胁模型
2. 基于人工设计的攻击
2.1 早期攻击及其原理
2.1.1 目标竞争
2.1.2 不匹配的泛化
2.2 基于虚构场景的攻击
2.3 基于上下文学习的攻击
2.4 基于生成策略的攻击
2.5 基于编码与翻译的攻击
2.6 小　结
3. 基于模型生成的攻击
3.1 基于迭代优化的攻击
3.2 基于模块化生成的攻击
3.3 基于模糊测试的攻击
3.4 基于防御分析的攻击
3.5 小　结
4. 基于对抗性优化的攻击
4.1 早期研究中的提示优化方法
4.2 白盒场景
4.2.1 基线攻击
4.2.2 通用且可转移的攻击
4.2.3 面向可读性的攻击
4.3 黑盒场景
4.4 小　结
5. 安全措施
5.1 内部防御
5.1.1 预训练前的安全措施
5.1.2 对齐阶段的安全措施
5.1.3 推理阶段的安全措施
5.2 外部防御
5.2.1 基于检测的防御
5.2.2 基于抑制的防御
6. 关键问题与发展方向
6.1 多模态系统中的攻击与防御
6.2 模型编辑
6.3 表示工程
6.4 多智能体系统
6.5 安全措施的理论限制
7. 总　　结

参考文献(137)

施引文献

资源附件(0)

面向大语言模型的越狱攻击综述

通讯作者: 易平（yiping@sjtu.edu.cn）

计量

出版历程

Jailbreak Attack for Large Language Models: A Survey

1. 研究背景

1.1 大语言模型

1.2 越狱攻击

1.3 威胁模型

2. 基于人工设计的攻击

2.1 早期攻击及其原理

2.1.1 目标竞争

2.1.2 不匹配的泛化

2.2 基于虚构场景的攻击

2.3 基于上下文学习的攻击

2.4 基于生成策略的攻击

2.5 基于编码与翻译的攻击

2.6 小 结

3. 基于模型生成的攻击

3.1 基于迭代优化的攻击

3.2 基于模块化生成的攻击

3.3 基于模糊测试的攻击

3.4 基于防御分析的攻击

3.5 小 结

4. 基于对抗性优化的攻击

4.1 早期研究中的提示优化方法

4.2 白盒场景

4.2.1 基线攻击

4.2.2 通用且可转移的攻击

4.2.3 面向可读性的攻击

4.3 黑盒场景

4.4 小 结

5. 安全措施

5.1 内部防御

5.1.1 预训练前的安全措施

5.1.2 对齐阶段的安全措施

5.1.3 推理阶段的安全措施

5.2 外部防御

5.2.1 基于检测的防御

5.2.2 基于抑制的防御

6. 关键问题与发展方向

6.1 多模态系统中的攻击与防御

6.2 模型编辑

6.3 表示工程

6.4 多智能体系统

6.5 安全措施的理论限制

7. 总 结

期刊类型引用(3)

其他类型引用(0)

计量

出版历程

目录

1. 研究背景

1.1 大语言模型

1.2 越狱攻击

1.3 威胁模型

2. 基于人工设计的攻击

2.1 早期攻击及其原理

2.1.1 目标竞争

2.1.2 不匹配的泛化

2.2 基于虚构场景的攻击

2.3 基于上下文学习的攻击

2.4 基于生成策略的攻击

2.5 基于编码与翻译的攻击

2.6 小 结

3. 基于模型生成的攻击

3.1 基于迭代优化的攻击

3.2 基于模块化生成的攻击

3.3 基于模糊测试的攻击

3.4 基于防御分析的攻击

3.5 小 结

4. 基于对抗性优化的攻击

4.1 早期研究中的提示优化方法

4.2 白盒场景

4.2.1 基线攻击

4.2.2 通用且可转移的攻击

4.2.3 面向可读性的攻击

4.3 黑盒场景

4.4 小 结

5. 安全措施

通讯作者:
易平（yiping@sjtu.edu.cn）

2.6 小　结

3.5 小　结

4.4 小　结

7. 总　　结

2.6 小　结

3.5 小　结

4.4 小　结

7. 总　　结