论文翻译:Universal and Transferable Adversarial Attacks on Aligned Language Models

Universal and Transferable Adversarial Attacks on Aligned Language Models
https://arxiv.org/pdf/2307.15043v2

通用且可转移的对抗性攻击对齐语言模型

文章目录

  • 通用且可转移的对抗性攻击对齐语言模型
  • 摘要
  • 1 引言
  • 2 一个针对LLMs的通用攻击
    • 2.1 产生肯定回应
    • 2.2 贪婪坐标==梯度==搜索
    • 2.3 通用多提示和多模型攻击
  • 3实验结果:直接攻击和转移攻击
    • 3.1 对白盒模型的攻击
    • 3.2 转移攻击
    • 3.3 讨论
  • 4 相关工作
  • 5 结论和未来工作
  • 6 伦理和更广泛的影响

摘要

因为“即开即用”的大型语言模型能够生成大量令人反感的内容,近期的工作集中在对这些模型进行对齐,以防止不受欢迎的生成。尽管在规避这些措施方面取得了一些成功——即所谓的针对大型语言模型(LLMs)的“越狱”——这些攻击需要大量的人类智慧,并且在实践中很脆弱。自动对抗性提示生成的尝试也取得了有限的成功。在本文中,我们提出了一种简单有效的攻击方法,可以导致对齐的语言模型生成令人反感的行为。具体来说,我们的方法找到一个后缀,当附加到LLM的广泛查询上时,可以产生令人反感的内容,目的是最大化模型产生肯定回应(而不是拒绝回答)的概率。然而,我们的方法不是依赖于手工工程,而是通过贪婪和基于梯度的搜索技术的结合,自动产生这些对抗性后缀,并且也改进了过去的自动提示生成方法。

令人惊讶的是,我们发现我们方法生成的对抗性提示具有很高的可转移性,

你可能感兴趣的:(LLMs-安全,论文翻译,语言模型,人工智能,自然语言处理)