原文link:https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdf
人工智能(AI)系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中,人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统:预测型AI(Predictive AI,PredAI)和生成型AI(Generative AI,GenAI)。尽管大多数工业应用仍以PredAI为主,但近年来GenAI在企业和消费者领域的应用正在迅速增加。随着这些系统渗透数字经济并成为日常生活中不可或缺的一部分,对其安全、稳健和弹性运行的需求也日益增长。这些运行特性是NIST AI风险管理框架及NCSC机器学习原则下可信AI的关键要素。
对抗性机器学习(Adversarial Machine Learning,AML)领域研究那些利用机器学习系统统计、数据驱动特性的攻击。尽管AI和机器学习技术在各应用领域取得了显著进展,这些技术依然容易受到可导致严重失败的攻击。随着ML系统在可能面临新型或对抗性交互的环境中使用,这类失败的概率会增加,且在高风险领域应用时后果更加严重。例如,在PredAI的计算机视觉任务(如目标检测与分类)中,已知的对抗性扰动可以导致自动驾驶车辆偏离正常车道、将停车标志误判为限速标志,甚至在高安全场所将戴眼镜的人错误识别。类似地,随着更多ML模型部署到医疗等领域,通过对抗性输入诱使模型泄露隐藏信息的风险也日益突出,如医疗记录泄露可能暴露敏感个人信息。
在GenAI领域,大型语言模型(LLMs)正日益成为软件应用和互联网基础设施的核心部分。LLMs被用于构建更强大的在线搜索工具、辅助软件开发者编写代码,以及支持每天被数百万人使用的聊天机器人。LLMs还通过与企业数据库、文档的交互,实现强大的检索增强生成(RAG),并通过训练或推理时技术,使LLMs能够执行现实世界操作,如浏览网页或以LLM为核心的Agent操作bash终端。因此,GenAI系统的脆弱性可能使敏感用户数据或模型结构与训练数据的专有信息面临更广泛的攻击面,并带来广泛系统完整性与可用性风险。
随着GenAI的普及,这些系统不断增强的能力也为模型开发者带来了新的挑战:如何管理因系统能力被不当或有害使用所带来的风险。开发者日益寻求通过技术干预降低模型被滥用的可能性,但这也带来了新的高风险攻击面,即攻击者试图绕过或破坏这些保护措施。
从根本上说,许多AI系统不仅易受AML攻击,也易受传统网络安全攻击(如针对部署平台的攻击),但本报告聚焦前者,将后者视为传统网络安全范畴。
PredAI和GenAI系统在开发和部署各阶段都易受攻击者多种能力的威胁。攻击者可以操控训练数据(包括用于大规模模型训练的互联网数据),或通过添加对抗性扰动或后缀修改推理阶段数据和资源;还可以通过植入特洛伊木马功能攻击AI系统组件。随着组织愈发依赖可直接使用或通过新数据集微调的预训练模型,其遭受此类攻击的脆弱性也在上升。
现代密码学往往依赖在信息论意义上安全的算法,即能在特定条件下形式化证明其安全性。但用于现代AI系统的主流机器学习算法并没有类似的信息论安全证明。相反,文献中已出现关于常用缓解技术有效性极限的信息论不可能性结果。因此,许多针对不同类型AML攻击的缓解技术主要基于经验,因其在实践中有效而被采用,而非具备信息论安全保证。这意味着这些缓解手段本身也可能易受新型攻击技术的影响。
本报告旨在为以下方面提供指导:
本节根据攻击者目标与能力,对抗性机器学习(AML)中针对预测型AI(PredAI)系统的攻击进行了分类。分类框架(见Figure 1)以攻击者目标(可用性、完整性、隐私)为核心,围绕目标列出攻击者可利用的能力,并将具体攻击类型与所需能力相连。
攻击分类维度包括:
预测型机器学习包含两个主要阶段:
AML文献主要关注攻击在训练阶段(如投毒攻击)和部署阶段(如规避、隐私攻击)的发生。
训练阶段攻击(Poisoning Attacks)
部署阶段攻击
攻击者可利用的能力包括:
对抗性攻击可面向不同数据类型,包括:
多模态(如图文结合)模型的对抗性鲁棒性成为新的挑战和研究热点。
对抗性规避攻击的发现
规避攻击(evasion attacks)指攻击者通过生成对抗样本,使其被机器学习模型错误分类为攻击者选择的任意类别,且通常只需对原始样本做最小幅度的扰动。例如,在图像分类任务中,这些扰动对人类不可察觉,但足以让模型将样本误判为其他类别。
历史与早期实例
规避攻击的早期研究可追溯至1988年Kearns和Li的工作。2004年,Dalvi等人与Lowd和Meek分别在垃圾邮件过滤场景下,展示了线性分类器也易受对抗样本攻击。Szegedy等人进一步证明了深度神经网络在图像分类任务中同样脆弱,易被对抗样本误导。
攻击生成技术的发展
2013年,Szegedy等人与Biggio等人分别提出了基于梯度优化生成对抗样本的方法,适用于线性模型和神经网络。这些技术需要攻击者拥有模型的白盒访问权限(即对模型结构和参数完全知晓),后续方法进一步减小扰动幅度,使对抗样本更不易被人察觉。
黑盒场景下的规避攻击
对抗样本不仅限于白盒场景。即便攻击者只能通过查询模型接口获得预测标签或置信分数(黑盒访问),深度神经网络依然脆弱。常见黑盒攻击技术包括零阶优化、离散优化、贝叶斯优化等;此外,通过在不同模型上生成白盒对抗样本再迁移到目标模型(迁移攻击)也是有效手段。
在白盒威胁模型(white-box threat model)中,攻击者拥有对机器学习模型结构和参数的全部了解。攻击者的主要目标是对测试样本进行微小扰动,使其分类标签发生改变,且通常对扰动的可感知度或大小有约束。白盒环境下,生成对抗样本通常可通过求解一个从攻击者角度出发的优化问题来实现,该问题明确了优化目标(如将目标标签更改为某一类别),并采用距离度量衡量测试样本与对抗样本的相似性。
Moosavi-Dezfooli等人提出了“通用扰动”,即可以对大多数图像添加同一微小扰动并导致误分类。该方法通过对数据分布中多个样本的连续优化实现,属于功能型攻击。研究发现,通用扰动在不同模型之间具有较强的泛化能力。
某些攻击可在物理世界中实际实施。例如Sharif等人通过定制眼镜框攻击人脸识别系统;Eykholt等人通过在交通标志上贴黑白贴纸,使视觉分类器在现实环境中失效;ShapeShifter攻击则针对目标检测器,需扰动对多个边界框的分类,同时保证扰动在不同距离、角度、光照和摄像头条件下仍然有效。
在计算机视觉中,对抗样本通常设计为对人类可感知性极低,因此扰动很小,人在视觉上依然能识别原始类别,但模型会被误导。此外,也可以通过在图像中加入对人类无害或难以察觉的触发物,导致模型误分类。对抗样本的概念也已扩展到音频、视频、自然语言处理和网络安全等其他领域,不同模态下攻击手法和约束条件会有所区别。
黑盒规避攻击(black-box evasion attacks)是在更为现实的对抗模型下设计的,此时攻击者对模型结构或训练数据没有任何先验知识。攻击者只能通过对已训练好的机器学习模型进行查询,获得模型针对不同输入样本的预测结果。类似的查询接口也广泛存在于云服务提供的机器学习即服务(MLaaS)平台,用户可以在不了解模型内部细节的情况下获取指定输入的模型预测。
黑盒规避攻击主要分为两类:
在这种设置下,攻击者可以获得模型的置信分数(confidence scores)或logits(未归一化得分)。攻击者可以利用多种优化技术来生成对抗样本。常用的方法包括:
在这种更受限的设置下,攻击者只能获得模型的最终预测标签。
在黑盒设置下生成对抗样本的主要挑战是如何减少对机器学习模型的查询次数。近期的技术已经可以在较少的查询次数下(通常少于1000次)成功规避机器学习分类器。
本节讨论了与隐私相关的攻击,包括数据重构(data reconstruction)、训练数据记忆(memorization of training data)、成员推断(membership inference)、属性推断(property inference)和模型提取(model extraction)等攻击类型,以及针对部分攻击的缓解措施和在设计通用缓解策略方面的未决问题。
GenAI攻击的分类基础
攻击首先根据攻击者试图破坏的系统属性进行分类,主要包括:
攻击类型与攻击目标之间有重叠与交互,同一种攻击方法可能针对多个目标。
具体攻击类型及说明
可用性类攻击(Availability):
完整性类攻击(Integrity):
隐私类攻击(Privacy):
误用类攻击(Misuse):
攻击可按所针对的学习阶段(如训练阶段或推理阶段)、攻击者的知识与访问能力进一步细分。
攻击者针对生成式AI(GenAI)系统的目标主要包括以下几类:
AML攻击可根据攻击者对GenAI模型或系统输入的控制能力进行分类,主要包括:
人工智能(AI)作为软件系统,继承了传统软件供应链的许多漏洞,如对第三方依赖的依赖性。AI开发又引入了新的依赖类型,包括数据收集、第三方模型集成、插件集成等。供应链风险管理需结合传统软件供应链治理方法和AI特有的风险缓解措施,如利用可信来源和溯源信息。有些攻击依赖于机器学习系统特定的统计和数据特性,属于对抗性机器学习(AML)范畴。
数据投毒是指攻击者在训练数据中插入精心设计的恶意样本,影响模型行为。对于GenAI,公开大规模数据集和微调/强化学习数据都可能成为投毒目标。只需极少量恶意数据就可能让模型产生后门或在特定“触发词”下输出异常内容,如越狱(jailbreak)、不安全代码、特定虚假信息等。
模型投毒主要发生在依赖第三方预训练模型时。攻击者可在公开模型中植入后门,诱使下游开发者集成这些模型。即使后续进行微调或安全增强,后门仍可能存留,从而危害最终产品的安全性和可信度。
缓解GenAI供应链风险,需要强化对数据和模型来源的验证与溯源,采用可信渠道。应综合考虑数据、模型、工具和网络等全链路的风险管理,并结合传统软件供应链治理方法与AI特有的防护措施。
攻击者可利用模型输出提取训练数据中的敏感信息(如PII)、上下文中的隐私内容、系统提示(Prompt Stealing)及模型结构信息(Model Extraction)。
目前缓解手段尚不能完全防御所有攻击场景,建议系统设计时默认存在提示注入风险。
随着LLM驱动的智能体在自动化任务、工具调用、API集成等领域的广泛应用,其安全风险显著增加。攻击者不仅可以通过输入诱导智能体执行未授权操作,还能利用环境中的有害内容、间接注入等方式影响智能体行为。 由于智能体具备自动决策和行动能力,一旦被攻陷,可能造成更大范围的安全、隐私和完整性威胁。因此,智能体的安全评估和防护成为生成式AI安全领域的研究重点之一。
标准化的漏洞评测基准有助于系统性识别和比较不同模型在面对多种攻击(如提示注入、数据投毒等)时的脆弱性。 当前,相关研究和社区已经建立了一系列测试集、自动化红队工具和评测框架,用于检测模型在安全属性、鲁棒性等方面的表现。这些基准和工具为开发者和研究者提供了有效的评估手段,推动了生成式AI系统安全性的持续提升。
多属性权衡问题
对抗鲁棒性的理论局限
评估难题
规模挑战
供应链挑战
多模态模型
量化模型
风险管理与决策
AML与AI系统其他特性关系