一、引言:AI 보안威胁的紧迫性与系统性思考
随着大型语言模型(LLM)和生成式AI的广泛应用,人工智能系统已成为关乎企业业务连续性、数据安全和用户隐私的关键基础设施。然而,与传统网络安全不同,AI系统面临的威胁具有独特的特点:攻击可以发生在数据收集、模型训练、微调优化、推理部署和运维监控的全生命周期中。从恶意的数据投毒污染模型判断能力,到精心设计的对抗样本误导系统决策,再到隐蔽的提示词注入绕过安全防护,AI系统正面临着前所未有的安全挑战。
参考腾讯AI Lab、腾讯朱雀实验室、香港中文大学(深圳)等机构联合发布的《AI安全威胁风险矩阵》首次以全生命周期视角系统梳理AI安全领域最前沿的研究成果。该矩阵以成熟的ATT&CK框架为理论依托,从对手视角阐明AI系统可能遭遇的攻击过程与技术实现手段,使企业能够快速定位风险点、评估威胁等级、部署防御措施。本文将深入探讨AI安全威胁矩阵的核心内容,系统分析主要攻击向量,并从多个维度提供企业防御的最佳实践。
二、AI安全威胁矩阵:核心框架与分类体系
2.1 ATT&CK方法论在AI领域的应用
ATT&CK(Adversarial Tactics, Techniques & Common Knowledge)框架在网络安全领域已经相对成熟,能够从对手的角度系统化地描述攻击行为。AI安全威胁矩阵正是将这一经过验证的方法论应用于人工智能领域,构建了一个具有实用指导价值的技术框架。
相比传统的网络安全威胁模型,AI安全矩阵的独特性在于:
- 全生命周期覆盖:从环境搭建、数据收集、模型训练、微调优化、部署推理到维护运维,矩阵覆盖AI系统的每个环节。
- 成熟度分层:将攻击技术分为三个成熟度等级——已成熟威胁(实际发生过的攻击)、研究中威胁(学术研究验证但尚未广泛出现)、潜在威胁(理论上可行但尚未见诸实践)。
- 对手视角设计:直接呈现攻击者如何一步步攻破AI系统,帮助防守方理解攻击逻辑链条。
- 实践指导性强:除了描述威胁之外,矩阵还提供了针对性的防御建议和缓解方案。
2.2 AI安全威胁的主要分类
AI安全威胁矩阵将AI系统面临的威胁归纳为九个主要领域,每个领域包含多个具体的攻击向量:
| 威胁类别 | 核心特点 | 主要影响维度 |
|---|---|---|
| 数据投毒/误导(Poisoning) | 在训练或微调数据中注入恶意样本 | 完整性、可靠性 |
| 对抗样本(Adversarial) | 通过精细扰动误导模型推理 | 完整性、可靠性 |
| 隐私泄露(Privacy) | 提取训练数据或推断敏感信息 | 机密性、隐私权 |
| 提示词注入(프롬프트 주입) | 构造恶意指令绕过安全防护 | 完整性、可用性 |
| 模型提取/窃取(IP Threat) | 通过查询推导出模型结构和参数 | 知识产权、机密性 |
| 不当使用(Misuse) | 将AI系统用于有害目的 | 合规性、声誉 |
| 供应链攻击(Supply Chain) | 污染依赖的模型、数据或组件 | 完整性、可用性 |
| 偏见与歧视(Biases) | 模型学习了训练数据中的偏见 | 公平性、声誉、法律风险 |
| 输出不可靠(Unreliable Output) | 模型幻觉、漂移或不准确输出 | 可靠性、声誉 |
三、AI攻击链条:从侦察到执行的完整过程
AI安全威胁矩阵以攻击链条为核心组织框架,清晰地映射了攻击者如何一步步突破AI系统的防线。这个过程类似于传统网络安全中的杀伤链模型,但针对AI系统的独特特点进行了专门设计。
3.1 第一阶段:侦察与信息收集(Reconnaissance)
阶段特点:攻击者试图了解目标AI系统的整体情况,包括部署环境、使用的模型类型、API接口、训练数据特征等。
具体技术手段:
- 公开信息收集:通过学术论文、技术文档、会议演讲、GitHub仓库、模型卡片等渠道获取目标模型的技术细节。
- API探测:通过调用AI服务的API,分析模型的输入输出特性,推断内部架构。例如,攻击者可以发送各类查询并记录模型的响应模式,推导其分类逻辑。
- 环境识别:确定AI系统部署在哪个云平台、使用了哪些开源框架或商用模型、采用了什么样的数据流转方式。
防御策略:
- 限制模型文档的公开程度,避免过度透露技术细节
- 实施API查询频率限制和异常行为检测
- 监控与模型相关的开源项目和社交媒体讨论
3.2 第二阶段:模型与数据访问(Model Access)
阶段特点:攻击者获得对目标AI系统的直接或间接访问权限,为后续的深度攻击做准备。
具体技术手段:
- 黑盒访问:通过API查询模型,观察输出的置信度分数、概率分布等信息。这类查询成本低但提供的信息有限,但攻击者可通过统计方法逐步推断模型特性。
- 灰盒访问:获得部分模型信息(如中间层输出、梯度信息),可以设计更精准的攻击。
- 白盒访问:完全获得模型结构和参数,这种情况通常发生在内部人员泄露或模型被破解后。
防御策略:
- 实施严格的访问控制和身份认证
- 限制API返回的信息粒度(如不返回具体概率值,只返回分类结果)
- 部署查询频率限制和异常检测
- 使用隐私增强技术(如差分隐私)模糊输出信息
3.3 第三阶段:攻击准备与测试(Attack Staging)
阶段特点:攻击者在自建环境中设计并测试攻击方法,验证其有效性,然后根据侦察和访问阶段获得的信息进行微调。
具体技术手段:
- 对抗样本生成:使用自身数据和模型,设计能够误导目标模型的输入样本。例如,在图像中添加人眼难以察觉的噪声,使目标分类器将狗识别为猫。
- 数据投毒样本构造:设计能够在目标模型学习时污染其判断能力的恶意训练样本,如标签翻转攻击或隐蔽的后门注入。
- 提示词攻击模板开发:利用LLM的特性,设计各类越狱提示词和注入攻击模板。这些模板可能采用多种技巧,包括拒绝抑制、角色扮演、语义混淆等。
防御策略:
- 进行对抗鲁棒性测试,预先发现和修复模型脆弱点
- 建立完整的模型防御蒸馏和对抗训练体系
- 实施严格的输入验证和清理机制
3.4 第四阶段:攻击执行与系统受害(Execution)
阶段特点:攻击者将精心设计的攻击投入到真实的目标系统中,试图达到预定目标。根据攻击目标的不同,这个阶段包含多种技术:
3.4.1 数据投毒攻击(Data Poisoning)
原理:攻击者在模型的训练数据或微调数据中注入恶意样本,导致模型学会错误的映射关系。
具体类型:
- 标签翻转攻击:将正常样本的标签反转,例如将”合法邮件”标记为”垃圾邮件”。研究表明,仅需污染约0.001%的数据就可能诱发显著的模型失败。
- 隐蔽标签攻击:不改变样本的标签,而是通过插入微妙的特征触发器,使模型在特定条件下输出攻击者指定的结果。这种攻击检测难度更高。
- 隐蔽特征投毒:在训练数据中插入与特定类别高度相关的虚假特征,例如在”花”的训练图像中添加”爆炸”相关的视觉元素,导致模型将”花”与”危险”关联。
防御机制:
- 数据清理与验证:对训练数据进行异常值检测和统计分析,识别和移除疑似被投毒的样本。
- 鲁棒训练:使用对抗训练等技术,让模型学会对被污染数据的抵抗力。
- 数据多样性:从多个可信来源采集训练数据,降低单一数据源被完全控制的风险。
- 差分隐私:在训练过程中添加噪声,限制单个样本对模型的影响。
3.4.2 对抗样本与对抗攻击(Adversarial Examples)
原理:攻击者通过对输入进行精心设计的扰动,使得模型做出错误的预测,而这些扰动对人类基本不可见。
典型案例:
- 图像分类攻击:在照片中添加精心计算的噪声,使自动驾驶系统误识别路标。
- 语音识别攻击:在音频中嵌入对人类听觉无法察觉的频率,使语音助手执行非预期的命令。
防御机制:
- 防御蒸馏:用一个更鲁棒的教师模型来训练学生模型,降低模型对对抗样本的敏感性。
- 正则化技术:使用L1/L2正则化等约束,防止模型过拟合到特定的输入模式。
- 异常检测:部署异常样本检测器,在推理时识别和拒绝疑似对抗样本的输入。
- 输入转换与重建:在输入进入模型前进行去噪处理,如JPEG压缩、高斯滤波等。
3.4.3 隐私泄露与成员推断攻击(Privacy Leakage & Membership Inference)
威胁场景:
- 训练数据提取:攻击者通过反复查询模型,逐步复现模型训练中使用的真实数据。例如,可以恢复包含用户个人信息的医疗记录或财务数据。
- 模型反演攻击(Model Inversion Attack):攻击者通过分析模型的输出,推断出与特定输入相对应的训练数据特征。在人脸识别模型上,攻击者可以根据模型的置信度输出重构出原始的人脸图像。
- 成员推断攻击(Membership Inference Attack):攻击者通过模型的行为特点,推断某个特定的数据点是否被用于训练。这对隐私保护构成严重威胁,特别是在医疗、金融等敏感领域。
防御机制:
- 差分隐私训练:在梯度或数据上添加精心设计的噪声,确保单个样本的移除不会显著改变模型行为。
- 数据分类与最小化:标记敏感数据,限制其在模型训练中的使用范围。
- 联邦学习:在多个边缘设备上分散式地训练模型,使中央系统无法访问完整的训练数据。
- 推理检测:建立检测管道,识别模型生成文本中的隐私泄露风险。
3.4.4 提示词注入与越狱攻击(Prompt Injection & Jailbreak)
原理:攻击者通过精心构造输入提示词,试图绕过LLM的安全防护机制,诱导模型生成有害、违规或超出预期的内容。
具体攻击方式:
- 直接提示词注入:
- 攻击者混入特殊字符、奇怪的后缀或毫无意义的符号,迷惑模型的安全过滤机制。
- 拒绝抑制:通过反向心理或间接表述,诱导模型忽略”我不能做那件事”的安全规则。
- 角色扮演:让模型陷入虚构的故事情景,更容易地引导其走向错误方向。
- 间接提示词注入:
- 网络数据投毒:购买已过期且曾出现在模型训练数据中的域名,填充恶意内容,当模型检索这些域名时就会被污染。
- 隐藏指令注入:在看似无害的图像、音频或PDF中嵌入特殊指令,当模型处理多模态输入时被激活。
- 对抗式系统提示泄露:
- 攻击者伪造看似来自系统的消息,诱导模型输出其隐藏的系统提示词,从而了解模型的约束条件。
防御机制:
- 输入过滤与清理:预设黑名单和规则,但需认识到规则难以覆盖所有复杂的语义攻击。
- 基于模型的异常检测:使用检测模型识别恶意提示词,比黑名单方法更灵活。
- 意图识别:加入一个专门的意图识别模块,判断用户是否试图进行越权操作。
- 对抗训练:在训练数据中加入”提示注入-正确回答”的样本,提高模型的抵抗能力。
- 多模型交叉验证:用多个LLM并行处理同一输入,对比输出结果的一致性。
- 输出匹配检测:将模型输出与原始任务进行匹配检查,拒绝偏离预期的响应。
3.4.5 模型提取与知识窃取(Model Extraction)
原理:攻击者通过大量的查询和逆向工程,复制或推导出目标模型的结构、参数或行为,从而窃取模型的知识产权。
具体技术:
- 黑盒模型复制:通过统计性的API调用模式,训练一个替代模型来模拟目标模型的行为。
- 梯度反演:利用模型的输出梯度信息,逐步推导出模型的参数。
防御机制:
- 模型水印:在模型参数中嵌入隐蔽的水印,以便验证模型的所有权并检测被盗用的副本。
- 查询控制:限制API查询频率,检测和拒绝异常的查询模式。
- 输出混淆:减少API返回信息的粒度,例如只返回最终分类结果而不返回置信度。
四、供应链与生态安全:AI系统面临的新型威胁
随着AI应用生态的繁荣,供应链安全成为了一个不容忽视的新维度。企业很少从零开始构建AI系统,而是通过集成预训练模型、开源框架、第三方API和云计算服务来快速部署。这种高度复杂的供应链体系带来了前所未有的风险:
4.1 模型供应链风险
- 预训练模型污染:不可信的来源提供的开源模型或模型权重可能已被投毒或嵌入后门。
- 依赖漏洞:使用的深度学习框架或依赖包可能存在已知或零日漏洞,被攻击者利用。
- 微调数据风险:在预训练模型基础上微调时,若微调数据被污染,整个模型都可能被破坏。
4.2 供应链防御策略
- 供应商评估与认证:对所有第三方供应商进行安全审计,验证其是否符合公司安全标准。
- 物料清单(SBOM)管理:维护详细的软件物料清单,追踪模型、框架、依赖包的来源和版本。
- 模型签名与验证:对所有部署的模型进行数字签名,防止被篡改。
- 持续监控与漏洞扫描:定期对AI系统的所有组件进行漏洞扫描和安全评估。
五、企业AI安全防护的分层防御体系
5.1 第一层:治理与策略层(Govern)
目标:建立组织级的AI安全文化和框架,确保从上到下都重视AI安全。
关键控制:
- AI安全政策制定:明确组织对AI系统安全的立场、要求和标准。
- 风险管理流程:建立识别、评估和处理AI安全风险的标准化流程,确保所有新增AI应用都经过风险评审。
- 角色与责任:明确AI安全在组织中的责任主体,包括数据所有者、模型开发者、安全工程师等。
- 合规性要求:根据监管要求(如GDPR、AI Act等)制定相应的合规框架,特别是隐私保护和公平性要求。
5.2 第二层:评估与映射层(Map)
目标:全面识别AI系统中的潜在风险点,为后续的防御措施提供基础。
关键活动:
- 资产盘点:列举组织内所有的AI模型、数据集、应用和基础设施,并进行分类与标记。
- 威胁建模:使用威胁建模方法(如STRIDE等)系统地识别可能的攻击场景。
- 数据流分析:追踪数据如何流经整个AI系统,识别数据暴露的风险点。例如,敏感用户数据在不同阶段的存储位置和访问权限。
- 依赖关系分析:映射模型间的依赖关系,识别关键路径和单点故障。
5.3 第三层:度量与监控层(Measure)
目标:通过定量指标和监控机制,持续评估AI系统的安全状态。
关键指标与机制:
- 模型性能基线:建立正常运行时的性能基线(准确率、延迟、吞吐量等),检测异常可能表明攻击或模型漂移。
- 安全审计日志:完整记录模型的所有输入输出、配置变更、访问权限变更等,用于事件调查和取证。
- 对抗鲁棒性评估:定期对模型进行对抗样本测试,评估其对攻击的抵抗能力。
- 隐私评估:使用成员推断攻击等技术,评估模型是否过度记忆训练数据。
- 行为异常检测:实时监控模型的输出行为,识别与历史模式明显偏离的情况,可能表明被成功攻击。
5.4 第四层:防御与应对层(Manage)
目标:实施具体的技术控制措施,降低风险的可能性和影响。
具体措施:
数据层防护
- 数据分类与标记:将数据按敏感度分级,对高敏感数据实施更严格的保护。
- 访问控制:实施最小权限原则,限制谁能访问什么数据,基于身份、角色和上下文进行权限管理。
- 数据加密:在传输和存储时使用强加密,防止数据被拦截或泄露。
- 数据脱敏与匿名化:在训练或展示数据时,移除或加密敏感的个人信息。
模型层防护
- 对抗训练:在训练过程中加入对抗样本,提高模型的鲁棒性。
- 正则化与防御蒸馏:使用正则化技术减少过拟合,通过蒸馏压缩模型并增强鲁棒性。
- 差分隐私:在梯度更新时添加噪声,限制单个样本对模型的影响。
- 模型验证与测试:在部署前进行全面的安全测试,包括对抗样本测试、隐私评估等。
- 模型签名与完整性检测:使用数字签名确保模型未被篡改,使用哈希校验实时检测异常。
应用层防护
- 输入验证与清理:对所有用户输入进行严格的验证和清理,过滤恶意或异常的输入。
- 输出过滤:在模型输出展示给用户前,进行内容审核,拒绝包含有害、违规或敏感信息的输出。
- 速率限制与查询控制:限制单个用户或IP的查询频率和数量,防止滥用。
- RAG系统的数据源管理:若使用检索增强生成(RAG),严格控制和审核外部数据源,防止被注入恶意内容。
组织层防护
- 员工安全培训:提升技术团队对AI安全威胁的认识,教授安全开发实践。
- 事件应急预案:制定清晰的事件响应流程,包括检测、隔离、调查和恢复。
- 供应商管理:定期审计第三方供应商的安全实践,确保他们符合公司标准。
- 第三方评估:邀请外部安全机构进行独立的渗透测试和安全审计。
六、AI安全框架标准化:ISO/IEC 42001与NIST AI RMF
6.1 ISO/IEC 42001:AI管理体系标准
ISO/IEC 42001是国际上首个AI管理体系标准,为企业建立和维护AI管理体系提供了结构化的指导。其核心特点包括:
- 范围广泛:覆盖AI系统的整个生命周期,从规划到运维。
- 39项管理控制:涵盖AI治理、风险管理、数据保护、透明度等多个方面。
- 认证审计:支持第三方审计和认证,帮助企业验证其AI安全实践.
6.2 NIST AI风险管理框架(NIST AI RMF)
NIST AI RMF是美国国家标准与技术研究院发布的自愿性框架,聚焦于AI风险管理,包含四个核心功能:
- Govern(治理):建立风险意识文化,定义风险管理政策和流程
- Map(映射):识别AI系统中的潜在风险
- Measure(度量):评估已识别风险的可能性和影响
- Manage(管理):实施风险缓解措施
6.3 两大框架的协同应用
企业可以将ISO/IEC 42001和NIST AI RMF结合使用:
- 使用NIST AI RMF进行AI特有的风险识别和评估
- 使用ISO/IEC 42001建立更全面的AI管理体系
- 两个框架的映射关系使组织能更高效地实现符合性。
七、实战案例与最佳实践
7.1 案例研究:攻击视角下的AI系统攻击链
为了更深入理解AI安全威胁的实际发生方式,让我们分析一个现实的攻击场景——恶意软件检测模型的绕过攻击:
阶段一:侦察
- 攻击者发现某公司使用的恶意软件检测模型基于学术论文发表的方法
- 通过分析该公司博客和技术文档,了解到使用的是某个特定的开源框架
阶段二:模型访问
- 攻击者通过公司的安全API反复查询,观察模型对不同输入的响应
- 通过统计分析,推断出模型的分类决策边界
阶段三:攻击准备
- 在自己的环境中复现了类似的模型
- 使用梯度下降方法设计对抗样本,能够欺骗模型将恶意软件分类为合法软件
- 在对抗样本中添加通用的绕过特征,确保对目标模型有效
阶段四:执行
- 将精心设计的恶意软件样本(包含绕过特征)提交给公司的检测系统
- 模型错误地将其分类为合法软件,恶意软件成功绕过防御
防御启示:
- 需要实施对抗鲁棒性训练,让模型对这类细微扰动不敏感
- 引入行为分析,检测看似合法但行为异常的软件
- 对API查询进行频率限制和异常模式检测,防止攻击者大规模探测
7.2 企业AI安全建设的最佳实践建议
基于AI安全威胁矩阵和防御框架,企业在建设AI安全体系时应遵循以下原则:
- 风险驱动的优先级排序:根据业务影响和威胁可能性,确定防御优先级。不应追求面面俱到,而是集中资源在高风险、高影响的领域。
- 全生命周期覆盖:不仅关注模型推理阶段,也要保护数据收集、训练、微调、部署和维护的每个环节。
- 防守纵深:采用分层防御(如本文提出的四层防御体系),在多个层面部署控制措施,避免单点故障。
- 持续演进:AI安全威胁在不断演进,企业需要建立持续的漏洞管理、渗透测试和防御更新机制。
- 跨团队协作:AI安全不仅是安全团队的责任,也需要AI工程师、产品经理、法务、运维等多个团队的配合。
- 透明度与可解释性:为用户和利益相关者清晰地说明AI系统的能力、局限和安全措施,建立信任。
八、结论:构建面向未来的AI安全体系
AI安全威胁矩阵为企业提供了一个系统化、可操作的框架,用于识别和应对AI系统面临的多维度威胁。与传统网络安全不同,AI安全具有独特的复杂性——攻击可以发生在数据、模型、推理的各个环节,攻击者的能力和知识水平对攻击的可行性影响巨大。
企业应当认识到以下几点:
- AI安全是系统性问题,需要从数据治理、模型开发、应用部署、运维监控等全方位来应对,而不能依赖单一的防御措施。
- 成熟度评估很重要。了解当前已成熟的威胁(如数据投毒、对抗样本)和仍在研究中的威胁(如更高级的隐私攻击),有助于企业更好地规划防御投入。
- 防御与发展需要平衡。一些防御措施(如差分隐私、防御蒸馏)可能会降低模型的准确性,企业需要根据自身业务特点找到平衡点。
- 技术防御需要制度与流程支撑。仅有技术防御远不够,还需要建立完善的AI安全治理体系、员工培训机制、事件应急预案等。
- 与标准框架对齐。采用ISO/IEC 42001和NIST AI RMF等国际通认的标准框架,能帮助企业系统化地构建AI安全体系,并为监管合规做好准备。
面对AI技术的快速演进和威胁形势的不断变化,企业需要建立一个持续演进、自适应的AI安全体系,而AI安全威胁矩阵正是这一体系的重要基础。
参考引用
- AI安全威胁矩阵官方网站:https://aisecmatrix.org/matrix
- NIST AI风险管理框架:https://airc.nist.gov/
- ISO/IEC 42001标准:国际电工委员会发布的AI管理体系标准
- MITRE ATLAS框架:针对AI和机器学习系统的ATT&CK类框架
原创文章,作者:首席安全官,如若转载,请注明出处:https://www.cncso.com/kr/ai-security-based-on-the-attck-framework.html
