2024年AIGC人工智能安全报告-首席安全官

01 AIGC 背景

自然语言处理(NLP)赋予了AI理解和生成能力，大规模预训练模型是NLP的发展趋势。NLP的两个核心任务分别是自然语言理解(NLU)和自然语言生成(NLG)， ChatGPT是NLP发展中具有里程碑式意义的模型之一。ChatGPT是OpenAI从GPT-3.5 系列中的模型进行微调产生的聊天机器人模型，能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。从ChatGPT的突然爆火让人们看到了AI一夜之间从一个0.1岁的小孩突然变成了一个3岁的小孩。可以期待的未来正如人类孩子的成长期一样，会随着时间的推移，超级深度大模型的学习能力会越来越强，越来越智能。 AI的深度学习已经突破了成长的瓶颈，从算法，数据到底层算力的支撑本质上来讲所有的技术问题都已经解决。未来将会进入AI领域的快速爆发和成长期，让AI快速的学习从3岁的小孩变成8岁甚至18岁。越智能的技术背后的安全问题越发令人担忧，一旦失控所带来的后果将会是颠覆性，毁灭性的。因此在发展基于深度学习模型的AI技术和应用的同时我们应该提前考虑整个链路中所产生的新安全问题。根据过往的研究经验AI所带来的新安全问题主要包括下面几个方向。

1.1 AI技术框架安全

我们知道目前所有的AIGC所产生的应用都不是单一的创新，而是基于过往的各种深度学习模型，开源框架，算法的优化做的整体组合。整个组装过程中会涉及各种开源框架，中间件，算法等。这些框架中间件本身可能会存在各种各样的安全问题。比如最近关注比较多的关于Langchain框架Prompt Injection安全问题。研究这些框架和算法尽可能的从技术底层规避安全问题是解决AIGC链路上安全的重要方向之一。

1.2 AIGC内容安全

AIGC通过大语言模型学习输出各种各样的内容。这些内容的合规性是一个比较大的安全合规问题。主要分为两个研究方向。内容合规问题所谓内容合规问题就是AIGC在生成内容时需要满足属地国的各种监管需求。比如不能输出带有污化政治人物的图片，不能生成带有宗教色彩的内容，不能生成带有色情的图文等等。所有内容的生成和最终的输出必须经过严格的过滤。目前强如ChatGPT-4这样的应用在输出过程中内容安全的过滤也只能做到85%左右。但是安全是一个0和1的游戏，任何AIGC的应用面对属地国的监管政策中一旦出现合规问题，面临的可能就是天价的罚款，甚至下线停止服务。 伦理安全问题 AI自从产生的那一刻起伦理安全问题就一直是个绕不开的话题。过去当AI还处于萌芽期，大部分对于AI的成长还知之甚少的时候大家对于这个问题讨论仅仅是限制在理论和会议层面。如今ChatGPT的一夜成名让所有人意识到AI已经长到了3岁。伦理安全问题不再是一个可有可无的事情，而是一个必须紧急去面对的话题。

1.3 数据安全

AI的快速成长离不开大量的数据作为语料。LLM的训练需要大量的数据作为依据调整参数。目前已知的几个大模型的数据都是千亿级别的参数，所涉及的数据量更是超过了50TB。在日常使用中大量的企业，政府都可能有意无意地会将自己的敏感数据传输给这些大模型。外加这些AIGC本身的安全问题所带来的风险很难保证企业核心数据不泄露。这种级别的数据泄露对企业来讲会是致命的。不管是对职业的攻击者来讲还是对出于有政治目的的其它利益方来讲如此大规模的数据一旦遭受泄露都会给数据提供方造成严重的经济，甚至人身伤害。

1.4 国内监管政策

国家一直高度重视网络安全和信息化工作，近几年陆续出台了相关监管政策，如《网络信息内容生态治理规定》、《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《互联网信息服务算法推荐管理规定》、《网络安全审查办法》、《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》等。在最近中共中央国务院印发《数字中国建设整体布局规划》中，再次着重强调要强化筑牢可信可控的数字安全屏障。切实维护网络安全，完善网络安全法律法规和政策体系。同时，AIGC的快速发展也将带来不断深化的挑战:一是信息变异复杂度进一步加大，例如通过敏感变种词变异绕过内容监管、通过图片与音视频的动态变化躲避内容检测; 二是多模态内容相互转化带来的挑战愈加严重，进一步对内容安全带来更高层次挑战; 三是内容产量激增，对内容安全审核工作量、召回率和准确率要求逐步加大。 4月11日，国家互联网信息办公室发布关于《生成式人工智能服务管理办法(征求意见稿)》(以下简称“《管理办法》”)公开征求意见的通知。《管理办法》明确提出，利用生成式人工智能生成的内容应当真实准确，采取措施防止生成虚假信息。根据上述《管理办法》，提供生成式人工智能产品或服务应当遵守法律法规的要求，尊重社会公德、公序良俗，符合以下要求:

利用生成式人工智能生成的内容应当体现社会主义核心价值观，不得含有颠覆国家政权、推翻社会主义制度，煽动分裂国家、破坏国家统一，宣扬恐怖主义、极端主义，宣扬民族仇恨、民族歧视，暴力、淫秽色情信息，虚假信息，以及可能扰乱经济秩序和社会秩序的内容。
在算法设计、训练数据选择、模型生成和优化、提供服务等过程中，采取措施防止出现种族、民族、信仰、国别、地域、性别、年龄、职业等歧视。
尊重知识产权、商业道德，不得利用算法、数据、平台等优势实施不公平竞争。
利用生成式人工智能生成的内容应当真实准确，采取措施防止生成虚假信息。
尊重他人合法利益，防止危害他人身心健康，损害肖像权、名誉权和个人隐私权，侵犯知识产权。禁止非法获取、披露、利用个人信息和隐私、商业秘密。

同时《管理办法》指出，利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人(以下简称“提供者”)，包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等，承担该产品生成内容生产者的责任;涉及个人信息的，承担个人信息处理者的法定责任，履行个人信息保护义务。此外，《管理办法》指出，利用生成式人工智能产品向公众提供服务前，应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估，并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。提供者应当指导用户科学认识和理性使用生成式人工智能生成的内容，不利用生成内容损害他人形象、名誉以及其他合法权益，不进行商业炒作、不正当营销。用户发现生成内容不符合《管理办法》要求时，有权向网信部门或者有关主管部门举报。

1.5 国外监管政策

全球AI监管处于探索阶段，相关法律法规与指导意见逐步推进。欧盟正在为有效地监管人工智能系统而努力。欧盟法域内，已经搭建起全面的监管法律工具： (1)《人工智能法案》 (2)《人工智能责任指令》 (3)《产品责任指令》(软件监管） (4)《数字服务法》(DSA） (5)《数字市场法案》(DMA）其中，(4)和(5)是针对平台但涵盖人工智能的法案。此外，欧盟的非歧视法律和数据保护法，继续适用于人工智能系统。然而，欧盟的人工智能监管主要集中在传统的 AI 模型上，而不是新一代迅速改变我们交流、说明和创作方式的“大型生成式 AI 模型” ，例如 ChatGPT 或 Stable Diffusion。欧盟打击有害言论的主要工具《数字服务法案》(DSA)不适用于“大型生成式 AI 模型” (LGAIM)，这造成了一个危险的监管漏洞。欧盟工业主管蒂埃里•布雷顿在2023年2月3日表示，ChatGPT和人工智能系统带来的风险凸显了他去年提出的制定规则的迫切需要，欧盟委员会正在与欧盟理事会和欧洲议会密切合作，进一步明确《AI法案》中针对通用AI系统的规则。 2023年2月7日，根据知情人士透露，欧盟立法者希望在今年3月就《人工智能法案》草案达成一致，目标是在今年年底与欧盟各成员国达成协议。然而，这项拟议中的立法遭到了立法者和消费者团体的批评，加上ChatGPT的问题，其进度比最初想象的时间要长一些。就目前的研究来看，如果欧盟立法要直面ChatGPT所带来的问题，很可能需要一定时间对其部分定义和监管类型进行修订:增加对“大型生成式 AI 模型”部署者和用户进行直接监管，包括： (1)透明度问题的监管 (2)风险管理 (3)非歧视条款适用于“大型生成式 AI 模型”开发商 (4)针对其具体内容审核规则。 3月29日，英国政府的科学、创新和技术部为人工智能行业发布白皮书，呼吁监管机构提出有针对性的、针对具体情况的方法，以适应人工智能的实际应用;3月30日，美国联邦贸易委员会收到来自人工智能和数字政策中心新的举报，要求对OpenAI及其产品进行调查;3月31日，意大利DPA表示ChatGPT可能违反了欧盟的通用数据保护条例，泛欧盟法规要求对已确认的违反GDPR的处罚最高可达数据处理者全球年营业额的 4%，4月1日OpenAI禁止意大利用户访问。美国商务部4月11日就人工智能大模型相关问责措施正式公开征求意见，包括新人工智能模型在发布前是否应经过认证程序，征求意见期限为60天。此前一周，全球范围内掀起对ChatGPT潜在风险的关注，意大利、德国等计划加强对ChatGPT的监管。

02 AIGC技术框架

2.1 AIGC

AIGC即利用人工智能技术来生成内容。与此前Web1.0、Web2.0时代的UGC(用户生产内容)和PGC(专业生产内容)相比，代表人工智能构思内容的AIGC，是新一轮内容生产方式变革，而且AIGC内容在Web3.0时代也将出现指数级增长。

2.2 Prommpt

用来给AI发出指令，引导AIGC应用后端的模型输出我们想要的结果的各种关键词或者词组句子成为Prommpt(提示)。以下是在一个提示中将时常看到的一些组成部分：

角色
指令/任务
问题
上下文
示例(few shot)

2.3 chatgpt

Generative Pre-trained Transformer(生成式预训练变换模型)的缩写。 ChatGPT 是一种机器学习自然语言处理模型的扩展，称为大语言模型(LLMs)。 LLMs 能够读取学习大量文本数据，并推断文本中单词之间的关系。随着计算能力的进步，大语言模型在过去几年中得到不断发展。随着输入数据集和参数空间(parameter space)的增加，LLMs 的能力也会随之增加。 GPT家族与BERT模型都是知名的NLP模型，都基于Transformer技术。GPT-1只有 12个Transformer层，而到了GPT-3，则增加到96层。 InstructGPT/GPT3.5(ChatGPT的前身)与GPT-3的主要区别在于，新加入被称为 RLHF(Reinforcement Learning from Human Feedback，人类反馈强化学)。这一训练范式增强了人类对模型输出结果的调节，并且对结果进行了更具理解性的排序。

2.4 ChatGPT技术架构

剩余内容需解锁观看

解锁查看全文

已经登录？立即刷新

原创文章，作者：首席安全官，如若转载，请注明出处：https://www.cncso.com/2024-china-aigc-ai-security-report.html

2024年AIGC人工智能安全报告

01 AIGC 背景

1.1 AI技术框架安全

1.2 AIGC内容安全

1.3 数据安全

1.4 国内监管政策

1.5 国外监管政策

02 AIGC技术框架

2.1 AIGC

2.2 Prommpt

2.3 chatgpt

2.4 ChatGPT技术架构

关于作者

首席安全官

发表回复

2024年AIGC人工智能安全报告

01 AIGC 背景

1.1 AI技术框架安全

1.2 AIGC内容安全

1.3 数据安全

1.4 国内监管政策

1.5 国外监管政策

02 AIGC技术框架

2.1 AIGC

2.2 Prommpt

2.3 chatgpt

2.4 ChatGPT技术架构

关于作者

首席安全官

相关推荐

Agent Racoon恶意后门攻击中东、非洲等国组织

甲方乙方视角下的安全运营

数据安全:生成式AI如何应对安全风险与挑战？

朝鲜黑客组织Lazarus Group发起新的网络攻击行动

网络安全认证证书”图谱”

2023年全球DevSecOps现状报告

发表回复