Безопасность ИИ: создание системы безопасности корпоративного ИИ на основе методологии ATT&CK

главный офицер безопасности • 9 января 2026 г. пп9:03 • Безопасная эксплуатация • 4661 views

В данной статье в качестве основы взята матрица угроз безопасности ИИ, и на основе зрелой методологии ATT&CK систематически рассматриваются угрозы безопасности, с которыми сталкиваются системы ИИ на протяжении всего жизненного цикла, включая отравление данных, извлечение моделей, утечку конфиденциальной информации, вражеские образцы и ключевые методы атаки, такие как внедрение слов-ключей, а также предлагаются соответствующие стратегии защиты и решения для посадки предприятий, чтобы обеспечить инженеров ИИ, инженеров безопасности и CSO профессиональными техническими средствами. Ссылка.

I. Введение:Безопасность ИИСрочность угрозы и системное мышление

С широким распространением больших языковых моделей (LLM) и генеративного искусственного интеллектаИИСистема стала вопросом непрерывности бизнеса,Безопасность данныхи критической инфраструктуры для обеспечения конфиденциальности пользователей. Однако, в отличие от традиционной кибербезопасности, угрозы для систем ИИ имеют уникальные характеристики: атаки могут происходить на протяжении всего жизненного цикла сбора данных, обучения модели, тонкой настройки и оптимизации, развертывания выводов и мониторинга эксплуатации и обслуживания. Системы ИИ сталкиваются с беспрецедентными проблемами безопасности: от вредоносного отравления данных для ухудшения способности модели к суждению, до тщательно разработанных образцов противника, вводящих систему в заблуждение, и скрытого введения слов-подсказок для обхода защиты.

Матрица рисков угроз безопасности ИИ, выпущенная совместно Tencent AI Lab, Tencent Jubilee Lab и Китайским университетом Гонконга (Шэньчжэнь), впервые систематически сортирует самые передовые результаты исследований в области безопасности ИИ с точки зрения всего жизненного цикла. В качестве теоретической основы матрица опирается на зрелую систему ATT&CK, а также раскрывает процесс атаки и технические средства реализации, с которыми могут столкнуться системы ИИ с точки зрения противника, чтобы предприятия могли быстро найти точки риска, оценить уровень угрозы и развернуть защитные меры. В этой статье мы обсудимМатрица угроз безопасности искусственного интеллектав котором систематически анализируются основные векторы атак и приводятся передовые методы защиты предприятий в различных аспектах.

II. Матрица угроз безопасности ИИ: основные принципы и система классификации

2.1 Применение методологии ATT&CK к областям ИИ

Система ATT&CK (Adversarial Tactics, Techniques & Common Knowledge) является относительно зрелой в области кибербезопасности и способна систематически описывать поведение при атаках с точки зрения противника. Матрица угроз безопасности ИИ как раз и является применением этой проверенной методологии к области ИИ, создавая практическое руководство. Матрица угроз безопасности ИИ применяет эту проверенную методологию к области ИИ и создает техническую основу с практическим руководством.

Уникальность матрицы AI Security Matrix по сравнению с традиционными моделями угроз кибербезопасности заключается в следующем:

Полный жизненный цикл: матрица охватывает все аспекты системы искусственного интеллекта - от создания среды, сбора данных, обучения модели, тонкой настройки и оптимизации, выводов по развертыванию до технического обслуживания и эксплуатации.
Иерархия зрелости: методы атак делятся на три уровня зрелости - зрелые угрозы (реально произошедшие атаки), изучаемые угрозы (подтвержденные академическими исследованиями, но еще не получившие широкого распространения) и потенциальные угрозы (теоретически возможные, но еще не встречающиеся на практике).
Разработка перспективы противника: прямое представление того, как злоумышленник шаг за шагом преодолевает систему искусственного интеллекта, чтобы помочь защитнику понять логическую цепочку атаки.
Практическое руководство: помимо описания угроз, матрица содержит целевые рекомендации по защите и варианты смягчения последствий.

2.2 Основные классификации угроз безопасности ИИ

Матрица угроз безопасности ИИ классифицирует угрозы для систем ИИ по девяти основным направлениям, каждое из которых содержит множество специфических векторов атак:

Категория угрозы	Основные характеристики	Основные параметры воздействия
Отравление данных/введение в заблуждение (Отравление)	Внедрение вредоносных образцов в данные для обучения или тонкой настройки	Целостность, надежность
Состязание	Рассуждения с помощью моделей рассогласования тонких возмущений	Целостность, надежность
Конфиденциальность	Извлечение обучающих данных или вывод конфиденциальной информации	Конфиденциальность, частная жизнь
Внесение слов подсказки (Быстрое введение)	Создание вредоносных команд для обхода защиты	Целостность, доступность
Добыча/похищение моделей (IP-угроза)	Получение структуры и параметров модели путем запроса	Интеллектуальная собственность, конфиденциальность
Неправильное использование	Использование систем искусственного интеллекта во вредных целях	Соответствие нормам, репутация
Атака на цепь поставок	Загрязнение зависимых моделей, данных или компонентов	Целостность, доступность
Предрассудки и дискриминация (предубеждения)	Модель изучает смещение в обучающих данных	Справедливость, репутация, юридический риск
Ненадежный выход	Иллюзия модели, дрейф или неточные результаты	Надежность, репутация

III. Цепочка атак ИИ: полный процесс от разведки до исполнения

Матрица угроз безопасности ИИ использует цепочку атак в качестве основной организационной структуры, четко представляя, как злоумышленники шаг за шагом преодолевают защиту систем ИИ. Этот процесс похож на модель цепочки атак в традиционной кибербезопасности, но специально разработан с учетом уникальных характеристик систем ИИ.

3.1 Этап I: разведка и сбор информации (рекогносцировка)

Характеристики этапа: злоумышленник пытается понять общую ситуацию с целевой системой ИИ, включая среду развертывания, тип используемых моделей, API-интерфейсы и характеристики обучающих данных.

Конкретные технические средства:

Сбор публичной информации: технические подробности целевой модели можно получить из научных статей, технических документов, презентаций на конференциях, репозиториев GitHub, карточек моделей и других каналов.
API-зондирование: анализ входных и выходных характеристик модели и вывод о внутренней архитектуре путем вызова API-сервиса ИИ. Например, злоумышленник может отправлять различные типы запросов и записывать шаблоны ответов модели, чтобы вывести логику ее классификации.
Идентификация среды: определение того, на какой облачной платформе развернута система ИИ, какие фреймворки с открытым исходным кодом или коммерческие модели используются, а также какие методы передачи данных применяются.

Оборонная стратегия:

Ограничить степень обнародования документации по модели, чтобы избежать чрезмерного разглашения технических деталей
Реализация ограничений частоты запросов к API и обнаружение аномального поведения
Следите за проектами с открытым исходным кодом и обсуждениями в социальных сетях, связанными с моделью

3.2 Этап 2: Моделирование и доступ к данным (Доступ к модели)

Характеристика фазы: злоумышленник получает прямой или косвенный доступ к целевой системе ИИ для подготовки к последующим глубоким атакам.

Конкретные технические средства:

Доступ с черного ящика: запрос модели через API и наблюдение за выходной информацией, такой как доверительные оценки и распределения вероятностей. Этот тип запросов не требует больших затрат, но предоставляет ограниченный объем информации, однако злоумышленник может постепенно вывести свойства модели с помощью статистических методов.
Доступ к "серому ящику": получение частичной информации о модели (например, выходов среднего слоя, информации о градиенте), что позволяет разрабатывать более точные атаки.
Доступ из белого ящика: полный доступ к структуре и параметрам модели, который обычно возникает после инсайдерской утечки или взлома модели.

Оборонная стратегия:

Обеспечьте строгий контроль доступа и аутентификацию
Ограничить детализацию информации, возвращаемой API (например, не возвращать конкретные значения вероятности, а только результаты классификации).
Развертывание ограничений частоты запросов и обнаружение аномалий
Использование методов повышения конфиденциальности (таких какдифференцированная конфиденциальность) Нечеткая выходная информация

3.3 Фаза 3: Подготовка и тестирование атаки (постановка атаки)

Характеристика фазы: злоумышленники разрабатывают и тестируют методы атаки в самостоятельно созданной среде, проверяют их эффективность, а затем дорабатывают их на основе информации, полученной на этапах разведки и доступа.

Конкретные технические средства:

Генерация неблагоприятных образцов: использование собственных данных и модели для создания входных образцов, которые могут ввести целевую модель в заблуждение. Например, добавление в изображение шума, незаметного для человеческого глаза, приводит к тому, что целевой классификатор распознает собаку как кошку.
Создание образцов, отравляющих данные: разработка вредоносных обучающих образцов, способных повлиять на оценку целевой модели в процессе ее обучения, например, атаки с подменой меток или внедрение скрытого бэкдора.
Разработка шаблонов для атак по подсказке слова: разработка различных типов шаблонов для атак по подсказке слова и инъекций при побеге из тюрьмы с использованием возможностей LLM. Эти шаблоны могут использовать различные техники, включая отказ в подавлении, ролевые игры, семантическую обфускацию и т.д.

Оборонная стратегия:

Проведите тестирование на устойчивость к неблагоприятным воздействиям, чтобы заранее выявить и устранить уязвимости модели.
Создание полной системы дистилляции и состязательной подготовки модели защиты
Внедрите строгие механизмы проверки и очистки входных данных

3.4 Этап 4: Выполнение атаки и виктимизация системы (Выполнение)

Характеристика фазы: злоумышленник осуществляет хорошо продуманную атаку на реальную целевую систему, пытаясь достичь заранее поставленной цели. В зависимости от цели атаки этот этап включает в себя различные техники:

3.4.1 Атаки на отравление данных (Data Poisoning)

Принцип: злоумышленник внедряет вредоносные образцы в обучающие данные модели или данные тонкой настройки, в результате чего модель обучается неправильным связям.

Специфические типы:

Атаки с переворачиванием меток: изменение меток нормальных образцов, например, маркировка "легитимных писем" как "спама". Было показано, что загрязнение всего 0,0011 TP3T данных может привести к существенному сбою модели.
Атака скрытых меток: вместо того чтобы менять метки образцов, модель заставляют выдавать результаты, указанные злоумышленником, при определенных условиях, вставляя тонкие триггеры признаков. Эту атаку гораздо сложнее обнаружить.
Отравление скрытых признаков: вставка в обучающие данные ложных признаков, которые сильно коррелируют с определенной категорией, например, добавление визуальных элементов, связанных с "взрывом", к обучающему изображению "цветка" приводит к тому, что модель ассоциирует "цветок" с "опасностью". Это заставляет модель ассоциировать "цветок" с "опасностью".

Защитные механизмы:

Очистка и проверка данных: обнаружение выбросов и статистический анализ обучающих данных для выявления и удаления образцов, подозреваемых в отравлении.
Надежное обучение: с помощью таких методов, как обучение по принципу состязательности, модели учатся быть устойчивыми к загрязненным данным.
Разнообразие данных: сбор данных для обучения из нескольких надежных источников снижает риск того, что один источник данных будет полностью контролироваться.
Дифференциальная конфиденциальность: во время обучения добавляется шум, чтобы ограничить влияние отдельных образцов на модель.

3.4.2 Адверсивные образцы и адверсивные атаки (адверсивные примеры)

Принцип: злоумышленник заставляет модель делать ложные прогнозы, внося в исходные данные сложные возмущения, которые практически незаметны для человека.

Типичный случай:

Атаки на классификацию изображений: добавление тщательно рассчитанного шума к фотографиям, чтобы заставить системы автопилотирования неверно определять дорожные знаки.
Атаки на распознавание речи: встраивание в аудио частот, незаметных для человеческого слуха, что заставляет голосовые помощники выполнять непредусмотренные команды.

Защитные механизмы:

Защитная дистилляция: обучение модели ученика с помощью более надежной модели учителя снижает чувствительность модели к неблагоприятным выборкам.
Методы регуляризации: использование ограничений, таких как регуляризация L1/L2, для предотвращения чрезмерной подгонки модели под конкретные входные шаблоны.
Обнаружение аномалий: развертывание детекторов аномальных образцов для выявления и отбраковки входных данных, предположительно являющихся антагонистическими образцами в процессе вывода.
Преобразование и реконструкция входных данных: денуаризация входных данных до того, как они попадут в модель, например, сжатие JPEG, гауссова фильтрация и т.д.

3.4.3 Атаки на утечку конфиденциальной информации и вывод членства (Privacy Leakage & Membership Inference)

Сценарии угроз:

Извлечение обучающих данных: злоумышленник постепенно восстанавливает реальные данные, использованные при обучении модели, путем многократных запросов к ней. Например, можно восстановить медицинские карты или финансовые данные, содержащие личную информацию пользователей.
Атака с инверсией модели (MIA): злоумышленник анализирует выходные данные модели, чтобы определить, какие характеристики обучающих данных соответствуют определенному входному сигналу. По модели распознавания лиц злоумышленник может восстановить исходное изображение лица на основе достоверного вывода модели.
Атака на основе членства (Membership Inference Attack, MIA): злоумышленник использует поведенческие характеристики модели, чтобы определить, использовалась ли конкретная точка данных для обучения. Это представляет собой серьезную угрозу для защиты конфиденциальности, особенно в таких чувствительных областях, как здравоохранение и финансы.

Защитные механизмы:

Дифференциальное обучение конфиденциальности: добавление тщательно продуманного шума к градиенту или данным гарантирует, что удаление отдельных образцов не приведет к существенному изменению поведения модели.
Классификация и минимизация данных: маркировка конфиденциальных данных и ограничение их использования в обучении модели.
Федеративное обучение: децентрализованное обучение моделей на нескольких пограничных устройствах, что делает все данные обучения недоступными для центральной системы.
Обнаружение умозаключений: создание конвейера для выявления рисков нарушения конфиденциальности в тексте, сгенерированном моделью.

3.4.4 Атаки с внедрением и побегом из тюрьмы (Prompt Injection & Jailbreak)

Принцип: Злоумышленники пытаются обойти средства защиты LLM, тщательно конструируя подсказки, побуждающие модель генерировать контент, который является вредным, оскорбительным или превышает ожидания.

Специфические атаки:

Прямое введение слов-подсказок:
- Злоумышленники добавляют специальные символы, странные суффиксы или бессмысленные символы, чтобы запутать механизмы фильтрации безопасности модели.
- Торможение отторжения: побуждение модели игнорировать правило безопасности "Я не могу этого сделать" с помощью обратной психологии или косвенного представления.
- Ролевая игра: погружая модель в вымышленный сюжетный сценарий, легче направить ее в неправильное русло.
Косвенное введение слов-подсказок:
- Отравление веб-данных: домены, срок действия которых истек и которые фигурировали в обучающих данных модели, покупаются, наполняются вредоносным содержимым и заражаются, когда модель их получает.
- Скрытая инъекция инструкций: встраивание специальных инструкций в безобидные на первый взгляд изображения, аудио или PDF-файлы, которые активируются, когда модель обрабатывает мультимодальные входные данные.
Состязательная система побуждает к утечкам:
- Злоумышленник подделывает сообщения, которые кажутся исходящими от системы, и побуждает модель выводить свои скрытые слова подсказки системы, чтобы узнать об ограничениях модели.

Защитные механизмы:

Фильтрация и очистка входных данных: предопределенные черные списки и правила, однако следует признать, что правилам сложно охватить все сложные семантические атаки.
Обнаружение аномалий на основе моделей: использование моделей обнаружения для выявления вредоносных слов-ключей является более гибким, чем методы составления черных списков.
Распознавание намерений: добавлен специальный модуль распознавания намерений для определения того, пытается ли пользователь выполнить отмену.
Тренировка в условиях противоборства: добавьте в обучающие данные образцы "кий-инъекция-правильный-ответ", чтобы повысить устойчивость модели.
Многомодельная перекрестная валидация: параллельно обрабатывайте один и тот же входной сигнал несколькими LLM и сравнивайте согласованность результатов.
Обнаружение совпадения выходных данных: выходные данные модели проверяются на совпадение с исходным заданием, и ответы, отклоняющиеся от ожидаемых, отклоняются.

3.4.5 Извлечение модели и кража знаний (извлечение модели)

Принцип: злоумышленник крадет интеллектуальную собственность модели, копируя или выводя структуру, параметры или поведение целевой модели путем обширных запросов и обратного проектирования.

Специфические техники:

Репликация модели "черного ящика": обучение альтернативной модели для имитации поведения целевой модели с помощью статистического шаблона вызова API.
Градиентная инверсия: использование информации о выходном градиенте модели для пошагового определения параметров модели.

Защитные механизмы:

Водяной знак модели: встраивание скрытых водяных знаков в параметры модели с целью проверки права собственности на модель и обнаружения украденных копий.
Контроль запросов: ограничение частоты запросов к API, обнаружение и отклонение аномальных шаблонов запросов.
Обескураживание вывода: уменьшение детализации информации, возвращаемой API, например, возвращение только окончательных результатов классификации, а не уровня доверия.

IV. Цепочки поставок и экологическая безопасность: новый тип угроз для систем ИИ

По мере бурного развития экосистемы внедрения ИИ безопасность цепочек поставок становится новым аспектом, который нельзя игнорировать. Предприятия редко создают системы ИИ с нуля, вместо этого они быстро развертывают их, интегрируя предварительно обученные модели, фреймворки с открытым исходным кодом, сторонние API и облачные вычислительные сервисы. Такая сложная система цепочки поставок создает беспрецедентные риски:

4.1 Моделирование рисков цепочки поставок

Загрязнение предварительно обученных моделей: модели с открытым исходным кодом или веса моделей из ненадежных источников могут быть отравлены или снабжены бэкдорами.
Уязвимость зависимостей: используемый фреймворк глубокого обучения или пакеты зависимостей могут иметь известные уязвимости или уязвимости нулевого дня, которые могут быть использованы злоумышленником.
Риск данных для тонкой настройки: при тонкой настройке на основе предварительно обученной модели, если данные для тонкой настройки загрязнены, вся модель может быть испорчена.

4.2 Стратегии защиты цепи поставок

Оценка и сертификация поставщиков: проведение аудита безопасности всех сторонних поставщиков на предмет соответствия стандартам безопасности компании.
Управление спецификацией материалов (SBOM): ведение подробной спецификации материалов программного обеспечения, отслеживание источников и версий моделей, фреймворков и пакетов зависимостей.
Подпись и верификация моделей: цифровая подпись всех развернутых моделей для предотвращения фальсификации.
Постоянный мониторинг и сканирование уязвимостей: сканирование уязвимостей и оценка безопасности всех компонентов системы искусственного интеллекта на регулярной основе.

V. Многоуровневая система защиты для обеспечения безопасности корпоративного ИИ

5.1 Уровень 1: Уровень управления и стратегии (Govern)

Цель: создать культуру и рамки безопасности ИИ на уровне организации, чтобы обеспечить серьезное отношение к безопасности ИИ сверху донизу.

Критические средства контроля:

Разработка политики безопасности ИИ: уточнение понимания организациямиБезопасность системы искусственного интеллектадолжности, требования и стандарты.
Процесс управления рисками: создание стандартизированного процесса для выявления, оценки и устранения рисков безопасности ИИ, а также обеспечение того, чтобы все новые приложения ИИ подвергались анализу рисков.
Роли и обязанности: определите ответственных за безопасность ИИ в организации, включая владельцев данных, разработчиков моделей, инженеров по безопасности и т. д.
Требования к соответствию: разработка соответствующей системы соответствия в соответствии с нормативными требованиями (например, GDPR, AI Act и т. д.), в частности, требованиями к защите конфиденциальности и справедливости.

5.2 Слой 2: Слой оценки и картирования (карта)

Цель: всестороннее выявление потенциальных точек риска в системе искусственного интеллекта и создание основы для последующих мер защиты.

Основные виды деятельности:

Инвентаризация активов: перечислите все модели ИИ, наборы данных, приложения и инфраструктуру в организации, классифицируйте и обозначьте их.
Моделирование угроз: систематическое определение возможных сценариев атак с помощью методов моделирования угроз (например, STRIDE и т. д.).
Анализ потоков данных: отследите, как данные проходят через всю систему искусственного интеллекта, и определите точки риска, связанные с воздействием на данные. Например, где хранятся конфиденциальные данные пользователей и где к ним осуществляется доступ на разных этапах.
Анализ зависимостей: отображение зависимостей между моделями, выявление критических путей и единых точек отказа.

5.3 Уровень 3: Уровень измерения и мониторинга (измерение)

Цель: постоянно оценивать состояние безопасности систем ИИ с помощью количественных показателей и механизмов мониторинга.

Ключевые показатели и механизмы:

Базовый уровень производительности модели: устанавливает базовый уровень производительности (точность, задержка, пропускная способность и т. д.) во время нормальной работы и обнаруживает аномалии, которые могут указывать на атаки или дрейф модели.
Журнал аудита безопасности: полная запись всех входов и выходов модели, изменений конфигурации, изменений привилегий доступа и т. д. для расследования событий и судебной экспертизы.
Оценка устойчивости к атакам: модель периодически тестируется на образцах, чтобы оценить ее устойчивость к атакам.
Оценка конфиденциальности: использование таких методов, как атаки на вывод членства, для оценки того, не слишком ли модели запоминают обучающие данные.
Обнаружение поведенческих аномалий: мониторинг выходного поведения модели в режиме реального времени, выявление значительных отклонений от исторических моделей, которые могут свидетельствовать об успешной атаке.

5.4 Уровень 4: Уровень защиты и реагирования (управление)

Цель: Реализация конкретных мер технического контроля для снижения вероятности и воздействия рисков.

Конкретные меры:

Защита на уровне данных

Классификация и маркировка данных: классифицируйте данные в зависимости от их чувствительности и применяйте более строгую защиту для особо чувствительных данных.
Контроль доступа: соблюдение принципа наименьших привилегий, ограничение доступа к данным и управление разрешениями на основе идентификации, роли и контекста.
Шифрование данных: для предотвращения перехвата или утечки данных при передаче и хранении используется надежное шифрование.
Десенсибилизация и анонимизация данных: удаление или шифрование конфиденциальной личной информации при обучении или представлении данных.

Защита модельного уровня

Обучение с использованием состязательных примеров: состязательные примеры добавляются в процессе обучения для повышения устойчивости модели.
Регуляризация и защитная дистилляция: использование методов регуляризации для уменьшения избыточной подгонки и дистилляции для сжатия модели и повышения ее устойчивости.
Дифференциальная конфиденциальность: добавляет шум в обновление градиента, ограничивая влияние отдельных образцов на модель.
Проверка и тестирование модели: комплексное тестирование безопасности перед развертыванием, включая тестирование на образцах противника, оценку конфиденциальности и т. д.
Подпись модели и обнаружение целостности: используйте цифровые подписи, чтобы убедиться, что модель не была подделана, и хэш-проверки для обнаружения аномалий в режиме реального времени.

защита на уровне приложений

Проверка и очистка ввода: строгая проверка и очистка всех вводимых пользователем данных, отсеивание вредоносных и необычных вводов.
Фильтрация выходных данных: проверка содержимого выполняется для отсеивания выходных данных, содержащих вредную, незаконную или конфиденциальную информацию, до того, как выходные данные модели будут показаны пользователям.
Ограничение скорости и контроль запросов: ограничьте частоту и количество запросов для одного пользователя или IP-адреса, чтобы предотвратить злоупотребления.
Управление источниками данных для систем RAG: если используется система Retrieval Augmentation Generation (RAG), внешние источники данных строго контролируются и проверяются, чтобы предотвратить внедрение вредоносного контента.

Защита тканевого слоя

Обучение сотрудников мерам безопасности: повышение осведомленности технических специалистов об угрозах безопасности ИИ и обучение безопасным методам разработки.
План реагирования на инциденты: разработайте четкий процесс реагирования на инциденты, включая обнаружение, изоляцию, расследование и восстановление.
Управление поставщиками: регулярно проверяйте методы обеспечения безопасности сторонних поставщиков, чтобы убедиться в том, что они соответствуют стандартам компании.
Сторонние оценки: внешние организации по безопасности приглашаются для проведения независимых тестов на проникновение и аудита безопасности.

VI. Стандартизация рамок безопасности ИИ: ISO/IEC 42001 и NIST AI RMF

6.1 ISO/IEC 42001: Стандарт системы управления искусственным интеллектом

ISO/IEC 42001 - это первый международный стандарт на системы менеджмента ИИ, который предоставляет организациям структурированное руководство по созданию и поддержанию системы менеджмента ИИ. Его основные характеристики включают:

Широкая сфера применения: охватывает весь жизненный цикл системы искусственного интеллекта, от планирования до эксплуатации и технического обслуживания.
39 элементов управления: охватывают широкий спектр аспектов, таких как управление ИИ, управление рисками, защита данных и прозрачность.
Сертификационный аудит: поддержка аудита и сертификации третьей стороной, чтобы помочь организациям подтвердить своиПрактика обеспечения безопасности искусственного интеллекта.

6.2 NIST AI Risk Management Framework (NIST AI RMF)

NIST AI RMF - это добровольная система, опубликованная Национальным институтом стандартов и технологий, которая посвящена управлению рисками ИИ и содержит четыре основные функции:

Управление: создание культуры осознания рисков и определение политики и процессов управления рисками
Карта: выявление потенциальных рисков в системах искусственного интеллекта
Измерение: оценка вероятности и влияния идентифицированных рисков
Управление: реализация мер по снижению рисков

6.3 Синергетическое применение двух концепций

Компании могут использовать ISO/IEC 42001 в сочетании с NIST AI RMF:

Выявление и оценка рисков, связанных с ИИ, с помощью NIST AI RMF
Создание более комплексной системы управления ИИ с использованием ISO/IEC 42001
Взаимосвязь между этими двумя системами позволяет организациям более эффективно добиваться соответствия требованиям.

VII. Практические случаи и лучшие практики

7.1 Пример: цепочка атак систем искусственного интеллекта в перспективе

Чтобы глубже понять, как на самом деле возникают угрозы безопасности с помощью ИИ, давайте проанализируем реалистичный сценарий атаки - обход модели обнаружения вредоносного ПО:

Этап I: разведка

Злоумышленники обнаружили, что модель обнаружения вредоносных программ, используемая компанией, основана на методах, опубликованных в научных работах.
Проанализировав блог компании и техническую документацию, удалось выяснить, что используется определенный фреймворк с открытым исходным кодом

Этап 2: Посещение моделей

Злоумышленники неоднократно запрашивают API системы безопасности компании, чтобы проследить за реакцией модели на различные входные данные.
Граница классификационного решения модели определяется с помощью статистического анализа

Стадия III: подготовка к атаке

Воспроизвел аналогичную модель в своей собственной среде
Разработка образцов с использованием методов градиентного спуска, которые позволяют обмануть модели и классифицировать вредоносное ПО как легитимное.
Добавление общих функций обхода к образцам противника гарантирует, что они будут работать для целевой модели

Этап IV: Реализация

Отправка тщательно разработанных образцов вредоносного ПО (содержащих функции обхода) в систему обнаружения компании.
Модель неверно классифицировала его как легитимное программное обеспечение, и вредоносная программа успешно обошла защиту.

Откровение защиты:

Чтобы сделать модель невосприимчивой к таким тонким возмущениям, необходимо провести тренировку на устойчивость к состязаниям.
Внедрение поведенческого анализа для обнаружения программ, которые кажутся легитимными, но ведут себя ненормально
Ограничение частоты и обнаружение аномальных паттернов для API-запросов для предотвращения масштабного зондирования со стороны злоумышленников

7.2 Рекомендации по созданию системы безопасности искусственного интеллекта на предприятии

Основываясь на матрице угроз безопасности ИИ и системе защиты, предприятия должны следовать следующим принципам при создании системы безопасности ИИ:

Расстановка приоритетов с учетом рисков: определяйте приоритеты защитных мер с учетом влияния на бизнес и вероятности угроз. Вместо того чтобы стремиться быть всем для всех, следует сосредоточить ресурсы на областях с высоким риском и высокой степенью воздействия.
Охват всего жизненного цикла: не только фаза вывода модели, но и защита всех аспектов сбора данных, обучения, тонкой настройки, развертывания и обслуживания.
Глубина защиты: многоуровневая защита (например, четырехслойная система защиты, предложенная в данной статье) используется для развертывания мер контроля на нескольких уровнях, чтобы избежать единых точек отказа.
Непрерывное развитие: угрозы безопасности ИИ постоянно развиваются, поэтому организациям необходимо создать механизмы непрерывного управления уязвимостями, тестирования на проникновение и обновления средств защиты.
Межкомандное сотрудничество: безопасность ИИ - это не только ответственность команды безопасности, но и необходимость сотрудничества нескольких команд, таких как инженеры ИИ, менеджеры по продуктам, юристы, операторы и специалисты по обслуживанию.
Прозрачность и интерпретируемость: укрепление доверия путем четкого описания возможностей, ограничений и мер безопасности систем ИИ для пользователей и заинтересованных сторон.

VIII. Заключение: создание перспективной системы безопасности с искусственным интеллектом

Матрица угроз безопасности ИИ предоставляет организациям систематизированную и действенную основу для выявления и реагирования на многомерные угрозы для систем ИИ. В отличие от традиционной кибербезопасности, безопасность ИИ отличается уникальной сложностью - атаки могут происходить на все аспекты данных, моделирования и рассуждений, а возможности и уровень знаний злоумышленника оказывают огромное влияние на жизнеспособность атаки.

Предприятиям следует учитывать следующее:

Безопасность ИИ - это системный вопрос, который необходимо решать комплексно, начиная с управления данными, разработки моделей, развертывания приложений, эксплуатации и мониторинга обслуживания, а не полагаться только на одну защитную меру.
Оценка зрелости очень важна. Понимание существующих угроз, которые уже созрели (например, отравление данных, враждебные образцы), и тех, которые еще изучаются (например, более продвинутые атаки на конфиденциальность), может помочь организациям лучше планировать инвестиции в защиту.
Защита и развитие должны быть сбалансированы. Некоторые меры защиты (например, дифференциальная конфиденциальность, дистилляция защиты) могут снизить точность модели, и компаниям необходимо найти баланс, исходя из особенностей своего бизнеса.
Техническая защита должна подкрепляться системами и процессами. Одной технической защиты далеко не достаточно, она также требует создания надежнойУправление безопасностью искусственного интеллектасистема, механизм обучения персонала, план действий в чрезвычайных ситуациях и т.д.
Согласование со стандартами. Принятие международно признанных стандартов, таких как ISO/IEC 42001 и NIST AI RMF, может помочь организациям систематически создавать системы безопасности ИИ и готовиться к соблюдению нормативных требований.

В условиях быстрого развития технологий ИИ и постоянного изменения угроз предприятиям необходимо создать постоянно развивающуюся и адаптивную систему безопасности ИИ, а матрица угроз безопасности ИИ является важной основой этой системы.

цитирование ссылок

Официальный сайт матрицы угроз безопасности ИИ:https://aisecmatrix.org/matrix
NIST AI Risk Management Framework:https://airc.nist.gov/
ISO/IEC 42001: стандарты системы менеджмента AI, выпущенные Международной электротехнической комиссией
Фреймворк MITRE ATLAS: ATT&CK-подобный фреймворк для систем ИИ и машинного обучения

Оригинальная статья написана Chief Security Officer, при воспроизведении просьба указывать: https://www.cncso.com/ru/ai-security-based-on-the-attck-framework.html.