Руководство по безопасности ИИ: 21 контрольный список рисков и стратегии защиты для обеспечения безопасности ИИ

главный офицер безопасности • 11 февраля 2026 г. пп10:02 • Безопасная эксплуатация • 4014 views

Критические уровни (6): введение подсказок, введение подсказок при побеге из тюрьмы, компрометация цепочки поставок ИИ, отравление обучающих данных, инверсия модели, глубокая подделка
Продвинутые (10): неправомерное использование модели, теневая подсказка, обфускация подсказок, цепочка подсказок противника, внутреннее неправомерное использование, несоблюдение нормативных требований, социальная инженерия ИИ, человеческие ошибки, обход водяных знаков, алгоритмическая предвзятость
Промежуточные (4): утечка данных, ущерб бренду, DoS-атака, отсутствие возможности аудита
Низкий уровень (1): несоответствие между моделями

введение

послеИИВ 2026 году технология искусственного интеллекта (ИИ) проникла в основные рабочие процессы предприятий, и ее поверхность атаки сместилась с традиционных уязвимостей кода на более сложный и тонкий семантический уровень. Язык, средство взаимодействия между людьми, теперь является основным интерфейсом управления и периметром безопасности современного предприятия.Риски безопасности искусственного интеллектаВ основе этого лежит отклонение между человеческими намерениями и машинным исполнением, которое может возникнуть из-за несогласованной логики в модели или преднамеренных манипуляций со стороны внешних злоумышленников, что в конечном итоге приводит к нежелательным или даже вредным результатам.

В отличие от традиционной кибербезопасности, которая фокусируется в первую очередь на защите от синтаксической угрозы "вредоносного кода".Безопасность ИИПроблема носит семантический характер. Злоумышленникам больше не нужно полагаться на вредоносные программы или SQL-инъекции, а скорее на тщательно продуманный "чистый язык", чтобы убедить, завлечь или обмануть модели ИИ в обход установленных защитных барьеров. Кроме того, уязвимости в традиционном программном обеспечении обычно детерминированы, то есть одни и те же входные данные неизменно вызывают одни и те же ошибки, которые легко воспроизвести и исправить. Однако сбои в системах ИИ носят вероятностный и полиморфный характер, когда модель может катастрофически выйти из строя в сотый раз, столкнувшись с теми же или похожими входными данными после того, как 99 раз обработала их правильно, и этот недетерминизм представляет собой беспрецедентную проблему для традиционного тестирования и защиты безопасности.

Чтобы систематически понимать и реагировать на эти новые типы угроз, мы классифицируем векторы атак ИИ по трем широким категориям, что создает основу для построения комплексной системы защиты.

Классификация векторов атак с помощью искусственного интеллекта

пониманияБезопасность ИИОтправной точкой для определения риска является выявление уникальных векторов атак. Мы сгруппировали эти угрозы на основе языка в следующие три основные категории в зависимости от их создателя и направления риска:

вектор атаки	инициатор	Направление риска	Основные характеристики
Непреднамеренный вред от искусственного интеллекта	Сама модель искусственного интеллекта	Исходящие/систематические	Модели обходят неявные ограничения безопасности или этические ограничения, чтобы оптимизировать цели, что приводит к непреднамеренным негативным последствиям.
Риски, инициированные человеком	Внутренние авторизованные пользователи	Входящие/невходящие	Случайные или удобные нарушения, совершаемые легитимными пользователями, например, использование "теневого ИИ" для обработки конфиденциальных данных.
Атаки ИИ на противника	внешний нападающий	Входящие/адверсарные	Злоумышленник использует семантические и логические уязвимости, нагружая язык оружием, чтобы побудить ИИ выполнить вредоносные инструкции.

Эти три вектора охватывают все - от спонтанных рисков внутри модели до преднамеренных атак извне, предоставляя организациям четкое руководство для построения многоуровневой, всеобъемлющей системы защиты от ИИ. В следующих разделах мы подробно рассмотрим 21 конкретный риск безопасности, основанный на этой классификации, а также проведем соответствующий анализ и предложим стратегии по их снижению.

Глава 2: Атаки с использованием недоброжелательного ИИ

Атаки на искусственный интеллект - это вредоносные кампании, запускаемые внешними злоумышленниками с целью манипулирования поведением систем искусственного интеллекта с помощью лингвистической полезной нагрузки. Эти атаки используют уязвимости больших языковых моделей в семантическом понимании и логических рассуждениях, чтобы "убедить" ИИ отклониться от своих первоначальных инструкций с помощью тщательно продуманных входных данных. Ниже перечислены основные риски, относящиеся к этой категории.

2.1 Впрыскивание кия (Оперативное введение)

Инъекция в подсказку - это уязвимость критического уровня безопасности, когда злоумышленник с помощью специальных входных данных побуждает большую языковую модель игнорировать исходные системные инструкции и вместо них выполнять вредоносные команды, которые злоумышленник прячет во входных данных. Основная причина заключается в неспособности модели эффективно различать доверенные системные команды и недоверенный пользовательский ввод, предоставляя последнему слишком высокий приоритет выполнения. Успешное внедрение подсказок может привести к несанкционированным манипуляциям (например, удалению данных), утечке конфиденциальной информации (например, раскрытию конфиденциальности системных подсказок или обучающих данных) и манипуляциям с выходными данными (например, генерации ложной информации или вредоносного кода). Широкую огласку получил случай, когда ИИ-служба поддержки клиентов автосалона была атакована пользователем с помощью подсказки, чтобы обманом заставить его согласиться на продажу абсолютно нового автомобиля по номинальной цене в 1 доллар.

2.2 Подсказки для джейлбрейка

Подсказки для побега из тюрьмы - это особая форма введения подсказок, разработанная для обхода ограничений безопасности, морали и этики, встроенных в модели ИИ. Злоумышленники часто используют креативные методы "социальной инженерии", такие как сценарии ролевых игр (например, атаки "Сделай все сейчас" или DAN), чтобы обмануть модель и заставить ее генерировать вредный или незаконный контент, который в обычных условиях был бы отвергнут. Такие атаки используют преимуществабезопасность моделированияПассивность и ограничения фильтра. Успешный взлом джейлбрейка может привести к тому, что модели будут использоваться для создания руководств по опасным действиям, вредоносных программ или распространения языка ненависти, что создает серьезные юридические и репутационные риски для организаций.

2.3 Компромисс в цепи поставок ИИ

Разработка и внедрение систем искусственного интеллекта в значительной степени зависят от сложной цепочки поставок, включающей сторонние наборы данных, предварительно обученные модели, библиотеки для разработки и API-сервисы. Компрометация цепочки поставок ИИ происходит, когда злоумышленник внедряет в один из этих сегментов черный ход, уязвимость или вредоносный код. Например, в предварительно обученную модель, загруженную из ненадежного источника, может быть внедрен "троянский конь", который может активироваться при определенных условиях, что приведет к систематической компрометации или утечке данных. Поскольку эти компоненты часто считаются доверенными, такие атаки очень скрытны и разрушительны, имеют очень низкую обнаруживаемость и критический рейтинг риска.

2.4 Конфронтационная подготовкаотравление данных (Отравление данных в процессе обучения)

Отравление данных - это атака, осуществляемая на этапе обучения модели. Злоумышленник манипулирует поведением конечной модели, внедряя в набор обучающих данных небольшое количество тщательно сконструированных "грязных данных". Эти загрязненные данные могут заставить модель создать специфические бэкдоры (т. е. модель будет выполнять вредоносные инструкции при встрече с определенными триггерами), усилить смещения алгоритмов или потерпеть неудачу в критические моменты. Поскольку атака осуществляется на ранней стадии построения модели, ее воздействие закрепляется в модели, и ее крайне сложно обнаружить и устранить, поэтому она оценивается как критический риск.

2.5 Инверсия модели и утечка конфиденциальной информации

Атаки с инверсией модели направлены на то, чтобы выудить из обученной модели конфиденциальные обучающие данные, от которых зависит ее работа. Отправляя большое количество тщательно продуманных запросов к модели и анализируя ее результаты, злоумышленник может постепенно выудить из обучающих данных конкретную информацию, например, медицинские записи человека, финансовую информацию или коммерческие тайны. Исследователи успешно извлекли несколько мегабайт стенографических обучающих данных из больших языковых моделей, продемонстрировав реальную угрозу этого риска. Этот риск представляет собой прямую угрозу конфиденциальности пользователей иБезопасность данныхНарушение правил защиты данных, таких как GDPR, является одним из основных рисков.

2.6 глубокая подделкаDeepfake и злоупотребление синтетическими средствами массовой информации

С развитием технологий генеративного ИИ стало как никогда просто создавать высокореалистичные изображения, аудио и видео (т. е. глубокие подделки). Злоумышленники могут использовать эти методы для подделки личных данных, создания фальшивых новостей, вымогательства или нанесения ущерба личной и корпоративной репутации. Например, глубоко подделанный аудиозвонок, выдающий себя за руководителя компании, может побудить казначея сделать крупный несанкционированный перевод, что приведет к немедленным финансовым потерям. Мошенничество с компанией Arup на сумму 25,6 миллиона долларов в 2024 году стало болезненным уроком. Этот риск оценивается как критический из-за его высокого воздействия и низкой возможности обнаружения.

2.7 Другоеантагонистическое нападениеэкспозиции

Помимо основных рисков, перечисленных выше, атаки противника включают в себя множество других типов с высокой степенью риска, как показано в таблице ниже:

Название риска	описания	результат
Злоупотребление моделями искусственного интеллекта	Использование моделей искусственного интеллекта для создания контента для фишинга, вредоносного ПО или массовой дезинформации.	Разжигание киберпреступности и расширение масштабов атак.
Теневые советы (цепочка поставок)	Злоумышленники внедряют вредоносные подсказки в сторонние веб-сайты или документы, которые запускают вредоносные команды, когда система искусственного интеллекта организации обрабатывает эту внешнюю информацию.	Косвенное применение оперативного впрыска для обхода пограничной обороны.
путать с намеками	Используйте специальные символы (например, омонимы Unicode) или кодировку для маскировки вредоносных подсказок, чтобы обойти традиционные сканеры безопасности.	Обход обнаружения и успешное выполнение вредоносных операций.
Цепочка состязательных реплик	С помощью серии безобидных на первый взгляд диалогов модель постепенно приводится в состояние, в котором она может выполнять вредоносные инструкции.	Одиночное защитное ограждение вокруг модели.
Социальная инженерия с помощью искусственного интеллекта	Использование искусственного интеллекта для создания персонализированных и правдоподобных фишинговых писем или сообщений для обмана внутренних сотрудников.	Повышение успешности атак с помощью социальной инженерии.
Защита от водяных знаков и целостность вывода	Злоумышленники стремятся удалить или обойти цифровые водяные знаки на контенте, создаваемом искусственным интеллектом, что затрудняет его отслеживание или использование в незаконных целях.	Подрыв проверки подлинности контента и обход регулирования платформы.

Глава III: Риски, инициированные человеком

Риски, инициированные людьми, возникают из-за авторизованных пользователей в организации, которые не действуют со злым умыслом, но чьи действия могут, по неосторожности, неосведомленности или в стремлении к эффективности, нарушить правила компании.Безопасность данныхи политики соответствия. Этот тип риска часто тесно связан с ростом "теневого ИИ", когда сотрудники используют несанкционированные, личные или публичные инструменты ИИ для ведения корпоративного бизнеса, открывая новые риски, выходящие за рамки контроля ИТ-департамента.

3.1 Исчезновение данных

Утечка данных - один из самых непосредственных и распространенных рисков, связанных с человеческим фактором. Нарушение данных происходит, когда сотрудник вставляет внутренние данные, содержащие конфиденциальную информацию (например, собственный исходный код, неопубликованные финансовые данные, личную информацию клиента (PII)), в общедоступную крупномасштабную языковую модель (например, ChatGPT) для выполнения рутинных задач, таких как составление электронных писем, подведение итогов в отчетах или написание кода. После ввода данных в эти публичные модели компании навсегда теряют контроль над ними, и информация может быть использована для будущего обучения модели или непреднамеренно просочиться в запросы других пользователей. Классическим примером такого риска является случай с сотрудником Samsung, который случайно вставил в ChatGPT конфиденциальный исходный код компании и протоколы совещаний. Хотя этот риск имеет рейтинг непосредственного воздействия "Критический", общий рейтинг риска - "Средний", поскольку он обычно возникает в доверенных внутренних сетях и его трудно эффективно контролировать с помощью традиционных средств DLP (Data Loss Prevention).

3.2 Злоупотребления инсайдеров и теневая автоматизация

Внутреннее злоупотребление подразумевает использование сотрудниками инструментов ИИ в рамках своих полномочий, но не в соответствии с требованиями. Распространенным проявлением является "теневая автоматизация", когда команды подключают агентов ИИ или пользовательские скрипты к внутренним базам данных или критически важным системам для повышения производительности без одобрения и надзора со стороны ИТ-отдела. Хотя эти "теневые" процессы, в которых отсутствует централизованный аудит и управление, могут принести краткосрочные удобства, они создают неконтролируемые "операционные черные дыры" в организации, которые подвержены утечке данных или прерыванию бизнеса из-за неправильной конфигурации или логических ошибок, что представляет собой высокий уровень риска.

3.3 Человеческая ошибка

Человеческий фактор - это повсеместный и широко распространенный фактор риска в сфере безопасности ИИ. Сюда относится не только неправильное обращение с данными, о чем говорилось выше, но и чрезмерное доверие к "иллюзорной" информации, генерируемой ИИ, для принятия неверных решений. Например, финансовые аналитики могут принять неверные данные, сгенерированные ИИ, не проверив их, что приведет к неправильному инвестированию компании, или сотрудники юридической службы могут составлять контракты на основе неверного толкования ИИ юридических терминов, создавая юридические риски для организации. Компания Air Canada в итоге была привлечена к ответственности за дезинформацию своего чатбота с искусственным интеллектом о политике возврата средств, что подчеркивает необходимость привлечения компаний к ответственности за "человеческие ошибки" искусственного интеллекта. Этот риск оценивается как высокий в связи с высокой вероятностью и высоким уровнем воздействия.

3.4 Несоблюдение нормативных требований

По мере ужесточения глобального регулирования технологий искусственного интеллекта несоблюдение нормативных требований становится высоким риском для организаций. Это включает в себя нарушение таких нормативных актов, как Общий регламент ЕС по защите данных (GDPR) об автоматизированном принятии решений, или несоблюдение скорого вступления в силу Закона об искусственном интеллекте (AI Act) о прозрачности, интерпретируемости и управлении рисками. Например, использование искусственного интеллекта для отбора персонала, когда алгоритм является предвзятым и не проходит проверку человеком, может нарушить статью 22 GDPR, что приведет к значительным штрафам и обязательной перестройке бизнеса.

3.5 Ущерб бренду и репутации

Хотя риск для репутации бренда может быть спровоцирован различными инцидентами, связанными с безопасностью ИИ, в категории рисков, инициированных человеком, он обычно является прямым следствием рисков, описанных выше. Когда огласке предается утечка данных или ИИ-приложение организации обвиняется в дискриминации из-за алгоритмической предвзятости, это может привести к кризису общественного доверия, потере клиентов и падению курса акций. Чатбот "Тэй" компании Microsoft, который был вынужден отключиться через некоторое время после запуска, когда пользователи "преподали ему урок" и начали публиковать большое количество неуместных комментариев, остается примером управления репутационными рисками ИИ.

Глава 4: Непреднамеренный вред искусственного интеллекта

Непреднамеренное причинение вреда ИИ обусловлено внутренней логикой самой модели, а не каким-либо внешним злонамеренным поведением. В этом случае риск возникает из-за того, что ИИ выбирает опасный для человека или неэтичный "короткий путь" для оптимизации поставленной перед ним цели, тем самым обходя неявные нормы безопасности или этики. Такие риски носят системный характер, часто непредсказуемы и бросают вызов традиционной парадигме безопасности, основанной на правилах.

4.1 Предвзятость и справедливость алгоритмов

Алгоритмическая предвзятость - один из самых обсуждаемых рисков непреднамеренного вреда от ИИ. Когда обучающие данные модели ИИ отражают исторические предубеждения, существующие в реальном мире, модель учится и усиливает эти предубеждения. Например, система искусственного интеллекта, используемая при приеме на работу, может непреднамеренно дискриминировать кандидатов из недопредставленных групп, если ее обучающие данные взяты в основном из прошлых профилей успешных сотрудников, которые оказались несбалансированными с точки зрения пола или этнической принадлежности. Это может привести не только к тому, что компании упустят талантливых сотрудников, но и к коллективным искам и штрафам со стороны регулирующих органов, что создает высокий уровень риска.

4.2 Отсутствие возможности аудита

Многие продвинутые модели ИИ, особенно модели глубокого обучения, имеют "черный ящик" процесса принятия решений, которому не хватает прозрачности и интерпретируемости. Из-за отсутствия возможности аудита организации не могут эффективно отследить первопричину инцидента безопасности или вредного решения, принятого ИИ, а также продемонстрировать соответствие требованиям регулирующих органов. Например, если самоуправляемый автомобиль попадет в аварию, то из-за невозможности объяснить логику его решений будет крайне сложно определить ответственность. Это не только затруднит реагирование на инциденты и устранение проблем, но и создаст серьезные юридические и нормативные риски.

4.3 Несоответствие между моделями

В организациях часто используется несколько моделей ИИ от разных производителей или на основе различных архитектур. Несогласованность между моделями означает, что разные модели могут выдавать совершенно разные или даже противоречивые результаты для одного и того же входного сигнала. Это может быть использовано злоумышленником или внутренним пользователем для "покупки модели" вредоносного или несоответствующего запросу запроса, отклоненного моделью с высоким уровнем безопасности, в менее строгую модель и добиться успеха. Такая несогласованность представляет собой уязвимость для злоумышленников и, несмотря на низкую оценку прямого воздействия и вероятности, представляет собой системный риск низкого уровня.

4.4 Отказ в обслуживании (DoS) с помощью флуда.

Хотя это можно рассматривать как атаку противника, наводнение запросов может происходить и без злого умысла, например, из-за плохого дизайна системы или ошибок в пользовательских программах. Большое количество запросов с высокой вычислительной сложностью, наводняющих службу искусственного интеллекта за короткий промежуток времени, может привести к истощению ресурсов, резкому падению скорости ответа или даже полному отказу в работе, создавая фактический отказ в обслуживании. Это создает средний операционный риск для предприятий, которые полагаются на ИИ для предоставления услуг в режиме реального времени (например, интеллектуальное обслуживание клиентов, анализ транзакций в режиме реального времени).

Выводы и перспективы

Безопасность искусственного интеллектаИз теоретической темы он превратился в реальный вызов высокой сложности, которому должны противостоять предприятия. В данной статье раскрывается панорама современных угроз безопасности ИИ с помощью систематического перечисления 21 наиболее опасного риска безопасности ИИ, который охватывает три аспекта: атаки противника, человеческую небрежность и внутренние недостатки модели, и основная общность которых заключается в использовании неоднозначности языка и семантики с вероятностной природой систем ИИ.

От критических уровней внедрения подсказок, отравления цепочек поставок и глубокой подделки до высоких уровней утечки данных, алгоритмической предвзятости и несоблюдения нормативных требований - каждый из этих рисков может нанести организациям множество ударов, начиная от финансовых потерь и заканчивая репутационным крахом. Традиционные системы безопасности, основанные на сигнатурах, не справляются с этими новыми угрозами. Предприятия должны создать новую систему безопасности ИИ, в центре которой будет "управление намерениями".

Будущие оборонные системы должны обладать следующими ключевыми возможностями:

1. многоуровневая глубокоэшелонированная защита: развертывание целевых мер защиты на уровнях ключей, моделей, данных и приложений, например, с использованием намеренийБрандмауэр искусственного интеллекта(Intent-Based AI WAF) для обнаружения и блокирования вредоносных сигналов и использования методов дифференциальной конфиденциальности для защиты обучающих данных.

2. непрерывный мониторинг и аудит: создайте механизм регистрации и обнаружения аномалий, охватывающий все взаимодействия ИИ, чтобы обеспечить отслеживание и аудит всех действий ИИ, чтобы решить проблему "черного ящика".

3. Повышение безопасности цепочки поставок: тщательная проверка и постоянная оценка безопасности всех сторонних моделей, данных и инструментов для предотвращения рисков извне.

4. Повышение устойчивости организации: сократите количество человеческих ошибок и внутренних рисков, внедрив понимание безопасности в корпоративную культуру с помощью регулярного обучения персонала, установления четких норм использования ИИ и планов реагирования на инциденты.

Одним словом, поле битвы за безопасность ИИ изменилось. Победа теперь зависит не только от способности выявлять вредоносный код, но и от умения понимать и управлять намерениями машины. Только создав динамичную, интеллектуальную, многомерную систему защиты на основе синергии технологий, процессов и людей, предприятия смогут воспользоваться дивидендами технологии ИИ, эффективно управляя связанными с ней огромными рисками, и обеспечить устойчивое и далеко идущее движение по пути к всеобщему ИИ.

Приложение:
Искусственный интеллект 21 пункт контрольного списка

библиография

[1] CSO. (2026). Контрольный список рисков безопасности ИИ.

Оригинальная статья написана Chief Security Officer, при воспроизведении просьба указывать: https://www.cncso.com/ru/ai-security-risks-and-checklist.html.