AI安全ガイド：人工知能の安全のための21のリスクチェックリストと防御戦略

導入

とともにAI(AI）技術は2026年に企業の中核的なワークフローに浸透し、その攻撃対象は従来のコードの脆弱性から、より複雑で微妙なセマンティックレベルへと移行している。人間のインタラクションの媒体である言語は、今や現代企業の主要な制御インターフェースであり、セキュリティ境界である。AIセキュリティ・リスクその核心は、人間の意図と機械の実行との間にある乖離にある。この乖離は、モデル内のロジックのズレから、あるいは外部の攻撃者による意図的な敵対的操作から生じる可能性があり、最終的には意図しない、あるいは有害な結果をもたらすことさえある。

悪意のあるコード」という構文的脅威からの保護に主眼を置く従来のサイバーセキュリティとは異なる。AIセキュリティ課題はセマンティックである。攻撃者はもはやマルウェアやSQLインジェクションに頼る必要はなく、むしろ慎重に構築された「クリーンな言語」によって、AIモデルを説得したり、誘惑したり、騙したりして、確立されたセキュリティ・ガードレールを回避する必要がある。加えて、従来のソフトウェアの脆弱性は通常、決定論的である。つまり、同じ入力が一貫して同じエラーを引き起こすため、再現や修正が容易である。しかし、AIシステムの障害は確率的かつ多形的であり、モデルは99回正しく処理された後、100回目に同じまたは類似の入力に直面したときに壊滅的な失敗をする可能性がある。

このような新しいタイプの脅威を体系的に理解し対応するために、我々はAI攻撃ベクトルを3つの大きなカテゴリーに分類し、包括的な防御フレームワークを構築するための基礎を提供する。

AI攻撃ベクトルの分類

理解AIセキュリティリスクの出発点は、その独自の攻撃ベクトルを特定することである。私たちは、これらの言語ベースの脅威を、その発生源とリスクの方向性に基づいて、以下の3つの主要なカテゴリーに分類しました：

攻撃ベクトル	イニシエーター	リスクの方向性	コア機能
意図しないAIによる被害	AIモデルそのもの	アウトバウンド／組織的	モデルは、目的を最適化するために、暗黙の安全性や倫理的制約を迂回し、意図しない否定的な結果をもたらす。
人為的リスク	社内承認ユーザー	インバウンド／怠慢	機密データを処理するための「シャドーAI」の使用など、正当なユーザーによる不注意または便宜的な侵害。
敵対的AI攻撃	外部攻撃者	インバウンド/広告	攻撃者は、AIに悪意のある命令を実行させるために、武器化された言語ロードを通じて意味的・論理的脆弱性を悪用する。

これら3つのベクトルは、モデル内部での突発的なリスクから外部からの意図的な攻撃まですべてをカバーし、組織が多層的で包括的なAIセキュリティ防御システムを構築するための明確な指針となる。次のセクションでは、この分類に基づく21の具体的なセキュリティリスクについて詳しく説明し、対応する分析と緩和策を提供する。

第2章敵対的AI攻撃

敵対的AI攻撃とは、武器化された言語ペイロードを通じてAIシステムの振る舞いを操作するために、外部の攻撃者が仕掛ける悪意あるキャンペーンである。これらの攻撃は、意味理解や論理的推論における大規模な言語モデルの脆弱性を悪用し、慎重に細工された入力によってAIに本来の指示から逸脱するよう「説得」する。このカテゴリの主なリスクは以下の通りである。

2.1 キュー・インジェクション (プロンプト注射）

プロンプト・インジェクションはクリティカル・レベルのセキュリティ脆弱性であり、攻撃者が特殊な入力を構築することで、大規模な言語モデルに本来のシステム命令を無視させ、代わりに攻撃者が入力に隠した悪意のあるコマンドを実行させるものです。根本的な原因は、信頼されたシステム・コマンドと信頼されていないユーザー入力を効果的に区別できず、後者の実行優先度が高すぎることです。キューインジェクションが成功すると、不正な操作（データの削除など）、機密情報の漏洩（システムキューやトレーニングデータ内のプライバシーの暴露など）、出力内容の操作（偽情報や悪意のあるコードの生成など）につながる可能性がある。よく知られた事例として、自動車ディーラーのAIカスタマーサービスが、プロンプト・インジェクションを介してユーザーから攻撃を受け、新車を1ドルという名目価格で販売することに同意させられたというものがある。

2.2 脱獄プロンプト

脱獄ヒントは、AIモデルに組み込まれたセキュリティ、モラル、倫理的制限を回避するために設計された特殊な形のヒント注入である。攻撃者はしばしば、ロールプレイング・シナリオのような独創的な「ソーシャル・エンジニアリング」技法（「Do Anything Now」またはDAN攻撃など）を用いて、モデルを騙し、通常は拒否される有害または違法なコンテンツを生成させる。このような攻撃は安全性のモデル化フィルタの受動性と制限。ジェイルブレイクに成功すると、危険なアクティビティガイド、マルウェアを生成したり、ヘイトスピーチを広めるためにモデルが使用されるようになる可能性があります。

2.3 AIサプライチェーンの妥協

AIシステムの開発と導入は、サードパーティのデータセット、事前訓練されたモデル、開発ライブラリ、APIサービスを含む複雑なサプライチェーンに大きく依存しています。AIサプライチェーンの侵害は、攻撃者がこれらのセグメントのいずれかにバックドア、脆弱性、または悪意のあるコードを埋め込んだ場合に発生します。例えば、信頼されていないソースからダウンロードされた事前学習済みモデルには、特定の条件下で起動する「トロイの木馬」が埋め込まれている可能性があり、組織的な侵害やデータ漏えいにつながります。これらのコンポーネントは多くの場合信頼されていると考えられているため、このような攻撃は非常にステルスで破壊的であり、検出可能性は非常に低く、リスク評価はクリティカルです。

2.4 対決型トレーニングデータ中毒 (敵対的トレーニング・データ・ポイズニング）

データポイズニングとは、モデルのトレーニング段階で行われる攻撃である。攻撃者は、慎重に構築した少量の「ダーティ・データ」をトレーニング・データセットに注入することで、最終的なモデルの振る舞いを操作します。この汚染されたデータは、モデルに特定のバックドア（特定のトリガーに遭遇すると悪意のある命令を実行する）を作成させたり、アルゴリズムのバイアスを増幅させたり、重要な瞬間に失敗させたりします。この攻撃はモデル構築の初期段階で行われるため、その影響はモデル内で強固なものとなり、検出や除去が極めて困難であることから、クリティカルリスクと評価されています。

2.5 モデルの反転とプライバシー漏洩

モデル反転攻撃は、学習済みモデルが依存する機密性の高い学習データを、学習済みモデルからリバースエンジニアリングするように設計されています。慎重に作成された大量のクエリをモデルに送信し、その出力を分析することで、攻撃者は個人の医療記録、財務情報、独自の企業秘密など、学習データから特定の情報を徐々に推測することができます。研究者は、大規模な言語モデルから数MBの逐語的な学習データを抽出することに成功し、このリスクの本当の脅威を実証している。このリスクはユーザーのプライバシーを直接脅かすものでありデータセキュリティGDPRのようなデータ保護規制への違反は重要なリスクである。

2.6 偽造の深層ディープフェイクと合成メディアの悪用

ジェネレーティブAI技術の発展により、非常にリアルな画像、音声、映像（すなわちディープフェイク）を作成することがかつてないほど容易になりました。攻撃者はこのような技術を利用して、なりすまし詐欺、フェイクニュースの作成、恐喝、個人や企業の評判の毀損などを行うことができます。例えば、会社幹部になりすました音声通話のディープフェイクは、会計担当者に多額の不正送金をさせ、即座に金銭的損失をもたらす可能性があります。2024年に発生した2,560万ドルのアラップ詐欺事件は、手痛い教訓となりました。このリスクは影響が大きく、検出可能性が低いため、「クリティカル」と評価される。

2.7 その他拮抗攻撃露出

上記の主要なリスクに加えて、敵対的な攻撃には、以下の表に示すように、他にも様々な高リスクのタイプがある：

リスク名	説明	結果
AIモデルの乱用	フィッシング、マルウェア、大量偽情報のコンテンツを生成するためにAIモデルを使用する。	サイバー犯罪を助長し、攻撃を拡大する。
シャドウ・ティップス（サプライチェーン）	攻撃者は、第三者のウェブサイトや文書に悪意のあるプロンプトを埋め込み、組織のAIシステムが外部情報を処理する際に悪意のあるコマンドを実行させる。	国境防衛を迂回するための即席インジェクションの間接的な実施。
ヒントと混同する	特殊文字（Unicodeの同音異義語など）やエンコーディングを使用して悪意のあるヒントを偽装し、従来のセキュリティスキャナーを回避する。	検出を回避し、悪意のある操作を実行する。
敵対的キュー・チェーン	一見無害に見える連続したダイアログを通じて、モデルは徐々に悪意のある命令を実行できる状態へと誘導される。	モデルの周囲に設置された1本の相互作用安全ガードレール。
AIによるソーシャル・エンジニアリング	AIを使用して、高度にパーソナライズされた信憑性の高いフィッシングメールやメッセージを生成し、社内の従業員を欺く。	ソーシャル・エンジニアリング攻撃の成功率を高める。
電子透かしの回避と出力の完全性	攻撃者は、AIが生成したコンテンツの電子透かしを除去または回避し、追跡や違法目的での利用を困難にしようとしている。	コンテンツの信頼性検証を弱体化させ、プラットフォーム規制を回避する。

第3章人為的リスク

人為的なリスクは、悪意を持って行動しているわけではないが、過失、認識不足、または効率性の追求によって、会社の業務に違反する可能性のある、組織内の承認されたユーザーによって発生する。データセキュリティやコンプライアンス・ポリシーを侵害する可能性がある。この種のリスクは、しばしば「シャドーAI」の台頭と密接に関連しており、従業員が未承認の個人用または公開のAIツールを使用して企業業務を遂行することで、IT部門の管理範囲外に新たなリスク・エクスポージャーを広げている。

3.1 データ流出

データ漏洩は、人為的なリスクの中でも最も即効性があり、広範なリスクの一つである。データ漏えいは、従業員が電子メールの下書き、レポートの要約、コードの記述などの日常的な作業を目的として、機密情報（例えば、独自のソースコード、未発表の財務データ、顧客の個人を特定できる情報（PII））を含む内部データを公開の大規模言語モデル（ChatGPTなど）に貼り付けた場合に発生します。このような公開モデルにデータが入力されると、企業はそのデータのコントロールを永久に失い、その情報は将来のモデルのトレーニングに使用されたり、他のユーザーからのクエリで意図せず流出したりする可能性がある。会社の機密ソースコードや会議の議事録を誤ってChatGPTに貼り付けてしまったサムスンの社員は、この種のリスクの典型的な例です。このリスクは、直接的な影響度は「重要」ですが、一般的に信頼された内部ネットワーク上で発生し、従来のDLP（データ損失防止）ツールでは効果的な監視が難しいため、総合的なリスク度は「中」となっています。

3.2 インサイダーの悪用とシャドーオートメーション

社内の不正使用とは、従業員が権限の範囲内で、コンプライアンスに反する方法でAIツールを使用することである。よく見られるのは「シャドーオートメーション」で、チームが生産性を高めるために、IT部門の承認や監視を受けずにAIエージェントやカスタムスクリプトを社内のデータベースやビジネスクリティカルなシステムに接続する。一元化された監査やガバナンスを欠くこうした「シャドー」プロセスは、短期的には利便性をもたらすかもしれないが、組織内に制御不能な「運用のブラックホール」を生み出し、設定ミスや論理的エラーによるデータ流出や業務の中断を招きやすく、高いレベルのリスクをもたらす。リスクをもたらす。

3.3 ヒューマンエラー

ヒューマンエラーは、AIセキュリティにおいて広く蔓延しているリスク要因である。これには、前述のようなデータの誤った取り扱いだけでなく、AIが生成した「幻の」情報に過度に依存して誤った意思決定を行うことも含まれる。例えば、財務アナリストがAIが生成した誤ったデータを検証することなく採用し、企業による誤った投資につながったり、法律専門家がAIによる法律用語の誤った解釈に基づいて契約書を作成し、組織に法的リスクを生じさせたりする可能性がある。エア・カナダは最終的に、AIチャットボットに払い戻しポリシーについて誤った情報を伝えた責任を問われ、AIによる「ヒューマンエラー」に対して企業が責任を負う必要性が浮き彫りになった。このリスクは、可能性が高く、影響も大きいと評価されている。

3.4 規制不遵守

AI技術に対する世界的な規制が強化される中、規制の不遵守は組織にとって高水準のリスクとなっている。これには、自動化された意思決定に関するEUの一般データ保護規則（GDPR）などの規制に違反したり、透明性、解釈可能性、リスク管理に関する間もなく完全実施される人工知能法（AI法）に準拠しなかったりすることが含まれる。例えば、採用選考にAIを使用する場合、アルゴリズムに偏りがあり、人間によるレビューが欠如していると、GDPR第22条に違反する可能性があり、多額の罰金と強制的な事業再編につながる。

3.5 ブランドと評判へのダメージ

ブランドのレピュテーションリスクは、様々なAIのセキュリティインシデントによって引き起こされる可能性があるが、人為的なリスクの範疇では、通常、上記のリスクの直接的な結果である。データ漏洩が公表されたり、組織のAIアプリケーションがアルゴリズムの偏見による差別で非難されたりすると、社会的信用の危機、顧客の喪失、株価の下落につながる可能性がある。マイクロソフトの「Tay」チャットボットは、発売後短期間でユーザーが「懲りずに」不適切なコメントを大量に投稿するようになり、オフラインに追い込まれたが、AIによる風評リスク管理の一例として残っている。

第4章 AIによる意図せざる被害

意図しないAIの危害は、外部からの悪意ある行動ではなく、モデル自体の内部ロジックに起因する。この場合、リスクは、AIが設定された目標を最適化するために、人間が一見危険で非倫理的な「近道」を選択し、暗黙の安全規範や倫理規範を回避することから生じる。このようなリスクはシステマティックであり、しばしば予測不可能であり、従来の「ルールに基づく」セキュリティのパラダイムに挑戦するものである。

4.1 アルゴリズムのバイアスと公平性

アルゴリズム・バイアスは、意図しないAIによる危害のリスクとして最も話題になっているものの一つである。AIモデルの学習データが現実世界に存在する過去のバイアスを反映している場合、モデルはそのバイアスを学習し、増幅する。例えば、採用のために使用されるAIシステムは、その学習データが主に、性別や民族性の点でたまたまアンバランスな過去の成功した従業員プロファイルから引き出された場合、代表的でないグループからの候補者を意図せずに差別する可能性がある。これは、企業が人材を取りこぼすだけでなく、集団訴訟や規制当局の罰則につながる可能性もあり、高いリスクをもたらす。

4.2 監査可能性の欠如

多くの高度なAIモデル、特にディープラーニングモデルには、透明性と解釈可能性に欠ける「ブラックボックス」の意思決定プロセスがある。このような監査可能性の欠如により、組織はAIによるセキュリティインシデントや有害な意思決定の根本原因を効果的に追跡したり、規制当局にコンプライアンスを証明したりすることが不可能になる。例えば、自動運転車が事故に巻き込まれた場合、その判断のロジックを説明できないため、責任の所在を判断することが極めて困難になる。これはインシデント対応や問題解決の妨げになるだけでなく、中程度の法的リスクやコンプライアンス・リスクをもたらす。

4.3 モデル間の不整合

組織はしばしば、異なるベンダーの、あるいは異なるアーキテクチャに基づく複数のAIモデルを社内に導入する。モデル間の不整合は、異なるモデルが同じ入力に対して非常に異なる、あるいは矛盾した出力を与える可能性があることを意味します。これは攻撃者や内部ユーザーによって悪用され、高セキュリティモデルで拒否された悪意のあるリクエストや非準拠のリクエストを、より制限の緩いモデルに「モデル・ショップ」して成功させることができます。この矛盾は攻撃者に悪用可能な脆弱性を提供し、直接的な影響と可能性の評価は低いものの、低レベルのシステミック・リスクをもたらす。

4.4 プロンプト・フラッディングによるサービス拒否(DoS)

プロンプトフラッディングは敵対的な攻撃と考えられるが、システム設計の不備やユーザープログラムのエラーループなどが原因で、悪意がなくても発生することがある。計算複雑度の高い大量のプロンプト要求が短時間にAIサービスに殺到すると、AIサービスのリソースが不足したり、応答速度が急激に低下したり、あるいは完全にダウンしたりして、事実上のサービス拒否が発生する可能性がある。これは、リアルタイム・サービス（インテリジェントな顧客サービス、リアルタイムのトランザクション分析など）を提供するためにAIに依存している企業にとって、中程度の運用リスクをもたらす。

結論と展望

人工知能のセキュリティAIは理論的なトピックから、企業が立ち向かわなければならない複雑性の高い現実的な課題へと進化している。この論文では、敵対的攻撃、人間の過失、内在的モデルの欠陥という3つの次元にまたがる、AIセキュリティ・リスクのトップ21の体系的な大要を通して、現在のAIセキュリティ脅威のパノラマを明らかにするものであり、その中核的な共通点は、AIシステムの確率的性質と言語および意味論の曖昧さを悪用することにある。

重要なレベルのヒントインジェクション、サプライチェーンポイズニング、ディープフォージェリーから、高レベルのデータ流出、アルゴリズムバイアス、規制の不遵守に至るまで、これらのリスクはそれぞれ、財務的損失から評判の失墜に至るまで、組織に複数の打撃を与える可能性がある。従来のシグネチャ・ベースのセキュリティ・システムは、こうした新たな脅威には太刀打ちできない。企業は、「インテント・ガバナンス」を核とした新しいAIセキュリティフレームワークを構築しなければならない。

将来の防衛システムには、以下のような重要な能力が求められる：

1.マルチレイヤー・ディフェンス・イン・デプス：キュー、モデル、データ、アプリケーションの各レイヤーに、インテント・ベースなどの標的型防御策を導入する。AIファイアウォール(Intent-Based AI WAF）により、悪意のあるキューを検出してブロックし、差分プライバシー技術を使用してトレーニングデータを保護する。

2.継続的なモニタリングと監査：「ブラックボックス化」という課題に対処するため、すべてのAI活動を追跡可能かつ監査可能なものにするため、すべてのAI相互作用を網羅するロギングと異常検知のメカニズムを確立する。

3.サプライチェーンセキュリティの強化：外部からのリスク侵入を防ぐため、すべての第三者モデル、データ、ツールの厳格なデューデリジェンスと継続的なセキュリティ評価を行う。

4.組織の回復力の強化：定期的なスタッフ研修、AI使用に関する明確な規範の確立、事故対応計画の策定を通じて、安全意識を企業文化に組み込むことにより、ヒューマンエラーと内部リスクを低減する。

つまり、AIセキュリティの戦場は変わったのだ。勝利はもはや、悪意のあるコードを特定する能力だけでなく、マシンの意図を理解し、制御する能力にかかっている。テクノロジー、プロセス、人材の相乗効果によって、ダイナミックでインテリジェントな多次元防御システムを構築することによってのみ、企業はAIテクノロジーの恩恵を享受しながら、それに関連する巨大なリスクを効果的に管理し、一般的なAIへの道を着実に、そして遠大に歩むことができる。

アネックス
人工知能 21項目のチェックリスト

書誌

[1] CSO. (2026). AIセキュリティリスクチェックリスト.

元記事はChief Security Officerによるもので、転載の際はhttps://www.cncso.com/jp/ai-security-risks-and-checklist.html。

AI安全ガイド：AI安全のための21のリスクチェックリストと防衛戦略