theNet by CLOUDFLARE

LLMの保護

アプリケーションに組み込まれたLLMのリスクを理解する

人工知能(AI)の大規模言語モデルは、ユーザーとアプリのインタラクションを改善する一方で、デジタル資産にリスクをもたらします。

OpenAI(ChatGPT)、Google(Bard)、Meta(LlaMA)が提供するような大規模言語モデルは、膨大なテキストデータの処理を高速化するもので、出力を継続的に改善する方法を学習するように訓練されています。しかし、AIの利用が爆発的に増えたため、これらのLLMモデルはサイバー犯罪者の格好の標的にもなっています。例えば、Darktraceの調査で、2023年1月から2月にかけて新たなソーシャルエンジニアリング攻撃が135%増加したことが判明しましたが、これはChatGPTが広く普及した時期に対応しています。


AI LLMの普及にセキュリティプロトコルのアップグレードが追い付かない

AIを活用したいと考える企業は、この技術をさっそく社内業務や顧客向けサービスに組み込んでいます。しかし、AIの導入が加速し、セキュリティプロトコルがアップグレードされなければ、アプリケーションが脆弱になってしまう可能性があります。

大規模言語モデルは、アプリケーションサプライチェーンの他のコンポーネントとまったく同じで、ITインフラを不正利用して機密データの侵害や改竄を行うサイバー攻撃の対象となります。

ユーザーの入力を受け付けるアプリケーションは以前からずっと、SQLインジェクションやユーザー生成コンテンツ内の悪性リンクなどの攻撃に対して脆弱でしたので、これは驚くべきことではありません。AIはコマンドやクエリーといったユーザー入力を受け付けるため、アクセスした攻撃者はモデルを操作することができるのです。


10種類のLLM攻撃とそれがもたらすリスク

AIの大規模言語モデルに対する攻撃はさまざまな形で行われ、以下のようにさまざまな形でリスクをもたらします。

  1. プロンプトを注入する見えないテキストで、フィッシングメールを作成するようモデルを誘導したり、機密情報があらわな学習データを抽出したり、バックドアを使って悪意のあるコードを埋め込んだりする可能性があります。

  2. モデルを操作して誤解を招くような出力を出し、他のユーザーが誤った結論に導かれる可能性があります。

  3. モデルのファイルシステムをコピーして知的財産を窃取する可能性があります。窃取された知的財産が競合他社に売却されて、経済的損失を被ったり、市場での優位性が損なわれたりする場合があります。

  4. 自然言語を使用すると、容易にユーザーを惑わせ、モデルを不正利用することができます。

  5. 意図的に細工した情報を消費される文書に紛れ込ませ、ユーザーセッションを乗っ取る可能性があります。

  6. プロンプトインジェクションは、システムプロンプトを上書きする直接インジェクションや、ユーザー入力を操作する間接インジェクションによって、モデルを操作します。

  7. セキュアでない出力処理によって、エンドユーザーを騙してクリックさせようとフロントエンドのアプリケーションに挿入された悪意あるコードに、バックエンドのWebシステムを露出します。

  8. AIモデルでリソースを大量に消費する操作で、サービスの劣化や計算コストの増大を招く可能性があります。

  9. ソフトウェアサプライチェーンも、サードパーティのLLMモデルコンポーネントに依存している場合は脅威となり、追加のモデルデータセットやプラグインを導入することでアプリケーションの安全を損なう可能性があります。

  10. エンドユーザーを騙すモデルで、応答送信時に機密データを明かすよう仕向けます。

エンドユーザーにとってのアプリの価値をAI活用によって高め続けるには、アプリを安全性に保つための適切なセキュリティ戦略を実装することが極めて重要になります。CISOがLLMの脆弱性から生じるリスクを評価する際に役立つように、オープン・ワールドワイド・アプリ・セキュリティ・プロジェクト(OWASP)がLLMの脆弱性トップ10を発表しました。

こうしたリスクに対する防御は、ほとんど未検証の分野です。多くの企業がLLMを用いた生成系AIを自社アプリケーションに組み込むことを急ぐ一方で、SamsungやAppleのように、少なくとも一時的にモデルを完全に禁止している企業もあります。


LLMの保護

AIツールが用いる大規模言語モデルへの攻撃から組織を守るには、安全でないアプリケーションコンポーネントから保護するセキュリティ戦略を適用します。手始めに、組織を危険にさらすデータ漏洩につながりかねないアプリケーション侵害の防止戦術をいくつか紹介します。

  • ネットワークトラフィックを分析し、アプリケーションやユーザーアカウントの安全を損なう可能性のあるLLM侵害を示す攻撃パターンを検出します。

  • トランスポート層のトラフィックパターンをリアルタイムで可視化し、LLMとパケットやデータの相互作用をビットレベルで可視化します。

  • データ損失防止技術を適用し、転送中の機密データを保護します。

  • トラフィックの検証、フィルタリング、分離によって、ユーザー、デバイス、アプリケーションを危険なLLMから保護します。

  • エッジでコードを実行することで、悪意のあるコードが注入されたLLMからリモートユーザーのブラウザを隔離します。

  • WAFベンダーが管理するルールセット(OWASPのコアルールやベンダールールなど)をWebアプリケーションファイアウォールに用い、SQLインジェクション、クロスサイトスクリプティングなどのWeb攻撃ベクトルによるLLM攻撃をブロックしつつ、誤検知アラートを回避します。

こうした戦略を適用する際は、エンドユーザーを考慮しましょう。もちろん脆弱性の軽減は非常に重要ですが、アプリケーションインターフェースはあくまでナビゲートしやすく、ユーザーがアプリケーションにアクセスするまでの操作ステップが多すぎないものにします。軽減策が貴重な帯域幅を浪費していないかどうかもテストします。

また、この対策を全般的なZero Trust戦略の中に組み込むことも重要です。ユーザーやデバイスを決して信用せず、常に検証することをデフォルトとし、たとえ企業ネットワークに接続されている場合でも、以前に認証されている場合でも、このデフォルトを適用します。Zero Trustの適用により、ネットワークレベルのアクセスではなく、リソースごとにコンテキストベースの最小権限アクセスを許可することで、セルフホスト、SaaS、非ウェブの全アプリケーションへのアクセス用に集約レイヤーを作成し、攻撃対象領域を縮小することができます。


ユーザーエクスペリエンスを損なわない保護

Cloudflareは、企業がベストプラクティスに従って、ユーザーエクスペリエンスを損なうことなくAI活用を安全に試せるよう支援します。Data Protectionを使用すれば、Webアプリ、SaaSアプリ、プライベートアプリなどあらゆる場所でデータを保護することができます。AI Gatewayは、AIアプリの使われ方に関する知見の収集と、キャッシングやレート制限などの機能によるアプリケーションの拡張制御に役立ちます。

全インターネットトラフィックのおよそ20%がCloudflareネットワークを通過しており、その結果、Cloudflareは1日平均~1650億件のサイバー脅威をブロックしています。この膨大なインテリジェンスを分析することで、Cloudflareは、AIの脅威状況について比類ない洞察を得ることができます。

この記事は、技術関連の意思決定者に影響を及ぼす最新のトレンドとトピックについてお伝えするシリーズの一環です。


このトピックを深く掘りさげてみましょう。

このアプローチの詳細については、電子書籍「Cloudflareがお客様の業務全域のセキュリティを強化する仕組み」をご覧ください。



記事の要点

この記事では、以下のことがわかるようになります。

  • AIが使用する大規模言語モデル(LLM)がサイバー攻撃を受けやすい理由

  • 10種類のLLM攻撃とそれらがもたらすリスク

  • LLMを保護する方法


関連リソース


大人気のインターネット関連インサイトの要約を毎月お届けします。