#main-nav-header { display:none; }

LLM 보호하기

애플리케이션에서의 임베디드 LLM의 위험성 이해하기

인공지능(AI)의 대규모 언어 모델 덕분에 사용자가 애플리케이션과 상호 작용하는 방식이 개선되지만, 디지털 자산에 위험이 초래되기도 합니다.

OpenAI(ChatGPT), Google(Bard), Meta(LlaMA)에서 제공하는 것과 같은 대규모 언어 모델은 방대한 양의 텍스트 데이터 처리를 가속화하고 지속해서 결과물을 개선하는 방법을 학습하도록 훈련되어 있습니다. 하지만 AI 사용이 폭발적으로 늘어나면서 이러한 LLM 모델은 사이버 범죄자의 주요 표적이 되기도 합니다. 예를 들어, Darktrace 연구원들은 2023년 1월부터 2월까지 새로운 소셜 엔지니어링 공격이 135% 증가했으며, 이는 ChatGPT가 널리 채택된 시기와 일치한다는 사실을 발견했습니다.

보안 프로토콜보다 앞서 가는 AI LLM

AI를 활용하려는 기업에서는 내부 운영과 고객 대면 서비스에 이 기술을 빠르게 통합하고 있습니다. 그러나 AI 채택 속도가 빨라지면서 보안 프로토콜을 업그레이드하지 않으면 애플리케이션이 취약해질 수 있습니다.

대규모 언어 모델도 애플리케이션 공급망의 다른 구성 요소와 마찬가지입니다. 대규모 언어 모델은 IT 인프라를 악용하여 중요한 데이터를 손상시키고 조작할 수 있는 사이버 공격에 노출될 수 있습니다.

사용자 입력을 허용하는 애플리케이션은 오랫동안 SQL 삽입 및 사용자 생성 콘텐츠의 악의적 링크와 같은 공격에 취약했기 때문에, 이는 놀라운 일이 아닙니다. AI는 명령, 쿼리 등의 사용자 입력을 받아들이므로 액세스 권한을 얻은 공격자는 모델을 조작할 수 있습니다.

10가지 유형의 LLM 공격과 이로 인한 위험성

예를 들어, AI 대규모 언어 모델에 대한 공격은 다양한 형태로 나타나며 다양한 방식으로 위험을 초래합니다.

프롬프트를 삽입하는 보이지 않는 텍스트로 모델이 피싱 이메일을 생성하도록 유도하거나, 중요한 정보를 노출하는 학습 데이터를 추출하거나, 백도어를 사용하여 악성 코드를 삽입할 수 있습니다.
모델이 조작되어 오도하는 결과가 도출되면 다른 사용자가 잘못된 결론을 내릴 수 있습니다.
모델의 파일 시스템을 복사하면 경쟁사에 판매될 수 있는 지적 재산이 도난당하여 경제적 손실이 발생하거나 시장 경쟁력이 흔들릴 수 있습니다.
자연어를 사용하면 사용자를 오도하고 모델을 악용하기가 더 쉬워집니다.
의도적으로 조작된 정보가 소비되는 문서에 삽입될 수 있으며, 이로 인해 공격자가 사용자 세션을 장악할 수 있습니다.
프롬프트 삽입의 경우 시스템 프롬프트를 덮어쓰는 직접 삽입 또는 사용자 입력을 조작하는 간접 삽입을 통해 모델이 조작됩니다.
안전하지 않은 출력 처리가 되면 최종 사용자를 속여 코드를 클릭하도록 유도하기 위해 프런트엔드 애플리케이션에 삽입되는 악성 코드에 백엔드 웹 시스템이 노출됩니다.
AI 모델에서 리소스를 많이 사용하는 작업은 서비스 성능 저하와 높은 컴퓨팅 비용으로 이어질 수 있습니다.
타사의 LLM 모델 구성 요소에 의존하는 경우 소프트웨어 공급망도 위협이 될 수 있습니다. 추가적인 모델 데이터 세트와 플러그인이 도입되어 앱이 손상될 수 있기 때문입니다.
응답을 제출할 때 기밀 데이터를 공개하도록 최종 사용자를 속이는 모델.

애플리케이션에 AI를 적용하여 최종 사용자에게 제공하는 가치를 지속해서 높이려면 올바른 보안 전략을 구현하여 애플리케이션을 안전하게 보호하는 것이 중요합니다. CISO가 LLM 취약점의 위험을 평가하는 데 도움을 주기 위해 오픈 월드와이드 앱 보안 프로젝트(OWASP)에서 LLM 자문을 위한 상위 10가지를 발표했습니다.

이러한 위험에 대한 방어는 대부분 검증되지 않은 영역에 속합니다. 많은 기업에서 서둘러 LLM이 포함된 생성형 AI를 애플리케이션에 통합하고 있지만, 삼성, Apple 등 일부 기업에서는 적어도 일시적으로는 이 모델을 완전히 금지하고 있습니다.

LLM 보호하기

AI 도구에서 사용하는 대규모 언어 모델에 대한 공격으로부터 조직을 보호하려면 안전하지 않은 앱 구성 요소로부터 보호하는 보안 전략을 적용하세요. 먼저, 조직에 피해를 줄 수 있는 데이터 유출로 이어질 애플리케이션 침해를 예방하기 위한 몇 가지 전략을 소개합니다.

네트워크 트래픽을 분석하여 애플리케이션 및 사용자 계정을 손상시킬 수 있는 LLM 침해를 나타내는 공격 패턴을 확인합니다.
전송 계층 트래픽 패턴에 대한 실시간 가시성을 확보하여 LLM과 상호 작용하는 패킷 및 데이터를 비트 수준에서 시각화합니다.
데이터 손실 방지 기술을 적용하여 전송 중인 중요한 데이터를 보호합니다.
트래픽을 확인, 필터링, 격리하여 손상된 LLM으로부터 사용자, 장치, 앱을 보호합니다.
에지에서 코드를 실행하여 원격 사용자 브라우저를 격리해서 악성 코드가 삽입된 LLM으로부터 격리합니다.
웹 앱 방화벽에서 WAF 관리 규칙 집합(예: OWASP 핵심 규칙 및 벤더 규칙)을 사용하여 SQL 삽입, 교차 사이트 스크립팅, 기타 웹 공격 벡터를 기반으로 하는 LLM 공격을 차단하는 동시에 긍정 오류 경보를 방지합니다.

이러한 전략을 적용할 때는 최종 사용자를 고려합니다. 취약점을 완화하는 것도 중요하지만, 애플리케이션 인터페이스는 탐색하기 쉬워야 하며 사용자가 애플리케이션에 액세스하기 위해 너무 많은 단계를 거치도록 강요해서는 안 됩니다. 또한, 완화 노력을 테스트하여 귀중한 대역폭을 차지하는지 확인합니다.

접근 방식을 전반적인 Zero Trust 전략 내에서 통합하는 것도 중요합니다. 기본적으로, 회사 네트워크에 연결되어 있고 이전에 확인된 경우에도 사용자와 장치를 신뢰하지 말고 항상 유효성을 검사합니다. Zero Trust를 사용하면 네트워크 수준 액세스가 아닌 리소스별로 컨텍스트 기반의 최소 권한 액세스를 부여하여 모든 자체 호스팅, SaaS, 비웹 애플리케이션에 대한 액세스를 위한 집계 계층을 생성하여 공격면을 축소할 수 있습니다.

사용자 경험 품질 저하 없이 보호

Cloudflare에서는 조직에서 모범 사례를 따르면서 사용자 경험의 품질 저하 없이 안전하게 AI를 실험할 수 있도록 지원합니다. 조직에서는 데이터 보호를 사용하여 웹, SaaS, 비공개 애플리케이션 등 모든 곳에서 데이터를 보호할 수 있습니다. AI Gateway는 사람들이 AI 앱을 사용하는 방식에 대한 인사이트를 조직에서 수집하고 캐싱, 레이트 리미팅 등의 기능으로 애플리케이션의 확장 방식을 제어하는 데 도움이 됩니다.

전체 인터넷 트래픽의 약 20%가 Cloudflare 네트워크를 통과하며, 그 결과 Cloudflare에서는 하루 평균 ~227십억 건의 사이버 위협을 차단합니다. 이 방대한 인텔리전스를 분석함으로써 Cloudflare에서는 AI 위협 환경에 대한 독보적인 인사이트를 얻을 수 있습니다.

이 글은 오늘날의 기술 의사 결정자에 영향을 주는 최신 동향 및 주제에 대한 시리즈 중 일부입니다.