Cloudflare의 theNet

AI에서 데이터 보호

AI 기반 개발의 장단점

AI로 변화하는 개발 환경

조직에서는 AI를 통해 놀라운 속도와 규모로 애플리케이션을 구축하고 개선할 수 있게 되었습니다.

소프트웨어 개발에 대한 이러한 발전은 ChatGPT, GitHub Copilot 등 생성형 AI 도구의 신속한 채택을 통해 이루어졌습니다.

AI는 다양한 사용 사례 중에서도 코드를 빠르게(그리고 대부분 정확하게) 작성하고, 기존 코드를 정리하며, 유용한 알고리즘을 찾아내고, 소프트웨어 문서를 작성하며, 수동 코딩 프로세스를 가속화할 수 있습니다.

간단히 말해, AI는 강력한 개발 도구가 될 수 있습니다. 구체적이고 세심하게 스크립트가 작성된 프롬프트가 주어지면 시간과 노동력을 크게 절약할 수 있는 고품질의 결과물을 생성할 수 있습니다.

하지만 모든 기술에는 한계가 있기 마련입니다. AI의 경우에는 심각한 오류를 발견하지 못하거나 독점 코드가 노출되는 등 효율성이라는 이점을 능가할 수 있는 심각한 보안 및 데이터 프라이버시 위험이 존재합니다. 이러한 위험에 대처하는 방법 중 하나는 데이터 손실 방지(DLP) 기능입니다. 이를 이용하여 조직에서는 중요한 데이터의 이동을 감지하고, 데이터 및 개인정보 보호 규정을 준수하며, 데이터 유출에 대응하도록 지원할 수 있습니다.

하지만 새로운 AI 도구의 등장했음에도 기존의 많은 보안 솔루션은 조직의 데이터에 가해지는 위험과 알려지지 않은 위험을 완화할 역량을 갖추지 못했습니다. 오히려 개발 프로세스에서 AI를 활용하려는 조직에서는 AI 복원력이 뛰어난 데이터 보호 전략을 구현하여 이러한 도구를 안전하게 사용할 수 있습니다. 최신 데이터 보호는 기밀 정보 손상, 규제 준수 위반, 적대적 공격, 지적 재산 손실을 방지하는 데 도움이 됩니다.


코딩에 생성형 AI를 사용할 때의 위험성

AI 기반 개발은 조직에서 대규모로 혁신을 추진하는 데 도움이 될 수 있습니다. 그러나 이러한 도구에 내재하는 한계와 위험을 염두에 두지 않고 사용하면 개발 프로세스에 방해가 될 뿐만 아니라 도구를 사용하는 조직에 해를 끼칠 수 있습니다.

1. AI가 독점 코드를 노출(및 복제)할 수 있습니다.

생성형 AI 도구는 입력된 정보를 수집한 다음 해당 데이터를 사용하여 새로운 콘텐츠를 생성할 수 있는 패턴과 구조를 식별합니다. 이러한 대규모 언어 모델(LLM)은 더 많은 데이터가 입력될수록 더욱 정교해지고 범위가 넓어집니다.

이는 독점 데이터와 관련하여 중요한 우려를 불러일으킵니다. 어느 엔지니어가 실수로 내부 소스 코드를 도구에 업로드한 후 ChatGPT 사용을 금지한 삼성의 경우를 예로 들 수 있습니다. 해당 데이터는 전통적인 의미에서 유출되지는 않았지만, AI 도구와 공유되는 데이터는 조직의 통제 범위를 벗어난 서버에 저장되는 경우가 많으므로 데이터의 사용 및 배포 방식을 보호할 수 있는 기능이 상실됩니다.

조직에서 가장 많이 우려하는 것 중 하나는 AI 플랫폼이 머신 러닝을 더욱 학습시키기 위해 사용자 데이터를 수집하는 방식입니다. OpenAI 및 GitHub Copilot 등 인기 있는 AI 플랫폼에서는 입력된 데이터를 사용하여 AI 모델을 학습시키고, 해당 플랫폼의 다른 사용자를 위한 결과물을 생성할 때 여러 차례 해당 데이터를 복제했습니다. 이에 따라 독점 코드, 중요한 데이터, 개인 식별 정보(PII)가 공개적으로 노출될 수 있다는 개인정보 보호 문제가 제기됩니다.

결국, AI 플랫폼과 데이터를 공유하는 것은 다른 회사와 데이터를 공유하는 것과 마찬가지입니다. 사용자들은 데이터 보안이 핵심 기능이 아니라는 사실을 인지하지 못한 채 AI 플랫폼에서 데이터 입력 정보가 안전하게 보호되리라고 믿고 있으며, AI 플랫폼은 데이터가 더 많이 축적될수록 더 많은 수익이 창출될 수 있는 표적이 되고 있습니다.

2. AI로 인해 취약점이 생길 수 있습니다

AI 도구 관련 유출 사고는 대부분 우발적인 경우가 많습니다. 엔지니어가 내부 환경 외부로 유출되어서는 안 되는 코드를 업로드하거나 조직에서 회사 기밀 데이터와 매우 유사한 ChatGPT 응답을 발견하는 경우입니다.

다른 손상 사례는 더 계획적입니다. FraudGPT, WormGPT 등 두 가지 AI 도구는 피싱 캠페인을 생성하고, 맬웨어를 자동화하며, 보다 정교하고 사람처럼 보이는 소셜 엔지니어링 공격을 수행하도록 훔친 데이터로 특별히 교육되었습니다. 대부분의 AI 플랫폼은 주로 유익한 목적으로 사용되지만, 그 기반이 되는 강력한 기술은 공격을 가속화하고 유도하도록 교육될 수 있습니다.

도난당한 데이터를 악용하는 것 외에도, 무해한 AI 도구가 불안정한 코드를 생성할 수도 있습니다. 최근 연구에 따르면 GitHub Copilot에서 생성된 코드의 40%에 MITRE에서 식별한 가장 일반적인 25가지 취약점 중 하나 이상이 포함되어 있었습니다. 이 연구의 저자들은 모든 사용자가 코드를 업로드할 수 있는 GitHub의 오픈소스 리포지터리에서 Copilot을 교육한 결과라고 판단했습니다.

마지막으로, AI 도구 자체도 공격자의 표적이 될 수 있습니다. 최근 ChatGPT는 10여 만 개의 계정이 유출되는 데이터 유출 사고를 겪었습니다. 이름, 이메일 및 결제 주소, 신용카드 정보가 유출되었으며, 이 도구로 생성된 기밀 채팅 제목과 메시지도 노출되었습니다.

3. AI는 데이터 개인정보 보호 제어를 우회할 수 있습니다

AI 도구를 쉽게 조작할 수 있다는 점은 기업에서 이 기술을 사용할 때 사용자 데이터를 얼마나 완벽하게 보호할 수 있을지에 대한 의문을 불러일으킵니다. 실수로든 악의적으로든 AI 소프트웨어를 사용하면 데이터가 노출되어 광범위한 규정 준수 문제가 발생할 수 있습니다.

예를 들어, 연구원들은 Nvidia의 AI 소프트웨어에서 심각한 결함을 발견했는데, 이들은 데이터 프라이버시 및 보안 제한을 우회할 수 있었습니다. 연구원은 하루도 채 안 되어 AI 프레임워크를 속여 PII를 노출시키는 데 성공했습니다.


AI에 투자하려면 보안을 우선시하는 사고방식이 필요합니다.

AI의 위험으로부터 중요한 데이터를 보호할 때는 AI를 더 위험한 섀도우 IT 유형 중 하나로 생각하면 도움이 될 수 있습니다. 간단히 말하자면, 타사 AI 도구를 사용하면 데이터가 어떻게 처리되고 저장되며 배포되는지에 대한 가시성이 아주 부족한 경우가 많습니다.

오픈 소스 AI 도구는 보안과 데이터 프라이버시를 염두에 두고 개발되지 않았으므로 시스템, 코드, 사용자 데이터가 손상되지 않도록 선제적으로 방어해야 할 책임은 조직에 있습니다. AI 사용을 완전히 금지할 수는 없지만, 조직에서는 이러한 위험을 최소화하기 위해 다음과 같은 몇 가지 전략을 사용할 수 있습니다.

선제적 위험 식별

새로운 타사 AI 도구를 도입하기 전에 AI에 대한 사용 계획 사례를 평가합니다. 자연어 문서를 제안하는 데 AI가 사용되는가? 로우코드 또는 노코드 소프트웨어 앱을 개발하는가? 기존 코드의 결함을 평가하고 수정하고 싶은가? 내부 앱 또는 공개용 제품에 통합하고 싶은가?

이러한 사용 사례의 우선순위를 정한 후에는 AI 도구에 노출되어 발생하거나 악화될 수 있는 잠재적 위험을 평가하는 것이 중요합니다. AI 위험의 범위는 폭넓게 존재하므로, 조직에서는 발생하는 모든 취약점을 예방하고 패치하기 위한 명확한 지침을 수립해야 합니다. 특정 AI 소프트웨어와 관련된 취약점에 대한 기존 문서를 참조하는 것도 도움이 될 수 있습니다.

AI 사용과 관련된 프로토콜 개발

특히 독점 정보와 사용자 데이터가 위험에 처할 경우 조직에서 AI에 대한 무제한적인 액세스를 제공해서는 안 된다는 것은 두말할 나위가 없습니다. 보안 및 데이터 프라이버시 우려 외에도 AI 도구에 대해서는 편향성과 투명성에 대한 의문이 제기되며, 이는 AI를 활용한 개발의 이점에 더 큰 영향을 미칠 수 있습니다.

따라서 조직에서는 타사 AI 사용에 대한 가이드라인과 프로토콜을 개발해야 합니다. 어떤 데이터를 AI 도구와 공유할 수 있는지, 어떤 컨텍스트에서 데이터를 공유할 수 있는지, 어떤 AI 도구가 해당 데이터에 액세스할 수 있는지 결정해야 합니다. AI 도구 때문에 초래될 수 있는 잠재적 편향성을 조사하고, 조직 내에서 AI가 어떻게 사용되는지 문서화하며, 수집된 AI 생성 결과물의 품질에 대한 표준을 설정해야 합니다.

AI 제어 구현 및 미세 조정

AI는 끊임없이 진화하고 있으므로 지속해서 모니터링해야 합니다. AI 모델을 활용할 때는 새로운 사용 사례가 등장하면 기존 프로토콜과 데이터 제한을 조정해야 합니다. AI에서 생성된 코드와 기능을 지속해서 평가함으로써 조직에서는 잠재적 위험을 더 쉽게 감지하고 침해 가능성을 최소화할 수 있습니다.

내부 점검은 타사 AI 도구에 대한 정기적인 평가로 보완해야 합니다. ChatGPT, Copilot, 기타 AI 소프트웨어에서 새로운 취약점이 발견되면 해당 도구에 입력되는 데이터 유형을 재고하거나, 필요한 경우 버그가 패치될 때까지 도구에 대한 액세스 권한을 취소합니다.

AI 위험을 예측할 수 있는 데이터 보호에 투자

기존의 데이터 보호 솔루션은 진화하는 AI 데이터 위험에 대응할 수 있을 만큼 적응력이 뛰어나거나 유연하지 않습니다. 많은 표준 데이터 손실 보호(DLP) 제품은 설정 및 유지 관리가 복잡하고 부정적인 사용자 경험을 초래하여 실제로 DLP 제어 기능이 제대로 활용되지 않거나 완전히 우회되는 경우가 많습니다. 독립형 플랫폼으로 배포되든, 다른 보안 서비스에 통합되든, DLP 서비스만으로는 AI가 악용할 수 있는 다양한 방식에 대응하기에는 너무 비효율적이고 효과적이지 않을 수 있습니다.

대신 조직에서는 AI 위험을 완화하고 오용, 침해, 공격으로부터 독점 정보 및 사용자 데이터를 보호할 수 있을 만큼 민첩하게 설계된 데이터 보호 기술에 투자해야 합니다. 최신 데이터 보호 솔루션을 평가할 때는 조직의 변화하는 보안 및 개인정보 보호 요구사항에 따라 발전하면서 중요한 데이터가 있는 모든 위치에서 개발자 코드를 보호하도록 설계된 솔루션을 선택해야 합니다.


Cloudflare, AI 위험 최소화를 지원

기업에서 생성형 AI를 활용하는 방법은 이제 막 시작 단계에 있습니다. AI 활용 초기 단계임에도 불구하고, 이미 데이터가 노출되고 개인정보 보호 위험이 초래되었습니다. 오늘날 이러한 위험을 효과적으로 최소화하려면 사람, 프로세스, 기술 전반에 걸쳐 전략적 조정이 필요합니다.

Cloudflare는 새로운 AI 도구와 같은 최신 데이터 위험의 최전방에 서도록 설계되었습니다. Cloudflare One은 여러 데이터 보호 지점 솔루션을 단일 SSE 플랫폼으로 통합하여 관리를 간소화하고, 모든 웹, SaaS, 사설 환경 등 모든 곳에서 빠르고 일관성 있게 제어를 시행합니다. 모든 서비스가 Cloudflare 프로그래밍 가능 네트워크에 구축되어 있으므로 새로운 기능을 신속하게 구축하여 모든 330 네트워크 위치에 배포할 수 있습니다.

이러한 접근 방식은 조직의 데이터 보호 전략에 도움이 됩니다.

  • 보안팀에서는 유연한 인라인 및 API 기반 옵션으로 연결을 간소화하여 데이터를 보다 효과적으로 보호할 수 있으며, 이를 통해 트래픽을 Cloudflare로 전송하여 데이터 제어를 시행할 수 있습니다.

  • 직원들은다른 경쟁사보다 빠르다고 입증된 안정적이고 일관된 사용자 경험을 보장하여 생산성을 향상할 수 있습니다.

  • 조직은 진화하는 데이터 보안 및 개인정보 보호 요구 사항을 충족하기 위해 빠르게 혁신하여 민첩성을 높일 수 있습니다.

이 글은 오늘날의 기술 의사 결정자에 영향을 주는 최신 동향 및 주제에 대한 시리즈 중 일부입니다.



이 주제에 관해 자세히 알아보세요.

Cloudflare에서 SaaS 애플리케이션을 보호하는 방법 간소화하기 백서를 다운로드하여 Cloudflare가 조직에서 애플리케이션과 데이터를 Zero Trust 접근법으로 보호하는 것을 지원하는 방법을 알아보세요.



핵심 사항

이 글을 읽고 나면 다음을 이해할 수 있습니다.

  • AI 때문에 독점 데이터를 위험에 처하는 이유

  • 레거시 데이터 보호가 부족한 부분

  • AI 위험 최소화 및 생산성 극대화 전략


관련 자료

가장 인기있는 인터넷 인사이트에 대한 월간 요약을 받아보세요!