Cloudflare의 theNet


AI 거버넌스는 데이터 거버넌스에서 시작됩니다

AI 거버넌스는 IT 및 보안 리더에게 우선순위가 높아졌습니다. 더 많은 AI 모델을 구축하고 더 많은 AI 솔루션을 사용함에 따라 위험을 최소화하고 비즈니스를 안전하게 유지할 수 있는 적절한 규모의 거버넌스와 정책을 구현해야 합니다.

AI 거버넌스가 아주 중요하다는 것은 의심할 여지가 없습니다. 하지만 AI는 데이터에 의존하므로 AI 거버넌스는 데이터 거버넌스로 시작되어야 합니다. 우리에게는 데이터 및 AI 모델에 대한 데이터 무결성, 데이터 보호, 접근 제어 기능뿐만 아니라 데이터 개인정보 보호 및 현지화 의무를 준수하기 위한 전략이 필요합니다.

데이터 거버넌스를 개선하면 AI와 관련된 위험이 줄어들 뿐만 아니라, AI가 비즈니스에 미치는 영향이 극대화되는 데에도 도움이 됩니다. 조직에서 AI에 투자하고 있다면 데이터 거버넌스를 즉시 강화해야 합니다.

__________________________________________________________

AI 데이터 거버넌스의 과제

AI에 사용되는 데이터를 관리하는 것은 왜 그렇게 어려울까요? 대부분의 조직에서는 지난 몇 년 동안과 똑같은 데이터 거버넌스 문제에 직면합니다. 그러나 AI 모델을 구축하기 위해 데이터를 사용하면 다음과 같은 추가적인 복잡성이 발생합니다.

  1. 데이터 무결성 유지
    AI 모델이 올바른 답을 제공하려면 완전하고 정확하며 일관된 데이터가 필요합니다. 하지만 이러한 데이터를 집계하고 수명 주기 내내 무결성을 유지하는 것은 어려울 수 있습니다.

    데이터 무결성을 유지하기 위해 조직에서는 데이터 손상, 손실, 침해, 기타 위험으로부터 보호하는 다각적인 접근 방식을 채택해야 합니다. 이러한 접근 방식을 통해 데이터 및 모델에 대한 액세스를 엄격하게 제어하여 우발적 손상이나 의도적 손상을 방지해야 합니다. 한편, 모델 드리프트를 피하려면 학습에 사용되는 데이터가 모델 배포 중에 사용되는 데이터와 일관성을 유지해야 합니다.

  2. 데이터 개인정보 보호 및 기밀 유지
    건전한 데이터 거버넌스 전략의 기반은 데이터의 위치를 파악하는 데서 시작됩니다. 데이터가 조직 외로 유출된 경우, 데이터 개인정보 보호와 기밀성을 유지하는 것은 더 어려워집니다. 그리고 대규모 AI 모델의 학습에 데이터를 사용하면 그 데이터는 거의 확실하게 조직에서 유출됩니다.

    상위 20개 보안 회사에서 보안 운영 센터(SOC) 데이터를 공유하여 외부 모델을 학습시키기로 결정했다고 가정해 보겠습니다. 퍼블릭 클라우드에서 호스팅되는 이 모델은 매우 정확하고 강력한 인사이트를 생성할 수 있습니다. 그러나 이 모든 회사의 데이터가 서로 혼합되어 있으므로 한 회사의 중요한 정보를 완전히 보호하는 것이 매우 어려워집니다.

  3. 사내 AI 모델에 대한 내부 액세스 제어하기
    사내에서 모델을구축하는 것은 데이터를 외부 모델에 제공하는 것보다 훨씬 위험이 적습니다. 자체 모델을 사용하면 외부 개인이나 회사에서 데이터에 액세스하는 것을 더 잘 방지할 수 있습니다. 하지만 여전히 모델에 대한 내부 액세스를 제어해야 합니다.

    예를 들어, 인사팀을 위한 내부 AI 모델을 구축하기로 결정할 수 있습니다. 인사팀에서는 AI 챗봇을 사용하여 직원의 질문에 답변하거나 AI를 사용하여 급여 또는 관리 작업을 간소화하기를 원할 수 있습니다. 인사 데이터에는 각 직원의 급여와 같이 매우 중요한 직원 정보가 포함되므로 해당 데이터와 학습 중인 모델에 대한 내부 액세스를 아주 신중하게 관리해야 합니다.

  4. 데이터 현지화 및 데이터 주권 의무 준수하기
    데이터 현지화 및 데이터 주권 법률 때문에 AI 및 데이터 거버넌스에 또 다른 문제가 추가됩니다. 대규모 AI 모델은 학습에 필요한 컴퓨팅 리소스와 스토리지 리소스를 갖춘 퍼블릭 클라우드에서 학습되는 경우가 많습니다. 그러나 데이터가 상주해야 하는 국가나 지역에서 퍼블릭 클라우드 데이터 센터를 항상 이용할 수 있는 것은 아닙니다. 따라서 조직에서는 특정 관할권 내에서 모델을 학습시키고 실행하는 방법이 필요합니다.



데이터 거버넌스 강화를 위한 4가지 필수 요소

데이터 거버넌스를 효과적으로 구현하는 것은 최소 20년 동안 IT 및 보안팀의 핵심 목표였습니다. AI가 부상하면서 데이터 수명 주기의 모든 단계를 포괄하는 강력한 데이터 거버넌스 전략의 필요성이 커지고 있습니다. 해당 전략에서는 데이터 무결성을 유지하고, 데이터 손실을 방지하며, 데이터 및 모델에 대한 액세스를 제어하고, 데이터 현지화 규정을 준수하도록 설계된 기능을 활용해야 합니다.

  1. 데이터 무결성 유지
    모델에 영향을 미치는 방식으로 데이터가 변경될 위험을 줄이려면 어떻게 해야 할까요? 데이터를 암호화하고 Zero Trust 모델을 사용하면 데이터 무결성이 위험하게 되는 무단 변경을 방지할 수 있습니다. 감사 로그를 이용하면 데이터가 어디로 이동하는지, 누가 데이터를 건드렸는지, 어떤 변경이 수행되었는지 추적할 수 있습니다.

  2. 데이터 유출 방지
    데이터 손실 방지(DLP) 기능은 데이터가 조직에서 빠져나가지 않도록 차단하고, 승인되지 않은 AI 모델의 입력으로 사용되지 않도록 차단하는 핵심 요소입니다.

    또한 조직에서는 SaaS 애플리케이션이 내부 데이터를 수집하여 애플리케이션 벤더의 외부 모델을 학습시키는 데 이용하지 못하도록 방지할 도구가 필요합니다. 제가 CISO로 재직했던 회사 중 하나의 경우, 애플리케이션 벤더가 마련했던 정책은 사용자가 애플리케이션에 입력하는 모든 내용은 해당 업체의 대규모 언어 모델(LLM)에 통합될 수 있다는 내용이었습니다. 저는 왜 벤더가 그렇게 하고 싶어하는지 이해할 수 있었습니다. 그로 인해 제품 개선에 도움이 될 수 있다는 것은 의심의 여지가 없습니다. 예를 들어, 우리가 내부 지원 티켓에 응답하기 위해 AI를 사용하고 있다면, 회사에서 가장 많이 발생하는 요청에 대한 데이터를 수집하고 싶을 것입니다.

    하지만, 우리는 잠재적으로 중요한 정보가 다른 벤더의 애플리케이션을 통해 조직 밖으로 나가는 것은 원하지 않을 것입니다. AI 방화벽과 결합된 클라우드 액세스 보안 브로커(CASB)를 사용하면 이러한 유형의 데이터 손실을 방지할 수 있습니다.

  3. 액세스 제어
    세분화된 접근 제어 기능을 이용하면 데이터 무결성을 보장하고 사내 모델에서 사용하는 중요한 정보를 보호하는 데 도움이 될 수 있습니다. 기존 VPN과는 달리 Zero Trust 기능은 권한이 있는 개인만 특정 데이터에 액세스하도록 보장할 수 있습니다.

    세분화된 액세스가 그처럼 중요한 이유는? 인사팀을 위한 AI 활용 사례로 돌아가 보겠습니다. 귀사에서는 AI를 사용하여 성과 검토를 간소화하고 보상 추천을 하고 있을 수도 있습니다. 관리자가 자신의 보상 정보 및 부하 직원의 보상 정보를 볼 수 있지만, 다른 사람의 보상 정보는 볼 수 없도록 할 수 있습니다. 적절한 Zero Trust 기능을 이용하면 그 정도 수준의 제어가 가능합니다.

  4. 데이터 현지화 규칙 준수
    올바른 현지화 제어를 통해 데이터를 검사하는 위치를 결정하고 데이터 및 메타데이터가 특정 지역을 벗어나지 않도록 할 수 있습니다. 예를 들어, EU에서 개인 데이터로 간주되는 사용자 IP 주소가 포함된 로그 메타데이터를 보유하고 있을 수 있습니다. 해당 메타데이터는 EU 내에 있어야 합니다. 데이터 현지화 제어가 제대로 이루어지면 미국에서 모델을 학습시키는 데 이 메타데이터가 사용되지 않도록 보장할 수 있습니다.



클라우드 연결성을 이용하여 진행

우리는 조직에서 향후 20~30년 내에 세상을 바꿀 수 있는 모델을 구축하고 실행하게 되면서, AI가 진화하는 중요한 순간에 처해 있습니다. 데이터가 노출되거나 모델의 정확도가 떨어지거나 규제 준수를 저해하는 일 없이 계속해서 AI 모델을 안전하게 학습시키고 실행하려면 지금 데이터 거버넌스 강화를 시작해야 합니다.

많은 조직에 있어서 클라우드 연결성은 수명 주기 전반에 걸쳐 데이터에 대한 제어 능력을 되찾음으로써 데이터 거버넌스를 개선하는 최선의 방법을 제공할 수 있습니다. 클라우드 네이티브 서비스로 구성된 통합 플랫폼을 통해 조직에서는 서로 다른 여러 도구를 관리하는 복잡성을 방지하면서 필요한 데이터 보호, 보안, 데이터 현지화 기능을 적용할 수 있습니다.

데이터를 더 잘 제어할수록 더 강력한 AI 모델과 애플리케이션을 구축할 수 있습니다. Cloudflare에서는 정확한 결과를 현재와 미래에 제공하고 위험을 최소화하고 있습니다.

이 글은 오늘날의 기술 의사 결정자에게 영향이 미치는 최신 동향 및 주제에 대한 시리즈의 일부입니다.


이 주제에 관해 자세히 알아보세요.

안전한 AI 관행 보장: 확장 가능한 AI 전략 수립 방법에 대한 CISO 가이드에서 보안을 유지하면서 기업에서의 AI 사용을 지원하는 방법에 대해 자세히 알아보세요.

작성자

Grant Bourzikas — @grantbourzikas
최고 보안 책임자, Cloudflare



핵심 사항

이 글을 읽고 나면 다음을 이해할 수 있습니다.

  • 성공적인 AI 거버넌스가 강력한 데이터 거버넌스에 의존하는 이유

  • AI에 사용되는 데이터 관리의 4가지 주요 과제

  • 데이터 거버넌스 강화 전략


관련 자료

가장 인기있는 인터넷 인사이트에 대한 월간 요약을 받아보세요!