데이터 규제가 더욱 복잡해짐에 따라 데이터의 출처, 전송 장소, 데이터를 처리하는 사람이 점점 더 중요해졌습니다. 세계의 여러 지역에서 외부 조직에서 규제 준수를 입증하지 못하는 한 데이터 규정은 데이터의 출처 지역에 데이터를 유지하도록 요구합니다. 이러한 개념을 '데이터 주권'이라고 합니다. 데이터가 처리되는 국가 또는 지역의 법률에 따라 데이터가 규제된다는 개념입니다.
그러나 데이터가 전송되는 위치나 벤더가 자체적으로 규제를 준수하는 경우에도 국가 간 데이터 전송은 위반으로 이어질 수 있습니다. 예를 들어, 일부 국가의 정부 기관에는 국경을 통과하는 데이터를 조사할 권한이 있을 수 있으며, 그러한 권한은 다른 국가의 데이터 규정을 위반하게 됩니다.
조직에서 적절한 보호 조치를 취하지 않고 원본 지역 외부로 데이터를 전송하면 심각한 법적 및 재정적 결과로 이어질 수 있습니다. 예를 들어, Meta에는 전송된 데이터에 대한 적절한 개인정보 보호 조치를 취하지 않고 개인 데이터를 EU에서 미국으로 전송한 혐의로 2023년에 13억 달러의 벌금이 부과되었습니다.
이러한 이유로 조직에서는 데이터 규제 준수 및 소비자 신뢰를 유지하기 위해 데이터를 해당 지역 내에 보관해야 하는 경우가 많습니다.
데이터 현지화라는 개념은 데이터가 국경을 넘어 전송되거나 오지에 있는 서버에 처리되거나 저장되는 것이 아니라 특정 국가 또는 지역 내에서 보관된다는 것입니다. 그러나 클라우드 컴퓨팅 및 외부 타사 서비스는 일반적으로 이러한 방식으로 현지화되 지 않으므로 이 접근 방식을 이용하면 그러한 서비스의 사용이 더 복잡해집니다. 클라우드 데이터 센터는 지원하는 서비스 기반과 관계없이 전 세계에 걸쳐 위치해 있습니다.
즉, 많은 조직의 경우 데이터 현지화의 필요성이 오늘날 가장 중요한 클라우드 기반 서비스 중 하나인 인공 지능(AI)과 충돌할 수 있습니다.
최근 몇 년 동안, 더 강력한 하드웨어와 점점 더 정교해지는 소프트웨어의 조합으로 인해 AI 기능이 폭발적으로 늘어났습니다. 조직에서는 예측 모델링, 콘텐츠 아이디어화, 조사, 감정 분석, 고객 서비스 자동화를 지원하기 위해 AI를 프로세스에 통합하고 있습니다. McKinsey와 같은 분석 기업에서는 생성형 AI(GenAI)의 비즈니스 사용 확대에 대해 여전히 낙관하고 있습니다. 대부분의 기업에서는 자체 AI 모델을 구축할 시간이나 리소스가 없으므로 이러한 기술을 사용하기 위해 외부 벤더에 의존하고 있습니다.
그러나 AI는 기능을 발휘하려면 데이터를 빨아들여야 합니다. AI 모델은 복잡한 알고리즘을 학습시키는 데 사용되는 대규모 데이터 세트를 기반으로 합니다. 대규모 데이터 세트는 다양한 장소에 저장될 수 있으며 현재도 저장되어 있습니다. 하지만 AI의 학습 데이터는 그 확장성으로 인해 거의 항상 전 세계 데이터 센터의 클라우드에 저장됩니다. (OpenAI 소비자 서비스에 대한 FAQ: "콘텐츠가 미국 및 전 세계 OpenAI 시스템 및 우리가 신뢰할 수 있는 서비스 공급자 시스템에 저장되어 있습니다[강조 추가됨]").
이는 AI에 업로드되거나 GenAI 모델을 학습시키는 데 사용되는 데이터가 원래 데이터를 가진 조직의 통제 범위를 벗어나게 되며, 이는 데이터가 발생한 지역을 벗어날 가능성이 높다는 것을 의미합니다.
모델들은 더 많은 입력을 받으면서 계속 미세 조정됩니다. 이는 입력이 미래의 출력에 영향을 미치거나 미래의 출력으로 다시 나타날 수 있음을 의미합니다(후자는 중요한 데이터에 위험이 있어 일부 조직에서 직원의 GenAI 사용을 금지하는 것으로 이어졌습니다). 이는 가시성이 거의 없는 상태에서 발생하는 경우가 많으므로 AI 사용자는 자신이 제공하는 데이터를 처리하는 장비가 어디에 있는지 모를 수 있습니다. 또한 우려되는 것은 섀도우 AI, 즉 IT 팀의 가시성 또는 승인 없이 발생하는 승인되지 않은 AI 도구의 사용 입니다.
이로 인해 많은 관할권에서 데이터 주권 요건과 충돌하는 기업이 발생할 수 있습니다. 이러한 요구 사항을 위반할 경우 (Meta에 부과되는 소액의 벌금에서 큰 금액의 벌금까지) 제재, 대중의 평판 및 고객 신뢰 저하 등의 위험이 있습니다.
다른 한편으로는, AI를 사용하지 않아서 경쟁에서 뒤처질 위험이 기업에도 비슷한 위협이 됩니다.
요약: AI는 아주 유용하지만, AI에 대한 데이터 주권 친화적 접근법을 찾을 수 없다면 엄격한 데이터 규제를 받으면서 운영하는 조직에는 위험할 수 있습니다.
데이터가 지리적으로 국경을 넘나드는 위험을 피하면서 기업에서 AI를 활용하려면 어떻게 해야 할까요? 복잡한 AI 모델을 지원할 수 있는 연산 능력을 현지화된 방식으로 제공하는 것이 필요합니다. 또한 조직에서는 전송 중인 데이터와 미사용 데이터가 모두 저장되고 처리되는 위치를 제어해야 합니다.
따라서 최선의 방법은 타사 플랫폼에서 구축되거나 벤더가 미리 구축하여 제공하는 로컬 AI 인스턴스와 데이터 현지화를 결합하는 것입니다. 완전한 데이터 현지화에는 데이터가 저장되는 위치, 사용자가 서비스를 제공하는 위치, 암호화 키가 저장되는 위치에 대한 완전한 제어가 포함됩니다(이에 따라 데이터가 해독된 형태로 존재하는 위치가 결정되므로). 이들 기능은 현지에 존재하고, AI 모델 운영에 사용할 수 있는 충분한 연산 능력을 갖춘 강력한 전역 AI 네트워크와 통합되어야 합니다.
AI의 필요성과 데이터 현지화 필요성에 직면한 기업에게는 이러한 요건을 이해하고 지원할 수 있는 파트너가 필요합니다. Cloudflare에서는 데이터 주권 요건을 충족하는 모든 조직을 지원하기 위한 데이터 현지화 제품군을 제공합니다. 하지만 그보다 더 중요한 것은 Cloudflare for AI가 전 세계 어디에서나 GPU에 액세스할 수 있는 기능을 제공하며, 개발자가 인기 AI 모델을 신속하게 통합하는 방법을 제공한다는 점입니다.
이 글은 오늘날의 기술 의사 결정자에 영향을 주는 최신 동향 및 주제에 대한 시리즈 중 일부입니다.
이 글을 읽고 나면 다음을 이해할 수 있습니다.
데이터 현지화 가 규제 프레임워크를 준수하는 데 도움이 되는 방법
AI 서비스 및 데이터를 로컬로 유지하는 것 사이의 갈등
AI를 사용하면서 데이터를 로컬로 유지하기 위한 기술적 해결
클라우드 연결성: IT 및 보안 제어 능력을 되찾는 방법 전자책에서 AI 이니셔티브를 단순화하고 보호하는 방법을 자세히 알아보세요.