조직에서는 AI를 통해 놀라운 속도와 규모로 애플리케이션을 구축하고 개선할 수 있게 되었습니다.
소프트웨어 개발에 대한 이러한 발전은 ChatGPT, GitHub Copilot 등 생성형 AI 도구의 신속한 채택을 통해 이루어졌습니다.
AI는 다양한 사용 사례 중에서도 코드를 빠르게(그리고 대부분 정확하게) 작성하고, 기존 코드를 정리하며, 유용한 알고리즘을 찾아내고, 소프트웨어 문서를 작성하며, 수동 코딩 프로세스를 가속화할 수 있습니다.
간단히 말해, AI는 강력한 개발 도구가 될 수 있습니다. 구체적이고 세심하게 스크립트가 작성된 프롬프트가 주어지면 시간과 노동력을 크게 절약할 수 있는 고품질의 결과물을 생성할 수 있습니다.
하지만 모든 기술에는 한계가 있기 마련입니다. AI의 경우에는 심각한 오류를 발견하지 못하거나 독점 코드가 노출되는 등 효율성이라는 이점을 능가할 수 있는 심각한 보안 및 데이터 프라이버시 위험이 존재합니다. 이러한 위험에 대처하는 방법 중 하나는 데이터 손실 방지(DLP) 기능입니다. 이를 이용하여 조직에서는 중요한 데이터의 이동을 감지하고, 데이터 및 개인정보 보호 규정을 준수하며, 데이터 유출에 대응하도록 지원할 수 있습니다.
하지만 새로운 AI 도구의 등장했음에도 기존의 많은 보안 솔루션은 조직의 데이터에 가해지는 위험과 알려지지 않은 위험을 완화할 역량을 갖추지 못했습니다. 오히려 개발 프로세스에서 AI를 활용하려는 조직에서는 AI 복원력이 뛰어난 데이터 보호 전략을 구현하여 이러한 도구를 안전하게 사용할 수 있습니다. 최신 데이터 보호는 기밀 정보 손상, 규제 준수 위반, 적 대적 공격, 지적 재산 손실을 방지하는 데 도움이 됩니다.
AI 기반 개발은 조직에서 대규모로 혁신을 추진하는 데 도움이 될 수 있습니다. 그러나 이러한 도구에 내재하는 한계와 위험을 염두에 두지 않고 사용하면 개발 프로세스에 방해가 될 뿐만 아니라 도구를 사용하는 조직에 해를 끼칠 수 있습니다.
생성형 AI 도구는 입력된 정보를 수집한 다음 해당 데이터를 사용하여 새로운 콘텐츠를 생성할 수 있는 패턴과 구조를 식별합니다. 이러한 대규모 언어 모델(LLM)은 더 많은 데이터가 입력될수록 더욱 정교해지고 범위가 넓어집니다.
이는 독점 데이터와 관련하여 중요한 우려를 불러일으킵니다. 어느 엔지니어가 실수로 내부 소스 코드를 도구에 업로드한 후 ChatGPT 사용을 금지한 삼성의 경우를 예로 들 수 있습니다. 해당 데이터는 전통적인 의미에서 유출되지는 않았지만, AI 도구와 공유되는 데이터는 조직의 통제 범위를 벗어난 서버에 저장되는 경우가 많으므로 데이터의 사용 및 배포 방식을 보호할 수 있는 기능이 상실됩니다.
조직에서 가장 많이 우려하는 것 중 하나는 AI 플랫폼이 머신 러닝을 더욱 학습시키기 위해 사용자 데이터를 수집하는 방식입니다. OpenAI 및 GitHub Copilot 등 인기 있는 AI 플랫폼에서는 입력된 데이터를 사용하여 AI 모델을 학습시키고, 해당 플랫폼의 다른 사용자를 위한 결과물을 생성할 때 여러 차례 해당 데이터를 복제했습니다. 이에 따라 독점 코드, 중요한 데이터, 개인 식별 정보(PII)가 공개적으로 노출될 수 있다는 개인정보 보호 문제가 제기됩니다.
결국, AI 플랫폼과 데이터를 공유하는 것은 다른 회사와 데이터를 공유하는 것과 마찬가지입니다. 사용자들은 데이터 보안이 핵심 기능이 아니라는 사실을 인지하지 못한 채 AI 플랫폼에서 데이터 입력 정보가 안전하게 보호되리라고 믿고 있으며, AI 플랫폼은 데이터가 더 많이 축적될수록 더 많은 수익이 창출될 수 있는 표적이 되고 있습니다.
AI 도구 관련 유출 사고는 대부분 우발적인 경우가 많습니다. 엔지니어가 내부 환경 외부로 유출되어서는 안 되는 코드를 업로드하거나 조직에서