라벨링 플랫폼을 선택할 때 보안을 반드시 고려해야 하는 이유와 보안 수준 확인 방법
현대에 들어 사이버 보안은 우리의 일상에 가장 중요한 부분 중 하나가 되었습니다. 우리는 영세한 업체에 우리의 전화번호를 주고, 소셜 미디어 앱에 이메일을 남기고, 은행 기관에 재정 상태를 공유합니다. 그러다 보니 우리가 믿고 정보를 맡긴 회사에 데이터 유출 사건이 발생하는 순간 우리의 데이터는 대중에게 노출되게 되고 우리는 소비자로서의 신뢰를 잃어버리게 되죠.
머신러닝과 컴퓨터 비전에서 생각하는 사이버 보안은 거의 같은 개념입니다. 각각의 컴퓨터 비전 데이터는 여러분의 프로젝트에 관련된 귀중한 정보를 담고 있습니다. 그리고 각 프로젝트는 수천 개의 정보의 파편으로 이루어져 있으며, 각각의 정보는 모두 모델을 성공적으로 구축하는 데 필수적입니다.
의료계가 개인 정보 보호를 위해 보편적으로 HIPAA를 따르듯이, 머신러닝 업계에서는 고객과 일반 대중의 신뢰를 얻고 공고히 하기 위해서 무엇보다도 기밀성을 우선시합니다. 그러다 보니 데이터 보호는 프로젝트의 아주 초기 단계부터, 즉 라벨 단계에서부터 이루어져야 합니다. 그러면 머신러닝 및 기술 전문가들로 구성된 팀은 어떻게 안전한 데이터 라벨링 소프트웨어를 선택할까요? 소프트웨어 프로그램이 데이터 유출에서 100% 안전할 것이라는 보장은 없지만, 그럼에도 꼭 살펴볼 만한 기준들은 분명히 존재합니다.
업계 표준 준수
대규모의 라벨링 데이터를 다루는 회사에 있어 가장 중요한 것은 업계 보안 기준을 준수하는 최신 어노테이션 소프트웨어를 선택하는 것입니다. 기업의 보안 관행이 고객의 니즈와 합치하는지를 확인할 수 있는 인증이나 감사가 여럿 있는데요, 기업들은 이를 통해 고객의 신뢰를 얻을 뿐 아니라 수익성까지도 증가시킬 수 있습니다. 데이터 보안을 중시하는 고객들은 필수 보안 감사나 인증을 취득한 프로그램을 선택할 확률이 높기 때문입니다.
SOC 2 Type 2
데이터 라벨링 소프트웨어는 수천 개의 이미지, 텍스트, 비디오 파일을 호스팅하기 위해 클라우드 연동에 크게 의존합니다. 클라우드 연동이 되지 않으면 수많은 라벨링 이니셔티브를 지원할 수 없기 때문에 항상 시스템 이슈를 겪을 수밖에 없습니다. Service Organization Control, 즉 SOC은 바로 이런 클라우드 기반 소프트웨어에 특화된 감사입니다. 다양한 평가로 구성되어 있으며 각 평가마다 회사가 어떻게 5개의 서비스 신뢰 원칙, 즉 TSP를 충족하는지를 분석합니다. TSP는 보안, 프라이버시, 기밀성, 가용성, 그리고 처리 무결성으로 구성되어 있습니다. 소프트웨어를 제공하는 조직에서는 감사의 일환으로 독립적인 감사원이 필요로 하는 모든 문서와 접근 권한을 제공합니다. 그 대신 회사의 보안 조치가 회사가 따르는 기준과 대비해 얼마나 잘 적용되어 있는지에 대한 상세한 평가를 받아볼 수 있습니다.
SOC 2 Type 2는 사이버 보안 업계 전반이 인정하는 상당히 신뢰도 높은 감사 프로세스입니다. SOC 2 Type 2를 준수하는 데이터 라벨링 소프트웨어는 고객들의 정보를 엄중히 보호하고 데이터가 안전하게 보관될 수 있도록 다양한 테스트를 진행합니다.
ISO/IEC 27001
SOC 2 외에도 상당히 신뢰받는 감사가 바로 정보 보안 관리 국제 규격인 ISO/IEC 27001입니다. SOC 2와는 다르게 ISO는 정보 보안을 다루는 회사들에게 공식 인증을 발부합니다. 그리고 ISO/IEC는 인증을 취득하는 회사가 리스크 관리에 초점을 맞춘 정보 보안 관리 시스템을 적용하도록 의무화하고 있습니다. 보안 관련 우려사항과 리스크를 잠식시킬 수 있는 프로세스를 구축하기 위한 목적입니다.
핵심 기능
보안이 강력하다고 주장하는 회사가 잠재 고객들의 믿음을 얻으려면 신뢰도 있는 감사와 인증을 받는 것이 필수이기는 하지만, 그게 전부는 아닙니다. 데이터 라벨링 회사는 데이터 유출이 발생하기 전에 미리 예방용 안전 조치들을 소프트웨어에 적용해야 합니다. 해커들은 고도의 기술을 구사하고 대형 회사들의 보안 조치를 뚫는 것에 특화되어 있기 때문에 이들보다 항상 두 발 앞서 생각하는 것이 중요합니다.
로그인 절차
뻔한 소리 같지만, 유저가 플랫폼에 얼마나 안전하게 접근할 수 있는지가 외부에서 얼마나 쉽게 플랫폼의 보안을 뚫을 수 있는지와 직결됩니다. 인터넷의 탄생 이래 비밀번호 보호는 항상 프라이버시 보호에 절대 빠질 수 없는 기준이었습니다. 하지만 기술이 사람보다 빠르게 발전했고, 그러다 보니 우리와 우리 정보를 보호하는 전략들도 빠르게 발전하게 되었습니다.
데이터 라벨링 소프트웨어를 볼 때는 계정을 생성하는 방법을 눈여겨봐야 합니다. 비밀번호야 당연히 필요하겠지만, 최소/최대 몇 자로 만들어야 하는지에 대한 규칙이 있었나요? 매달, 또는 몇 달에 한 번씩 반드시 변경해야 하나요? 이런 비밀번호 규칙들은 유저들이 무작정 플랫폼의 보안 조치에 기대기보다는 스스로 데이터를 보호할 수 있도록 도와줍니다.
또 이중, 또는 다중 인증(two-/multi-factor authentication, 2FA/MFA)을 시행하는 회사들은 각 유저가 플랫폼을 사용하는 가장 첫 순간부터 한 겹의 보안 조치를 추가 적용할 수 있게 도와줍니다. 유저들이 2FA나 MFA를 설정할 수 있게 하거나 반드시 설정하도록 만들면 다른 사람이 데이터에 접근하려고 시도하는 즉시 플랫폼 외부의 디바이스를 통해 알람을 받을 수 있습니다.
암호화 및 키 관리
데이터 보호는 2022년 모든 사람들에게 있어 초미의 관심사였으며, 관심이 없었다면 반드시 관심을 가져야 하는 분야이기도 했습니다. 컴퓨터 비전 데이터는 컴퓨터 비전 구축에 필수적인 가장 미세한 디테일까지 비롯해 엄청난 양의 정보를 담고 있기 때문에 반드시 암호화되어야 합니다. 암호화가 익숙하지 않은 분들을 위해 간단하게 설명하면, 암호화란 정보에 특정한 코드를 적용하는 보안 조치라고 할 수 있습니다. 그래서 암호화 키를 가지고 있는 사람들만이 그 의미를 해석할 수 있게 됩니다. 외부인에게 데이터는 왜곡되거나 구분이 어려운 형태로 보여지지만, 직접 접근 권한을 가진 사람들에게는 완벽하게 멀쩡한 데이터로 보이는 것이죠. AWS KMS와 같은 키 관리 시스템을 사용하면 이런 암호화 키를 보호하고, 생성하고, 관리하기 용이합니다.
암호화는 이제 모든 플랫폼이나 업계에서 반드시 선택하는 원칙이 되었으며, 애플리케이션을 선택하는 기준이 되었습니다. 예를 들어, 유명한 메시지 앱인 왓츠앱(WhatsApp)은 앱 자체가 암호화된 메시징 플랫폼이라고 홍보하고 있습니다. 즉 메시지가 외부에 공개되지 않는다는 뜻이기 때문에 수백만 명의 사람들이 이 앱을 선택하게 된 거죠. 컴퓨터 비전도 동일한 원칙을 따릅니다. 외부인이 접근 권한을 얻는다는 것은 이미지의 모든 메타데이터가 공개된다는 뜻이니까요.
역할 기반 접근 제어(Role-Based Access Controls, RBAC)
프로젝트의 스코프에 따라 다르겠지만, 보통 관리자들은 각 팀 멤버가 지닌 데이터 접근 및 조작에 대한 권한을 통제하고 싶어 합니다. 이렇게 권한을 제어하는 일은 우리 주변에서도 흔히 볼 수 있습니다. 구글 닥스(Google Docs)는 수정 권한, 읽기 권한, 제안 권한 등 다양한 권한을 설정하고 오너가 할당할 수 있게 합니다. 이렇게 하면 문서가 원하지 않는 방식으로 수정되는 일을 방지하고 조직적으로 관리하기 쉬워집니다.
접근 제어 및 권한 부여는 데이터 라벨링뿐 아니라 다른 프로그램에서도 팀 구성원의 역할과 책임을 정의하는 데 핵심적입니다. 또 팀 내에서도 특정 정보는 노출되지 않도록 보호할 수 있죠. 이것을 역할 기반 접근 제어, RBAC라고 부릅니다. RBAC는 비인가된 구성원이 잘못된 작업을 수행하거나 실수로 다른 사람에게 할당된 프로젝트 업무에 뛰어드는 일을 방지해 줍니다. 그래서 접근 제어를 계층화해 잘 수립하면 앞서 말한 사고들을 방지하고 데이터를 안전하게 보호하고 팀을 조직적으로 운영할 수 있습니다.
클라우드 저장소 및 읽기 전용 접근 권한
데이터 라벨링 및 관리 프로그램이 얼마나 유용한 지는 정보를 호스팅하는 능력과 문제가 발생했을 때 백업 플랜을 제시하는 능력을 통해 가늠할 수 있습니다. ML 엔지니어나 관련 종사자라면 안전하고 신뢰도 높은 클라우드 연동이 제공되는 플랫폼을 찾는 것이 여러모로 상당히 중요합니다. 예를 들자면, 충돌이 발생했을 때 복구에 드는 시간을 단축할 수 있죠. 온사이트로 호스팅하는 데이터는 소프트웨어만큼만 보호를 받으니까요. 즉, 위협이나 재난 상황이 데이터에 직접적인 영향을 준다는 뜻입니다.
클라우드에 데이터를 보관하면 라벨링 소프트웨어가 다운되는 원인으로부터 데이터를 안전하게 보호할 수 있습니다. 그리고 클라우드 저장소 회사들은 데이터 보호를 위한 전담 보안 리소스를 확보하고 있어 외부의 위협을 상시 경계하고 있죠. 클라우드에 저장된 데이터는 보통 사용되지 않거나 전송 중일 때는 암호화되기 때문에 인가되지 않은 사람은 정보를 해독할 수 없습니다. 또 데이터 유출은 보통 임직원들에 의해 발생하는데 클라우드 저장소에 암호화된 정보를 호스팅하게 되면 이런 가능성을 사전에 차단할 수 있습니다.
클라우드에 데이터를 호스팅하면 전체적인 품질 관리(QA) 향상에도 도움이 됩니다. 클라우드 인프라의 일환으로 동일한 포맷의 문서들을 함께 저장하는데요. 이는 동일한 파일이나 문서에서 서로 다른 여러 버전이나 포맷이 생성되는 것을 방지할 수 있어 혼란이나 부정확한 데이터를 방지할 수 있습니다. 데이터 품질 관리뿐 아니라 원하지 않는 변경 사항이 발생하지 않도록 사전 차단하는 조치들도 적용되어 있습니다.
이와 더불어 데이터를 보호할 수 있는 쉽지만 핵심적인 방법 중 하나가 바로 읽기 권한을 사용하는 것입니다. 읽기 권한에 대해 설명을 드리자면, 읽기 전용 파일은 일부 인원에게만 수정 권한이 주어지고 나머지 인원은 보거나 읽을 수밖에 없는 파일입니다. 이 방식을 사용하면 버전 히스토리와 관리 장치들이 잘 기록되는 클라우드 서버에 데이터를 보관하는 것과 동일한 효과를 얻을 수 있습니다.
QA 및 취약점 테스트
사이버 보안과 데이터 보호의 핵심은 QA 및 취약점 테스트 과정에 안전 조치들을 잘 적용하는 것입니다. 풀타임으로 잠재적 위협이나 유출을 감시하는 전문가들이 있다면 보안에 많은 신경을 쓰고 있다는 증거입니다. 이 부분을 간과하는 회사들은 고객 및 유저 베이스의 안전을 보장하기 어렵습니다.
인하우스든 아웃소싱이든 소프트웨어 회사는 반드시 취약점 테스트와 QA를 아주 중요하게 받아들여야 합니다. 데이터 라벨링 회사를 선택할 때는 취약점 테스트 방식, 주기, 기준 등에 대해 반드시 물어보세요. 든든한 보안팀이 없는 회사에 데이터를 맡긴다면 위협에 취약해질 수밖에 없으니까요.
데이터 오너십
클라우드 연동과 오프사이트 저장소가 데이터를 안전하게 보호하는 데 필수적이지만, 데이터 오너십의 중요성 역시 간과할 수는 없습니다. 현대 사회에서는 데이터 판매도 주류 수익화 전략으로 인정받고 있기 때문에 머신러닝 데이터 라벨링도 여기에서 자유로울 수는 없습니다. 많은 소프트웨어와 조직에서는 자사의 도구를 사용할 경우 앞으로의 프로젝트에 데이터를 재사용할 권한을 부여하는 것으로 간주한다고 규정하고 있습니다.
이건 머신러닝 실무자들에게는 프라이버시에 대한 우려가 제기될 수밖에 없는 부분입니다. 마땅히 제기해야 하기도 하고요. 컴퓨터 비전 프로젝트를 진행할 때, 특히 의료계 데이터와 같이 소유권이 있는 정보를 다룰 때는 아주 주의해야 합니다. 이 데이터를 일반 대중에게 공개하는 것은 근시안적일 뿐 아니라 위험하기까지 하니까요.
배경 조사
여러분의 데이터를 취급하는 회사가 적절한 인증과 가이드라인을 모두 보유하고 있는지 확인하는 것만큼 중요한 것이 바로 회사의 이면을 조사하는 것입니다. 현대 사회에 와서 데이터 도난은 엄청난 문제가 되고 있기 때문에 내 데이터를 다룰 사람들을 아는 것은 필수입니다. 데이터 라벨링 플랫폼에 가입하기 전에 먼저 물어보세요:
“함께 일하실 분 모두 배경 조사는 마친 상태인가요?”
대답이 “아니오”라면 다른 곳을 찾는 것이 낫습니다. 데이터를 맡길 사람들에 대해서는 조심, 또 조심해도 부족합니다. 데이터를 훔치기 위해 보안 프로토콜을 속속들이 알아내려 할 테니까요. 또 모든 임직원들이 데이터 보안 교육을 한 번이 아니라 주기적으로 받는지도 반드시 확인해야 합니다. 표준 정책과 프로토콜은 항상 바뀝니다. 그러니 데이터 라벨링 및 보안에 몸담고 있는 사람들은 반드시 다음 위협에 대해 미리 알아야 하니, 교육이나 평가를 자주 받는 것이 도움이 될 겁니다.
다음 단계
이제 보안의 여러 면면과 중요성, 그리고 보안 수준을 확인하기 위해 어떤 부분을 봐야 하는지에 대해 공부했으니 좋은 데이터 라벨링 서비스를 선택하기 한결 수월해지셨을 겁니다. 서비스 제공자를 선택하기 전에 반드시 회사의 인증을 자세히 살펴보고, 보안 평가는 얼마나 자주 받는지 확인하고, 일상적인 상황에서 상시 적용되는 조치들이 어떤 것이 있는지 조사하세요. 머신러닝 프로젝트에서 가장 중요한 자산은 데이터입니다. 다른 사람들도 그렇게 인식하는지 꼭 확인하세요.