외부 라벨링 서비스와의 협업 모범 사례

외부 라벨링 서비스와의 협업 모범 사례

“최고의” 데이터 라벨링 접근법이 무엇이냐고 물으신다면, “만병통치약” 같은 해결책은 없습니다. 이상적인 선택은 문제의 복잡성이나 ML 시스템에 맞는 특정 어플리케이션에 좌우되기 때문입니다. 라벨링 접근법에 영향을 미치는 다른 요인으로는 라벨링이 필요한 데이터의 양, 팀의 크기, 뿐만 아니라 예산, 시간, 프로젝트에 필요한 기타 리소스들입니다.

가장 일반적인 방법으로는 내부적으로 혹은 인하우스로 데이터를 라벨링하는 방법, 라벨링 업무를 아웃소싱하는 방법, 그리고 크라우드 소싱하는 방법이 있습니다. 이 글에서는 ML개발팀이 라벨링 업무를 외주 라벨링 전문가팀이나 외부 라벨링 서비스에 맡기는 두번째 방법에 초점을 맞추어 설명할 것입니다.

ML팀이 라벨링 업무를 외부 라벨링 서비스에 맡기는 방법을 택한 데는 여러가지 이유가 있습니다. 하지만, 가장 주목해야 할 점은, 외주 업체가 어디인지에 따라 다르겠지만, 좋은 업체를 선정한다면 특정 산업이나 특정 이용 사례에 맞는 전문적인 라벨링 서비스를 제공하여 우수한 품질의 라벨을 얻으면서 비용 및 시간을 절감할 수 있다는 점입니다.

라벨링 서비스 아웃소싱과 관련된 주요 사항들을 전체적으로 살펴 보고 싶으시다면 이 데이터 라벨링 방식에 대한 내용을 읽어 보세요. 여러분의 ML 프로젝트의 데이터 훈련 및 관리 니즈에 부합하는 적절한 선택인지도 판별하실 수 있습니다.

왜 아웃소싱인가?

첫번째, 라벨링 아웃소싱을 고려하는 경우, 아웃소싱이 다른 라벨링 접근보다 더 매력적이라는 이유 이면에는 어느 정도 합리적인 근거가 있어야 합니다. 다른 말로, 예산과 리소스가 더 적은 더 소규모의 팀의 경우는 내부적으로 라벨링을 하는 것보다는 아웃소싱이 더 이점이 많을 수 있습니다.

ML 개발 사이클의 초기 단계가 그 팀에 가장 도전적인 시기라는 건 널리 알려져 있습니다. 모델 훈련을 준비하는데 있어 데이터를 라벨링하고 태깅하는 것은 엄청나게 노동집약적인 프로세스이며 용례에 따라 난이도가 상당히 높을 수 있습니다.

여러분의 여건에서 아웃소싱이 최고의 방법인지 알아보기 위해서는, 인력이나 조직 환경이 가장 중요한 요인이자 첫번째로 파악해야 할 요인입니다. 두번 째는, 지금 당장은 아니더라도 다른 두가지 일반적인 데이터 라벨링 접근법인 인하우스와 크라우드소싱을 전반적인 데이터 라벨링 파이프라인에 어떻게 통합시킬 수 있는지를 인지하는 것입니다.

라벨링만큼 복잡할 수도 있는 프로세스를 최적화하려면, ML 팀은 최대한 고품질의 라벨을 만들기 위해 모든 수단을 동원할 준비가 되어 있어야 합니다. 외주 협력사에게 라벨링 워크플로우의 전부나 일부를 아웃소싱하는 것은 ML 팀이 생각하는 이러한 목표 하에서 이용할 수 있는 한가지 방법 입니다.

밖으로 눈을 돌리기

고품질의 라벨을 만들 가능성이 더욱 높은 방법은  크라우드소싱보다는 인하우스와 아웃소싱입니다. 인하우스와 아웃소싱이 이러한 품질의 라벨을 만들어 낼 가능성을 더 높여주는 이유는 프로젝트 산업 및 직무 전문가 (SME)의 참여에 따라 상당히 전문적인 라벨이 필요할 수 있기 때문입니다.

이렇게 전문화되고 지식이 필요한 방식은 확실히 모델 훈련을 위한 이상적인 인풋을 생성할 확률을 더 높여주지만, 크라우드소싱 라벨링보다 아마 비용은 더 들 것입니다. 또한 인하우스 라벨링 팀이 SME가 인정할 만 한 라벨을 만드는 노하우를 쌓는 데에 일정한 조건이나 추가적인 노력이 필요하고, 최적의 사전 처리된 데이터셋을 생성하는데 추가적인 시간이 소요됩니다.

본 글의 앞부분에서 말한 것처럼, 각 라벨링 방법은 각자의 장단점이 있으며, 각각의 방법을 시간, 비용, 안전성, 품질 항목에서 어떻게 나란히 비교할지에 대한 일반적인 아이디어를 얻기 위해서는 다양한 범위의 개별 ML 프로젝트에서 장점의 크기를 측정할 수 있는 직무전문가가 효과적인 평가자가 될 수 있습니다.

시간

인하우스 라벨링과 비교했을 때,내부 라벨링 프로세스나 활동을 위해 팀을 훈련시키고 필요한 설비, 툴, 기타 리소스를 준비하는데 시간이 많이 드는 것을 고려하면, 아웃소싱은 시간을 절약해 줄 수 있습니다.

다른 한편으로는, 아웃소싱은 크라우드 라벨링 프로세스보다 느리다고 생각될 수도 있습니다. 크라우드 소싱에서는 라벨링 업무를 위한 웹 기반 배포 계정에 많은 라벨링 작업자들이 접근할 수 있기 때문이죠.

하지만, 크라우드 소싱이 빠르다고 하더라도, 인하우스, 심지어 아웃소싱과 같은 품질을 보장하지는 않습니다.

비용

비용이 우려된다면, 아웃소싱이 인하우스 라벨링보다 비용효율적일 수 있습니다. 작업물을 성공적으로 배포하려면 인하우스 팀을 구성하기 위한 비용을 계산하거나 비용규모를 알고 있어야 합니다. 일단 그 작업이 완료되면 비용을 생각했을 때 가장 좋은 접근법이 무엇인지를 깨달을 수 있을 것입니다. 아웃소싱이나 크라우드소싱 중 어떤 것이 보통 가장 저렴한 선택지인지를요.

보안 및 준법

데이터 라벨링을 아웃소싱하면 외부 기관에 민감할 수도 있는 정보를 맡겨야 하기 때문에 이 방법은 인하우스 또는 내부적으로 라벨링을 하는 것에 비해 보안성이 떨어진다고 여겨집니다.


기업이 인하우스 라벨링 업무를 수행할 때, 아웃소싱이나 크라우드 소싱을 통해서 데이터가 제 3자와 공유되지 않기 때문에, 모델 개발에 사용한 데이터를 보호하는데 더 도움이 됩니다.

보안 위험성은 어떤 아웃소싱 회사를 선택하는지에 따라서 달라지지만, 크라우드 소싱과 비교해서, 다른 곳보다 평판이 더 좋고 업계 표준 인증을 획득하였으며 데이터 오남용 위험을 줄일 수 있는 보안 조치를 실시하고 있는 외주 회사들이 일부 있습니다. 크라우드 소싱 팀과 개인 계약자들은 보안 또는 기밀 유지 정책을 준수할 필요가 없기 때문에, 데이터 공유나 실수로 인해 데이터가 노출되지 않도록 방지하는 확실한 방법도 없습니다.

품질과 SME 경험

일반적으로, 인하우스에서 작업한 라벨의 품질은 아웃소싱으로 한 작업보다 뛰어납니다. 반면 아웃소싱의 품질은 크라우드 소싱보다 뛰어납니다. 앞서 언급했다시피 전문화된 데이터 라벨러들이 투입되고 인사이트를 제공하기 때문입니다.

특정 프로젝트를 위해 전문성을 갖춘 팀 구성원들 혹은 그 이상의 사람들을 모집하면 그 분야 지식을 이용하여 모델에 가장 도움이 되는 정확성과 전반적인 라벨의 품질이 향상될 가능성이 더 높습니다.

그러나, 이러한 전문화된 지식과 인사이트를 조달할 수 있는 외주 업체를 찾을 가능성도 분명 있습니다.. 어떤 기관과 함께 하기로 결정하기 전에 기대하고 있는 바에 대해 명확히 대화가 필요합니다.

외부 라벨링 서비스 제공자가 제공해야 하는 것

다른 것들과 마찬가지로, 팀 내에서 생산적으로 일하려면 각 당사자의 능력에 따라 협업을 선택하는 방법에 신중해야 합니다.

여러 외주 업체들이 다양한 서비스를 제공하고 있습니다; 어느 업체는 ML 팀 프로젝트에 더 적합할 수 있는 반면, 특정 라벨링 지침을 준수하는 것이 어렵거나 작업할 수 있는 데이터 유형에 제한이 있을 수 있습니다. 다음은 ML 개발 팀이 고려하고 있는 외부 라벨링 서비스 제공자가 협업 니즈에 적합한 파트너인지를 판단하는데 유용한 기준입니다.

데이터와 경험의 유형

외주 업체나 외주 서비스는 그들의 전문지식에 따라 과거 작업한 데이터 유형, 프로젝트 목록, 또는 다른 프로젝트에 어떻게 가치를 가져다 주었는지에 대해 미리 파악하고 있어야 합니다.

만일 이 업체들이 여러분이 필요로 하는 데이터 유형으로 광범위하게 작업한 적이 없다면, 파트너십을 맺기 전에 지시사항과 기대하는 바에 대해 자세하게 정해놓아야 합니다.


먼저 생각해 볼 수 있는 몇가지 평가 기준입니다:

- 여러분의 프로젝트를 구체적으로 담당하게 될 팀의 크기
- 에이전시나 외부 파트너가 NA 기반의 업체이거나 글로벌 업체인 경우 이들의 오피스 소재지
- 우선시되는 언어 및 비지니스 관례 관점에서의 문화적 차이
- 에이전시나 파트너가 비지니스를 영위한 기간 및 과거에 함께 일한 업체
- 라벨링 프로세스 중 자동화가 이루어진 부분이 있는가? 있다면 어느 부분이며, 그 부분은 더 능률적이고 효율적인 프로세스에 기여하는지, 그리고 충분히 정확한가?

라벨링 방법의 투명성

외부 서비스를 받으려면 라벨링 워크플로우와 업무가 조직 밖에 있는 팀에게 위임된다는 점을 받아들여야 하기 때문에, 투명성은 효과적인 파트너십에 도움이 됩니다.

아웃소싱 라벨링 계약 맥락에서, 업체는 파트너십이 완전히 맺어지기 전에 라벨링 방법의 세부사항에 대해 커뮤니케이션 해야 합니다. 라벨링 워크플로우에서 휴먼 인 더 루프(HITL) 관여도 및, 워크플로우 단계마다 업체가 사용하는 특정 주석 툴이나 플랫폼, 업체가 최소한의 작업을 하는데 가장 익숙한 객체나 데이터 컨텐츠를 파악해야 합니다.

라벨링 타임프레임

라벨링 작업에서 가장 힘든 부분 중 하나는 개발팀이 상당히 많은 시간을 내서 작업을 해야 한다는 것입니다. 특히 실제 모델을 구축하는 것과 마찬가지로 팀원이 적은 소규모 팀일 수록 고난은 심화됩니다.

좋은 외주 서비스나 외주 업체 후보는 데이터 전달에 대해 논의한 바에 따른 예상 타임프레임이나 예상 작업시간을 예측하고 전달해야 합니다.. 아웃소싱을 선택한 이유 중 한가지가 시간 절약 이기 때문에 업체가 라벨링 작업을 하는데 걸리는 시간은 이 업체가 가장 적합한지 여부를 판단하는 요인입니다.

품질 기준 협의

잠재적인 파트너 업체를 선정할 때, 파트너십의 당사자들 간에 라벨링 품질에 대한 기대치를 일치시킬 것이 강력히 추천됩니다. 결국, 데이터 셋의 품질과 이 품질이 특정 ML 프로젝트에 얼마나 효율적인지는 공급되는 데이터의 유형에 달려있습니다. 모델 훈련에 사용되는 데이터가 관련성이 높을수록, 알고리즘이 데이터를 정확히 해석하고 정확한 예측 또는 결과를 내놓을 가능성이 더 높아집니다. 외부 서비스 파트너와 ML 개발 팀 간에 고품질의 데이터셋을 정의하는 기준이 다르다고 가정해 봅시다. 이런 경우, 오해는 물론 외주업체의 라벨링 작업량과 납기일이 품질 목표 지표를 달성하지 못하는 문제를 일으키게 됩니다.

외부 파트너십을 100% 활용하기

아웃소싱 계약을 가치있게 만들어 주는 것은 그 계약이 ML 개발팀에 맞춤화된 솔루션이며 개발팀의 파이프라인에서 부족한 점을 보완해 준다는 점입니다. 각 팀과 조직은 각자만의 니즈를 가지고 있으며 아웃소싱 데이터 라벨링은 각자의 환경에 따라 특히 유용할 수 있습니다.

개발팀이 산업에 특화되거나 전문적인 요건이 있는 데이터셋을 더 많이 생산하기 위해 외부 조달을 필요로 한다면, 추가적으로 아웃소싱을 도움을 받는 것이 비용 대비 가치가 있을 것입니다. 적합한 파트너라면 잘 짜여진 워크플로우를 실행하는데 필요한 툴을 적절히 활용하는, 맡은 일에 최선을 다하는 노련한 라벨링 팀을 갖고 있을 테니까요. 하지만, 인하우스나 내부 라벨링 솔루션 같은 다른 방법도 팀의 니즈에 맞는 적합한 훈련 데이터를 생산할 수 있으며 비용도 합리적일 수 있습니다. 특히 이러한 ML 니즈를 충족시키기 위해 출시된 포괄적인 라벨링 플랫폼과 툴 같은 더 최근의 혁신 기술을 이용하고 있다면요.

외부 라벨링 서비스를 100% 활용하기 위해서는, 데이터를 내부적으로 준비하거나 크라우드 소싱을 하거나 프로젝트의 데이터 요구사항을 충족하기 위해 외부 서비스를 도입하는 등 현실적으로 실행가능한 다양한 접근법들을 비교해 보아야 합니다. 여기에는 ML 시스템이 계획한 대로 기능하지 못할 때의 엣지 케이스나 시나리오가 포함됩니다. 데이터 준비 단계에서 예상치 못한 사건이 발생할 경우를 대비하고, 이러한 시나리오가 발생했을 때 모델이 지속적 성과를 달성할 수 있도록 도와주는 필수 정보를 모델에 제공하는 것이죠..

마지막으로, 평판이 좋고 이상적인 외부 라벨링 파트너가 이 글에서 열거한 모범 사례를 준수함으로써 결과적으로 어떤 것을 제공할 수 있을것인지에 대해서도 고려해야 합니다. 이는 외부 도움을 받으려는 결정이 옳았는지 검증하고, 조직의 입장에서 올바른 선택이었는지 확신을 갖게 하는데 도움이 될 것입니다.