외부 라벨링 서비스 협력의 성공 사례
'최상의' 데이터 라벨링 방식이 무엇이냐고 묻는다면, ‘만능’ 솔루션은 존재하지 않습니다. 문제의 복잡성이나 ML 시스템의 특정 애플리케이션에 따라 이상적인 선택이 달라지기 때문이죠. 라벨링 방식에 영향을 미치는 다른 요소로는 어노테이션이 필요한 데이터의 양, 팀 규모, 예산, 시간 및 프로젝트에 필요한 기타 리소스 등이 있습니다.
가장 일반적인 방법은 인하우스 또는 내부에서 데이터 라벨링을 하는 것, 라벨링 작업을 아웃소싱하는 것, 크라우드소싱 하는 것입니다. 이 글에서는 ML 개발팀이 외부의 라벨링 전문팀이나 외부 라벨링 서비스에 어노테이션 작업을 맡기는 두 번째 접근 방식에 초점을 맞춰보겠습니다.
ML팀이 외부 라벨링 서비스에 라벨링 작업을 맡기는 데에는 여러 가지 이유가 있습니다. 하지만 가장 주목할 만한 이유는 고품질의 어노테이션을 제공받으면서 라벨링에 드는 비용과 시간을 절감하는 동시에 어떤 업체를 선택하느냐에 따라 특정 산업이나 유스케이스에 적합한 전문화된 라벨링 서비스를 제공받을 수 있다는 점입니다.
아웃소싱 라벨링 서비스를 위해 고려해야 할 중요한 요소에 대한 균형 잡힌 리뷰를 읽어보고, 이 데이터 라벨링 방식이 제공하는 이점을 알아보고, ML 프로젝트의 데이터 훈련 및 관리에 적합한 선택지인지 판단해보세요.
왜 아웃소싱일까요?
먼저, 라벨링 아웃소싱을 고려하고 있다면 아웃소싱이 여타 라벨링 방식보다 더 매력적인 솔루션인 이유에 대한 근거가 있어야 합니다. 다시 말해, 예산이 적고 리소스가 적은 소규모 팀일수록 내부에서 처리하는 것보다 아웃소싱을 통해 더 많은 효과를 얻을 수 있습니다.
ML 개발 사이클의 초기 단계가 팀에게 가장 큰 난관이라는 것은 널리 알려져 있습니다. 모델 훈련을 준비하기 위해 데이터를 라벨링하고 태깅하는 작업은 매우 힘든 과정으로 악명이 높으며, 사용 사례에 따라 난이도가 훨씬 더 높을 수 있습니다.
아웃소싱이 자신의 상황에 적합한 접근 방식인지 판단하기에 가장 중요한 첫 번째 요소는 개인 또는 조직의 상황이며, 두 번째는 다른 두 가지 일반적인 데이터 라벨링 접근 방식인 인하우스와 크라우드소싱이 당장은 아니더라도 전체 데이터 라벨링 파이프라인에 통합할 수 있는 대안이 될 수 있다는 점을 인식하는 것입니다.
라벨링처럼 복잡할 수 있는 프로세스를 최적화할 때, ML 팀은 가능한 최고 품질의 어노테이션을 얻기 위해 모든 방법을 동원할 준비가 되어 있어야 하며, 라벨링 워크플로우의 일부 또는 전체를 외부 파트너에게 아웃소싱하는 것도 이러한 목표를 염두에 두고 활용할 수 있는 방법 중 하나입니다.
외주를 선택한다는 것
어떤 라벨링 방식이 고품질의 어노테이션을 생산할 가능성이 더 높은지에 대해서는 인하우스 및 아웃소싱이 크라우드소싱에 비해 가장 유리하다고 여겨집니다. 고품질 라벨을 생성할 가능성이 높은 인하우스와 아웃소싱의 공통점으로는 ML 프로젝트의 산업에 따른 전문화된 어노테이션과 애플리케이션에 따른 주제전문가(Subject Matter Expert, SME)의 참여가 꼽힙니다.
이러한 전문적이고 지식이 풍부한 접근 방식은 모델 훈련에 이상적인 인풋을 생성할 가능성이 더 높지만, 당연히 크라우드소싱 라벨링 방식보다는 비용이 더 많이 듭니다. 또한 인하우스 라벨링팀이 SME가 승인한 라벨과 동일한 수준의 라벨을 생산하려면 노하우와 최적의 전처리된 데이터셋을 만드는 데 할애할 수 있는 시간을 확보해야 하거나 추가 노력이 필요합니다.
이 글의 서두에서 언급했듯이 각각의 라벨링 방식에는 뚜렷한 장단점이 있으며, 각 방식을 비교해 일반적인 내용을 확인하기 위해 시간, 비용, 보안, 품질, 주제전문성이라는 항목을 기반으로 비교해보겠습니다. 이는 다양한 개별 ML 프로젝트에 대한 이점의 규모를 측정할 수 있는 효과적인 평가 지표입니다.
시간
인하우스 라벨링의 경우 팀을 교육하고 내부 데이터 라벨링 프로세스 또는 활동에 필요한 시설, 도구 및 기타 리소스를 준비하는 데 많은 시간이 소요된다는 점을 고려할 때, 아웃소싱은 인하우스 라벨링과 비교해 시간을 크게 절약할 수 있습니다.
반면에 아웃소싱은은 크라우드소싱에 비해 느리게 느껴질 수 있습니다. 아웃소싱 기업이 라벨링 작업을 웹을 통해 다수의 라벨러에게 맡길 수 있기 때문입니다.
그러나 크라우드소싱을 통해 작업을 더 빨리 완료할 수 있다고 해도 인하우스에서 제공하는 것과 동일한 품질의 어노테이션을 제공한다고 보장할 수는 없으며, 이는 아웃소싱의 경우도 마찬가지입니다.
비용
비용이 걱정된다면 아웃소싱이 인하우스 라벨링보다 비용면에서 더 효율적일 수 있습니다. 빌드를 성공적으로 배포하려면 인하우스 팀을 구성하는 데 드는 비용을 계산하거나 알고 있어야 합니다. 그렇게 한 후에는 일반적으로 가장 저렴한 옵션인 아웃소싱과 크라우드소싱 중 어떤 방식이 비용을 고려할 때 가장 적합한지 알 수 있어야 합니다.
보안 및 컴플라이언스
데이터 라벨링을 아웃소싱하는 것은 근본적으로 잠재적으로 민감한 정보를 외부 기관에 맡기는 것이기 때문에 인하우스 또는 자체적으로 라벨링하는 것보다 보안이 취약한 것으로 여겨집니다.
기업이 라벨링을 인하우스로 수행하면 아웃소싱이나 크라우드소싱을 통해 제3자와 공유하지 않기 때문에 모델 개발에 활용되는 데이터를 더 안전하게 보호할 수 있습니다.
어떤 아웃소싱 업체를 선택하느냐에 따라 보안 위험도가 다르지만, 일부 업체는 다른 업체보다 평판이 좋고 업계 표준 인증을 보유하고 있으며 특히 크라우드소싱에 비해 데이터 오용 위험을 줄이는 보안 조치를 시행하고 있습니다.
크라우드소싱 팀과 개별 계약업체가 반드시 보안 또는 기밀 유지 정책을 따라야 하는 것은 아니기 때문에 데이터가 공유되거나 실수로 노출되는 것을 방지할 수 있는 확실한 방법은 없습니다.
품질 및 주제 전문가 경험
일반적으로 인하우스 라벨링의 품질은 아웃소싱을 통한 라벨링보다 높지만, 아웃소싱이 크라우드소싱보다 우수합니다. 이 순위는 전문 데이터 라벨러의 경험과 인사이트에 의해 결정된다는 점을 다시 한 번 상기해야 합니다.
특정 프로젝트를 위해 전문 팀원을 채용하고 이들의 도메인 지식을 활용하여 어노테이션의 정확성과 전반적인 품질을 개선함으로써 모델에 가장 큰 효과를 가져올 가능성이 높습니다.
그러나 이러한 전문 지식과 인사이트를 제공할 수 있는 외주 업체를 찾을 가능성도 여전히 높으며, 대행사와 협력하기로 결정하기 전에 이러한 기대치에 대해 명확하게 대화하는 것이 필요합니다.
외부 라벨링 업체가 제공해야 하는 것
다른 모든 것과 마찬가지로, 팀으로 일하면서 생산성을 높이려면 각 당사자가 가진 능력에 따라 협업 방식을 신중하게 선택해야 합니다.
업체마다 제공하는 서비스가 다를 수 있으며, 어떤 업체는 ML 팀의 프로젝트에 더 적합할 수도 있고, 어떤 업체는 그렇지 않을 수도 있습니다. 예를 들자면, 작업할 수 있는 데이터 유형에 제한이 있거나 특정 라벨링 지침을 따르지 않을 수 있습니다. 다음은 ML 개발 팀이 고려 중인 외부 라벨링 업체가 협업에 적합한 파트너인지 판단할 때 사용해야 하는 몇 가지 기준입니다.
데이터 유형 및 경험
외부 공급업체 또는 서비스는 과거에 작업한 데이터 유형, 프로젝트 레퍼토리 또는 전문 지식에 따라 다른 프로젝트에 어떤 가치를 제공했는지에 대해 미리 알려야 합니다.
필요한 데이터 유형에 대해 광범위하게 작업한 경험이 없다면 파트너십을 맺기 전에 자세한 지시 사항과 기대치를 설정하세요.
시작으로 삼을 수 있는 몇 가지 평가 기준은 아래와 같습니다.
- 이 프로젝트를 전담할 팀의 규모
- 북미 또는 해외에 있는 경우, 대행사 또는 외부 파트너의 소재지
- 선호하는 언어와 비즈니스 관행 등 문화적 차이
- 대행사 또는 파트너의 업력 및 과거에 함께 일한 파트너
- 라벨링 프로세스의 일부 자동화 여부와 정확도 및 해당 부분이 간소하고 효율적인 프로세스에 기여하는지의 여부
어노테이션 방식의 투명성
외부 서비스와 협력하려면 라벨링 워크플로우와 작업이 조직 외부의 팀에 위임된다는 사실을 받아들여야 하므로 투명성은 효과적인 파트너십을 구축하는 데 도움이 됩니다.
라벨링 작업을 아웃소싱하는 경우, 업체는 파트너십을 체결하기 전에 어노테이션 방식에 대한 세부 정보를 전달해야 합니다. 라벨링 워크플로우에서 HITL(Human-in-the-Loop)의 참여 정도와 어느 단계에 있는지, 공급업체가 사용하는 특정 어노테이션 도구 또는 플랫폼은 무엇인지, 최소한 이들이 가장 익숙하게 작업하는 오브젝트 또는 데이터 콘텐츠가 무엇인지 알아보세요.
라벨링 소요 기간
라벨링 작업에서 가장 아쉬운 점 중 하나는 라벨링에 많은 시간이 소요된다는 점으로, 개발 팀에게는 라벨링에 쏟을 여유가 없을 수 있습니다. 특히 실제 모델 구축에 비해 인력이 부족한 소규모 팀의 경우 더욱 그렇습니다.
유력한 후보인 외부 서비스 또는 업체라면 데이터 제공에 대한 논의를 바탕으로 예상 기간 또는 예상 소요 시간을 제시해야 합니다. 아웃소싱을 선택하는 이유 중 하나는 시간을 절약하기 위한 것이므로 공급업체가 라벨링 작업을 수행하는 데 소요되는 시간을 고려하여 가장 적합한지 여부를 결정해야 합니다.
품질 기준 조율
잠재적 협력 업체를 선정할 때는 파트너십의 양쪽 당사자가 라벨링 품질에 대한 기대치를 조율하는 것이 좋습니다. 결국 데이터 유형이 데이터셋의 품질과 특정 ML 프로젝트에 얼마나 효과적인지를 좌우하게 됩니다.
모델 훈련에 사용되는 데이터의 관련성이 높을수록 알고리즘이 데이터를 올바르게 해석하고 정확한 예측 또는 결과를 생성할 가능성이 높아집니다. 외부 서비스 파트너와 ML 개발 팀이 양질의 데이터셋을 정의하는 비슷한 기준을 가지고 있지 않다고 가정해 보겠습니다. 이 경우 서로 오해가 발생하고 업체의 라벨링 배치 및 납품이 품질에 대한 목표 지표에 도달하지 못할 수 있습니다.
외부 파트너십을 최대한 활용하기
아웃소싱 계약이 가치 있는 이유는 ML 개발 팀을 위한 맞춤형 솔루션이라는 점과 파이프라인의 부족한 부분을 채울 수 있다는 점입니다. 각 팀과 조직은 각기 다른 요구 사항을 가지고 있으며, 개별 상황에 따라 데이터 라벨링 아웃소싱이 특히 유용할 수 있습니다.
개발 팀이 산업별 또는 전문 요구 사항이 있는 대량의 데이터셋을 생성하기 위해 외부의 도움을 받아야 하는 경우, 이러한 추가 지원을 아웃소싱하는 것이 비용을 지불할 만한 가치가 있을 수 있습니다. 결국, 올바른 파트너는 잘 조직된 워크플로우를 실행하는 데 필요한 도구를 활용하여 숙련된 최고 수준의 라벨링 팀을 보유할 것입니다.
그러나 인하우스 또는 자체 라벨링 솔루션과 같은 다른 방식도 여전히 저렴하고 팀의 요구에 적합한 훈련 데이터를 생성할 수 있습니다. 특히 ML 분야에서 이러한 목적을 위해 출시된 종합적인 라벨링 플랫폼 및 도구와 같은 최신 혁신 기술을 활용하면 더욱 그렇습니다.
외부 라벨링 서비스를 최대한 활용하려면 내부적으로 데이터셋을 준비하거나, 크라우드소싱하거나, 프로젝트의 데이터 수요를 충족하기 위해 외부 서비스를 도입하는 등 현실적으로 구현할 수 있는 다양한 접근 방식을 비교해 보세요. 여기에는 ML 시스템이 계획대로 작동하지 않을 때의 엣지 케이스 또는 시나리오가 포함됩니다. 예상치 못한 상황에 대한 계획은 데이터 준비 단계에서 시작되며, 모델이 이러한 시나리오에 대응하는 데 필요한 정보를 준비하여 지속적인 성과를 달성할 수 있도록 지원합니다.
마지막으로, 이 문서에 나열된 성공 사례를 따라 평판이 좋고 이상적인 외부 라벨링 파트너가 무엇을 제공해야 하는지 고려하는 것을 잊지 마세요. 이를 통해 외부 도움을 받기로 한 결정을 검증하고 조직이 올바른 선택을 내렸다는 확신을 가질 수 있습니다.