데이터 라벨링 자동화의 주요 과제와 이를 극복하는 방법

데이터 라벨링 자동화의 주요 과제와 이를 극복하는 방법

머신러닝과 컴퓨터 비전의 비약적인 발전과 막대한 가능성에 힘입어 AI 기술의 성능과 역량은 역대 최고 수준에 도달했습니다. 하지만 이러한 효율성은 데이터 처리 프로세스 개선 및 우선순위 설정 없이는 달성할 수 없을 것입니다.‌‌

모든 AI 시스템이나 애플리케이션이 의도한 대로 작동하려면 특정 유즈 케이스에 적합한 품질과 관련성을 갖춘 데이터가 필수적입니다. 따라서 이러한 기술을 구현하는 데 사용되는 데이터를 관리하고 정제하는 방법이 이러한 놀라운 진전을 가능하게 했다고 볼 수 있습니다.‌‌

이러한 방법은 시간이 지날수록 AI 업계의 발전하는 요구를 충족하기 위해 지속적으로 업데이트되고 개선되었습니다. 기술적인 제약과 한계를 인식하고 이를 극복하며, 데이터 준비 방법은 보다 과감한 설계와 성능 목표를 자연스럽게 반영하도록 조정되었습니다.‌‌

이와 관련하여, 현재까지 가장 혁신적인 접근 방식은 전체 데이터 처리 파이프라인을 자동화하는 작업으로, 데이터 사이언티스트들이 지금까지 필수적으로 거쳐왔던 단계를 뛰어넘어 더 나은 발전을 이룰 수 있도록 도와줍니다. 모든 애플리케이션의 성능과 용량 수준은 어떤 데이터가 공급되는지의 여부에 크게 좌우되기 때문에, 데이터 사이언티스트들의 노력이 중요하며 필수적입니다.‌‌

데이터 관리 자동화는 모델 개발을 위한 데이터 준비와 관련된 많은 문제를 해소하고 뛰어넘는 유용한 솔루션입니다. 그러나 이러한 기술을 효과적으로 활용하기 위해서는 여러 가지 해결해야 할 과제들이 있습니다.‌‌

이 글에서는 머신러닝 팀이 자동화된 데이터 처리 방식을 도입하는 과정에서 직면할 수 있는 일반적인 장애물과 이를 극복하기 위한 실행 가능한 해결책을 제시합니다.

과제 #1: 부정확한 라벨링‌‌

효율적인 자동화는 데이터셋의 지침이나 가이드라인에 따라 달라집니다. 자동화 프로그램은 데이터 엔지니어나 데이터 사이언티스트가 제공한 샘플을 기반으로 라벨링 결정을 내립니다.‌‌

하지만 샘플 데이터셋에 결함이 있는 경우, 자동화 기능의 정확도가 떨어져서 발생할 수 있는 문제를 방지하기 위해 수정이 필요할 수 있고, 라벨러가 감독 및 수기로 재처리하지 않는 이상 훈련 목적에 부적합한 잘못된 데이터가 생성될 가능성도 있습니다.‌‌

이는 궁극적으로 비효율적이며 비생산적이기 때문에 어노테이션에 자동화 기능을 활용하는 사람들에게 중요한 과제로 간주됩니다. 자동 라벨링이 성공하여 목적을 달성했다고 여겨지기 위해서는 최소한 수동으로 처리된 데이터의 최소한의 품질과 동일한 수준의 데이터셋을 생성해야 핣니다.


해결책

오토 라벨링 알고리즘이 라벨링 지침을 정확히 이해하고 준수하도록 하려면 ML팀은 오토 라벨링 프로그램의 훈련을 위해 꼼꼼하고 철저한 주의를 기울여야 합니다. 이러한 노력은 이상적인 정답 데이터셋을 만드는 것부터 시작하는데, 잘못된 라벨을 신속하게 식별하고 훈련 목적에 맞게 준비할 수 있는 효율적인 수동 검수 프로세스를 통해 실현됩니다.‌‌

데이터 프로젝트 관리자는 슈퍼브에이아이의 리뷰 및 이슈 관리 기능을 활용하여 보다 효과적으로 라벨을 검수하고 체계적인 할당 시스템을 통해 현재 진행 중인 수동 라벨링 작업을 모니터링할 수 있습니다. 또한, 리뷰가 필요한 라벨은 대기열에 넣어 승인 또는 반려할 수 있으며, 라벨러에게 재할당하거나 문제 해결을 위한 준비를 할 수도 있습니다. 라벨러가 라벨을 올바르게 수정할 수 있도록 특정 메모나 이슈 스레드를 남길 수도 있습니다.‌‌

과제 #2: 훈련 시간‌‌

시간이 지남에 따라 자동화된 라벨링은 일반적으로 데이터셋 준비에 효율적인 방법임이 입증되었지만, 이러한 라벨링 작업을 위해 사용되는 모델은 여전히 자체적인 훈련이 필요합니다. 이 과제에서 가장 우려되는 점은 훈련에 소요되는 시간, 데이터의 샘플별 가치 유무, 그리고 프로젝트 일정을 포함하여 기대하는 프로젝트 결과를 만족시킬 수 있는지 여부 등이 매우 중요합니다.‌‌

특히, 이 문제는 기존의 머신러닝 모델을 재사용하여 라벨링을 지원하는 모델 어시스티드 라벨링(Model-assisted Labelling)이라는 접근 방식과 높은 관련이 있습니다. 이러한 접근 방식에서는 생성된 소프트 라벨의 정확성을 보장하기 위한 지속적인 관찰에 사람의 관여가 상당히 요구됩니다. 또한, 해당 모델은 이미 충분히 훈련된 대상을 라벨링하는 데에 한해 효과적이므로 새로운 엣지 케이스나 유즈 케이스를 처리하려면 전체 머신러닝 모델 훈련 사이클을 거쳐야 합니다.‌‌

결국, 초기 훈련 단계와 자동화된 프로그램 준비 단계를 지나더라도, 머신러닝 팀은 유사한 유즈 케이스나 대상 산업의 프로젝트일지라도 시간이 지날수록 일관성과 정확성이 떨어지는 결과 때문에 이터레이션에 변경 사항을 적용해야 할 수도 있습니다.‌‌

해결책

그러나 오토 라벨링 모델의 반복적인 훈련 요구 사항을 충족하는 맞춤형 솔루션도 있습니다. 슈퍼브에이아이에서 독점적으로 제공하는 커스텀 오토 라벨(Custom Auto Label, CAL) 기술은 소량의 정답 데이터셋과 몇 번의 클릭, 1시간 이내의 짧은 훈련만으로도 완벽하게 적용할 수 있습니다. 이를 통해 이미지에서 오브젝트를 자동 감지해 라벨링할 수 있으며 각 팀과 프로젝트의 정확한 유즈 케이스에 맞게 쉽게 커스텀할 수 있습니다.‌‌

또한 CAL을 사용하면 의사 결정 경계 근처에서 유의미한 사례를 강조 표시하여 모든 어노테이션 프로세스에 능동 학습 워크플로우를 적용할 수 있습니다. 이는 모델 성능 개선에 도움이 되지 않거나 사례에 대한 의존도를 낮춰 이터레이션 루프의 속도를 크게 높입니다.

과제 #3: 오류 발생 확률‌‌

레버를 당기면 원래 선로를 벗어나 우회하는 기차와 마찬가지로 자동 라벨링 프로그램도 잘못 사용될 수 있습니다. 이는 올바른 라벨링 요건에서 벗어난 시점부터 오랜 기간에 걸쳐 반복되며 효율에 영향을 미칠 수 있습니다.‌‌

이는 모델의 기계적인 경향 때문인데, 모델이 생성하도록 훈련된 결과 및 산출물을 따르고, 이 결과가 정확하지 않더라도 스스로 재설정하지 않기 때문입니다. 올바른 데이터포인트와 어노테이션 기법이 설정 및 활용되었는지의 여부와 관계 없이, 모델은 설정된대로 작동하게 됩니다.‌‌

모델이 실수나 오류를 범하면 일정 기간 동안 또는 무기한으로 같은 실수나 오류를 계속 반복할 가능성이 높습니다. 따라서 라벨러와 기타 AI/ML 개발 팀원들은 지속적인 오류가 이미 처리된 데이터셋의 상당 부분을 오염 및 손상시켜 ML 모델의 성능과 기능에 부정적인 영향을 미치기 전에 이러한 오류들을 미리 감지하고 수정할 수 있는 수단을 반드시 갖춰야 합니다.

해결책

오류의 비율이나 빈도를 줄이려면 자동 라벨링 AI의 결과물의 “신뢰성(trustability)”을 측정하고 평가하는 것이 가장 좋은 해결책이 될 수 있습니다. 이때 불확실성 추정과 같은 기술이 유용하게 활용될 수 있습니다. 이는 말 그대로 데이터 팀이 모델의 결과물을 얼마나 신뢰할 수 있는지 통계적으로 측정하는 방법입니다. 그런 다음 이 측정값을 사용하여 예측 오류의 확률과 그 가능성을 비례적으로 계산할 수 있습니다.‌‌

슈퍼브에이아이는 빨간색, 노란색, 녹색을 활용한 신호등 시스템(Stop-light system)을 사용하여 자동화된 라벨링 작업의 난이도를 측정하는 불확실성 추정 기능(uncertainty estimation) 을 제공합니다. 빨간색으로 표시되는 작업을 중심으로 가끔 노란색으로 표시되는 작업에 집중하면 훈련 데이터의 문제로 인한 모델 오류 가능성을 크게 줄이는 데 도움이 될 수 있습니다.

과제 #4: 품질 관리의 결점‌‌

ML 팀이 라벨링 프로세스를 자동화하는 주된 이유는 기존 데이터 라벨링에 드는 시간과 공수를 줄이고, ML 모델을 훈련시키기 위해 고품질의 대규모 데이터셋을 생성해야 하는 필요성을 절감할 수 있기 때문입니다. 쉽지 않은 일이지만, 자동 라벨링은 의심할 여지 없이 이를 달성할 수 있으며 심지어 기대치를 뛰어넘을 수도 있습니다.‌‌

최적화를 마친 적합한 훈련용 데이터를 생성하는 능력은 라벨링 리드 및/또는 프로젝트 리드가 상위 수준에서 프로세스를 감독할 때 가장 잘 달성할 수 있습니다. 데이터 식별 및 수집, 정리, 집계는 물론 실제 어노테이션 작업까지 완전히 수동으로 이루어지는 라벨링 파이프라인과는 달리, 사람의 개입 및 그 필요성이 줄어들고 일반적으로 비효율성, 자동 라벨 오류 및 프로그래밍 오해를 기반으로 프로세스를 개선하기 위해 목표 조정을 하는 데만 집중할 수 있습니다.

해결책

이 최상위 뷰는 팀 관리 및 분석 도구가 포함된 슈퍼브에이아이 플랫폼과 같은 포괄적인 라벨링 플랫폼을 통해 편리하게 설정하고 라벨링 프로젝트 지표를 모니터링하는 데 사용할 수 있습니다. 이러한 도구를 통해 ML 프로젝트 관리자는 라벨링 워크플로우에서 문제가 발생하는 위치를 파악하고 자동화된 라벨링 절차를 효과적으로 개선하기 위해 필요한 조정을 수행할 수 있습니다.‌‌

수동 리뷰 및 컨센서스 라벨링과 같은 다른 형태의 리뷰 외에도, 슈퍼브에이아이는 현재 올바르게 라벨링된 데이터의 작은 참조 데이터셋만을 사용하여 데이터셋 내에서 잘못 분류된 인스턴스를 감지하는 고급 품질 관리 자동화(오라벨 감지)를 연구하고 있습니다. 이 기능을 불확실성 추정과 결합하면 잘못 라벨링되거나 잘못 분류된 오브젝트를 쉽고 빠르게 식별할 수 있기 때문에 사람이 직접 리뷰할 필요성을 크게 줄일 수 있습니다.‌‌

💡
컴퓨터 비전 프로젝트를 위한 슈퍼브 플랫폼 데모 체험하기

오토 라벨링의 한계를 뛰어넘다‌‌

라벨링 세션 시간을 과제당 몇 분 또는 몇 초만 단축해도 다양한 ML 프로젝트와 각기 다른 요구사항에 대한 데이터 처리 파이프라인을 간소화하는 데 현저한 차이를 가져올 수 있습니다.‌‌

자동화는 차세대 애플리케이션에 필요한 성능을 한 단계 끌어올리는 데 있어 분명한 역할을 하며, 점점 더 많은 솔루션이 출시되고 실제 환경에서 구현됨에 따라 그 잠재력이 더욱 분명해지고 널리 입증될 것입니다.

‌‌