롱테일 컴퓨터 비전을 위한 커스텀 오토 라벨을 소개합니다
들어가면서
새롭게 개선된 슈퍼브에이아이의 커스텀 오토 라벨(Custom Auto-Label)을 여러분께 소개하게 되어 기쁩니다. 슈퍼브에이아이의 커스텀 오토 라벨은 데이터 라벨링 워크플로우를 자동화하여 컴퓨터 비전팀이 획기적이면서도 안정적인 롱테일 컴퓨터 비전(Computer Vision, CV) 모델을 개발할 수 있도록 돕습니다.
실제로 CV 어플리케이션을 구축할 때 투자가 필요한 부분은, 현실 속 시나리오에서 간과하기 쉬운 요소(long tail)을 해결할 수 있는 전략과 도구입니다. 예를 들어, 약 90%의 문제들은 제품이 현장에서 가장 빈번하게 맞닥뜨릴 수 있는 문제에 대처하는 것을 통해 해결할 수 있습니다. 하지만 여기서 더 나아가 99%의 문제를 해결하려면, 일반적인 시나리오와 약간 다르거나 드물게 발생하는 시나리오에도 대처할 수 있어야 합니다. 그리고 99.99..%까지 해결하고 싶다면, 극히 드문 시나리오들까지 뻗어나가게 됩니다. 엔지니어와 연구자들이 이런 드문 시나리오들을 발견하고 해결할 수 있어야 상업성과 정확도, 그리고 훌륭한 사용자 경험을 모두 겸비한 CV 어플리케이션을 구축할 수 있습니다.
다음은 CV팀이 슈퍼브에이아이의 커스텀 오토 라벨을 활용했을 때 가능한 것들의 리스트입니다.
• 특정 데이터셋으로 훈련된 모델을 빠르게 스핀업해 신속한 라벨링이 가능합니다.
• 불확실성 추정(uncertainty estimation)예측과 능동 학습(active learning) 기법의 조합으로 수동 또는 자동으로 하드 라벨을 지정합니다.
• 최적화된 정답(ground truth) 데이터셋을 구축하는 동시에 향후 이터레이션을 위해 모델을 재훈련합니다.
• 특수한 조건과 상당 수준의 전문 지식이 필요한 희귀 시나리오의 유즈 케이스로 확장 가능합니다.
이 블로그에서는 데이터 라벨링에서 발생하는 문제 해결에 대한 슈퍼브에이아이의 집념과 롱테일 CV를 위한 데이터 라벨링의 과제, 그리고 슈퍼브에이아이의 커스텀 오토 라벨 기능에 대해 자세히 다뤄보겠습니다.
데이터 라벨링 자동화에 대한 슈퍼브에이아이의 집념
이미 느끼셨겠지만, 슈퍼브에이아이는 CV 업계의 시급한 데이터 라벨링 문제를 해결하는 데에 몰두하고 있습니다.
• 처음에는 최대 100개 이상의 일반 오브젝트 클래스를 정확하게 감지하는 사전 훈련된 모델을 기반으로 오토 라벨링 기능을 출시했습니다.
• 그 후 불확실성 추정 AI(Uncertainty Estimation AI)를 구축해, 오토 라벨링된 각각의 어노테이션의 불확실성을 측정해 능동 학습 워크플로우의 속도를 높였습니다.
• 그리고 전이 학습(transfer learning), 퓨샷 러닝(few-shot learning), 오토ML자동 머신러닝의 독자적인고유한 조합으로 이루어진 커스텀 오토 라벨의 초기 버전을 출시하였으며, 이를 통해 사전 훈련된 모델이 적은 양의 고객 데이터셋만 가지고도 빠르게 학습할 수 있도록 하였습니다.
• 가장 최근에는 수동 품질 관리(QA)를 위한 기능을 출시해 라벨링 검증 워크플로우를 더 매끄럽게 만들었으며, 이를 통해 큰 노력 없이도 지속적으로 고품질의 라벨을 수집할 수 있도록 하였습니다.
분야, 회사 규모, 운영 성숙도가 제각각 다른 CV 업계의 실무자들과 이야기를 나누면 나눌수록 롱테일 시나리오의 데이터 라벨링 워크플로우에 더 고도화된 자동화와 애자일한 운영이 필요하다는 것을 확신할 수 있었습니다.
지금의 지도 학습 기법은 일반적인 인풋에서는 잘 작동하지만 희귀한 예시인 경우에는 어려움을 겪는 경우가 많습니다.꼬리가 인풋의 대부분인 경우가 많기 때문에, CV 실무자는 새로운 데이터를 수집해 모델이 엣지 케이스를 처리할 수 있도록 다시 훈련시켜야 하는 무한의 굴레에 빠지게 됩니다. 그렇다고 꼬리를 무시하기에는 신규 고객을 늘릴 기회를 잃을수도 있고, 경제성이 떨어지며, 유저들의 불만을 초래할 수 있기 때문에 마찬가지로 고통스러운 선택이 될 수 있습니다.
롱테일 컴퓨터 비전의 관점에서 보는 데이터 라벨링의 과제
우리가 진행한 설문조사와 인터뷰를 살펴보면, 데이터 라벨링에서 발생하는 병목 현상은 신규 CV 프로젝트를 막 시작한 팀과 그보다는 조금 성숙해 모델을 이미 운용 중인 팀에서 가장 많이 발생합니다.
1. 머신러닝 개발 초기 단계의 기업 또는 팀은 어떤 방식으로든 AI를 활용하고 싶어합니다. 하지만 틈새 분야이거나 특정한 분야의 데이터셋을 가지고 사전 훈련된 모델을 보유하고 있지는 않습니다.
2. 모델을 이미 운용 중인 팀은 머신러닝 개발 과정과 운용 라이프사이클에 정통합니다. 대부분 정교하게 사전 훈련된 모델을 보유하고 있으며 해당 모델의 정확도를 개선하는 데에 집중합니다.
이런 팀의 목표는 모델의 어떤 부분에서 문제가 발생하고 있는지 찾는 것과 수동으로 데이터셋을 준비해 엣지 케이스를 처리하는 것입니다. 그리고 시간이 지남에 따라 모델을 훈련시키는데 활용한 데이터의 성격이 변화하며 모델의 정확도가 저하되는 것을 뜻하는 데이터 드리프트나 모델 드리프트를 해결하려고 합니다.
롱테일 CV 어플리케이션을 위한 데이터 라벨링의 기술적 과제에 관해 저희가 내린 결론은 다음과 같습니다.
1. 컴퓨터 비전 모델이 보는 이미지와 영상은 매우 밀도가 높을 수도 있습니다. 예를 들어, 어떤 이미지는 매우 많은 오브젝트를 포함하고 있을 수도 있는데, 이러한 이미지는 수동 라벨링의 비용이 매우 높아지는 원인이 됩니다.
2. 실생활 속 이미지의 시점과 조명은 매우 다양합니다. 만약 깔끔한 오픈소스 데이터셋으로 사전 훈련시킨 모델로 오토 라벨링을 시도하면, 모델은 이러한 이미지에는 제대로 작동하지 않을 것입니다.
3. 모델이 희귀한 케이스를 감지하려면, 이런 희귀한 이벤트 속의 라벨링되지 않은 데이터를 수집해야 합니다. 일단, 보유한 희귀 케이스가 많지 않은 경우라면 사전 훈련된 모델을 활용한 라벨링은 거의 불가능에 가깝습니다. 이러지도 저러지도 못하는 진퇴양난의 상황이나 다름 없습니다.
기술적인 문제 외에도, 라벨링된 고품질의 데이터를 준비하는 것은 비용과 운영 측면에서도 아래와 같은 어려움이 있습니다.
1. 라벨링된 데이터를 수집하고 처리하고 유지하는 데에는 비용이 듭니다. 물론 시간이 지나면서 데이터 양이 증가할수록 비용은 점차 시간에 따라 데이터 양에 따라 감소하는 경향을 보이기는 하지만, 데이터 포인트 추가에 따른 한계 이익의 감소 속도가 더 빠릅니다. 만약 무차별적인 수동 라벨링에 의존한다면, 라벨링 비용은 생성된 라벨의 수에 비례해 선형적으로 증가하게 됩니다. 최악의 사실은 모델 성능이 발전할수록 데이터와 비용이 기하급수적으로 증가한다는 것입니다. 그리고 불행하게도 라벨의 수가 증가할수록 모델 성능의 발전은 더뎌집니다. 다시 말해, 모델 성능을 개선하기 위한 한계 이득이 감소한다는 뜻입니다.
2. 반복적인 방식으로 롱테일 데이터를 수집 및 라벨링하는 것은 모든 CV의 필수 역량입니다. 여기에는 일반적으로 프로덕션 중에 배포가 끝난 데이터를 식별하고, 이 중에서 가치 있는 샘플을 선별하여 신규 데이터가 새로운 훈련용 셋으로 활용될 수 있도록 라벨링해 자동으로 모델을 재훈련시키는 것이 포함됩니다. 하지만 데이터 오퍼레이션의 모범 사례는 이전에 한번 언급했듯이 아직 초기 단계입니다. 우리는 AIIA의 회원들과 운영 모범 사례를 모은 플레이북을 제작하기 위해 끊임없이 협력하고 있습니다.
위와 같은 어려움 때문에, 많은 CV팀들이 복잡한 라벨링이 필요 없는 단순한 유즈 케이스만 작업하는 길을 선택합니다. 반면에 어떤 팀들은 자신들만의 기법을 고안해 데이터 라벨링을 자동화하는데, 짧게는 몇 주에서 몇 달까지 걸리기도 하고, 훈련 및 서비스 환경의 변동에 따라 예측 정확도가 떨어질 가능성이 높습니다.
슈퍼브에이아이의 커스텀 오토 라벨
커스텀 오토 라벨의 주요 기능을 자세히 알아보겠습니다.
1. 불확실성 추정을 예측을 통해 검증에 드는 인적 자원을 절감할 수 있습니다. 슈퍼브에이아이가 개발한 불확실성 추정예측 기법을 통해 커스텀 오토 라벨 모델의 라벨링 예측을 얼마나 신뢰할 수 있는지 확인할 수 있습니다.
다시 말해, 커스텀 오토 라벨이 어노테이션(바운딩 박스나 상응하는 오브젝트 클래스 등)과 각 어노테이션의 신뢰도를 동시에 출력하기 때문에, 커스텀 오토 라벨이 신뢰할 수 없다고 판단하는 케이스에 대해서만 사람의 검증이 필요하게 되어, 수동 라벨 검증에 드는 작업량이 줄어듭니다.
2. 적은 데이터로도 새로운 태스크에 적용할 수 있습니다. 바운딩 박스로 “사람”이나 “자동차” 같은 오브젝트 클래스에 어노테이션을 추가하는 것과 같은 일반적인 작업 외에도, 수십개의 오브젝트 클래스, 데이터 분야, 라벨링 작업이 존재합니다. 일반적으로 새로운 셋의 오브젝트 클래스, 데이터 분야, 라벨링 작업으로 모델을 훈련시키는 데에 필요한 라벨링된 데이터의 양은 굉장히 많습니다.
그 전까지는 수동으로 진행하는 데이터 라벨링에 의존할 수 밖에 없습니다. 이 문제를 해결하고 사용자들이 롱테일 데이터에 커스텀 오토 라벨의 이점을 누릴 수 있도록, 전이 학습과 퓨샷 러닝을 조합해 모델을 특정 어플리케이션 분야의 데이터에 맞춤형으로 빠르게 제공합니다.
3. 데이터와 함께 제공되는 라벨을 무료로 사용할 수 있습니다다 사용하세요. 커스텀 오토 라벨은 자기 지도 학습 기법을 활용해 컴퓨터 비전에서 흔히 볼 수 있는 어플리케이션 시나리오를 바탕으로 컴퓨터 비전을 위해 자기 지도 학습으로 인기있는 어플리케이션 시나리오에 따라 모델을 사전 훈련시킵니다.
롱테일 시나리오라면 다양한 시나리오를 기반으로 자기 지도를 거친 사전 훈련된 모델 중에서 해당하는 분야에 가장 적합한 모델을 선택할 수 있습니다.
커스텀 오토 라벨을 활용하면 컴퓨터 비전 팀이 보유한 매우 적은 양의 데이터를 커스텀 엔지니어링 없이 모델 재훈련에 활용해 모델의 예측을 더 빠르게 검수할 수 있습니다. 또한 모델 가시성과 롱테일 문제를 위한 확장 가능한 인프라 등 비즈니스에 더 중요한 측면에 집중할 수 있습니다. 폭스 로보틱스(Fox Robotics)의 사례 연구를 한번 살펴보세요.
마치며
많은 조직이 롱테일 속성을 가진 최첨단 컴퓨터 비전 어플리케이션을 활용하고 싶어하지만, 라벨링에 필요한 사항들로 인해 어려움을 겪습니다. 데이터 라벨링은 롱테일 컴퓨터 비전을 적용하는 데에 가장 오래 걸리는 프로세스입니다. 수동 라벨링이나 비효율적인 자동 라벨링은 짧게는 몇 주에서 길게는 몇 달까지 프로젝트의 소요 기간을 늘립니다.
슈퍼브에이아이는 업계 최고 수준의 가장 완벽한 훈련용 데이터 관리 플랫폼을 구축하기 위해 전력을 다해왔습니다. 슈퍼브에이아이의 개선된 커스텀 오토 라벨 프로덕트라면 롱테일 시나리오로 이미지와 영상을 자동화해, 롱테일 컴퓨터 비전으로의 전환을 가로막는 가장 큰 장애물을 해결할 수 있습니다. 이미 슈퍼브에이아이의 커스텀 오토 라벨을 워크플로우에 도입한 고객들이 있고, 새로운 고객들에게 이 기능을 소개할 수 있어 기쁩니다.
롱테일 컴퓨터 비전 모델을 구축 중으로 더 자세한 내용이 궁금하신가요? 언제든지 세일즈 팀에 프로젝트에 관해 더 자세히 알려주세요. 성심성의껏 답변해드리겠습니다.