Superb AI의 커스텀 오토라벨링
저와 김계현 CRO는 작년에 데이터 라벨링부터 데이터 운영에까지 이르는 전 과정에서 효율성을 높이는 방법이 뭐가 있을까에 대한 이야기를 나눴습니다. 그리고 Superb AI가 자동화(automation)와 애자일한 운영을 지원하는 기능에 집중해야 한다는 결론을 냈습니다. 김계현 CRO가 마침 autoML, Few-shot learning과 Transfer learning과 관련해 높은 수준의 전문성이 있기도 했기에, 이 부분을 Suite에 적용 시켜서, 아직도 해결되지 못한 채 남아있는 데이터 라벨링, 머신러닝 내에서의 데이터의 흐름과 관련한 여러 도전과제들을 뛰어넘어보자는 생각에 자연스럽게 이르렀던 것 같습니다.
처음에 우리는 최대 100개 이상의 Common object의 클래스들을 정확하게 감지하는 pre-trained 모델 기반의 오토라벨링(Auto-Labeling) 기능을 선보였습니다. 그런 다음, 베이지안 딥러닝 기반의 불확실성 추정(Uncertainty Estimation) AI를 구축·계층화하여 오토 리뷰(Auto-Review) 기능까지 선보였습니다. 머신러닝 팀은 이 두 가지 기능을 통해 어노테이션의 난이도를 측정하고, 액티브러닝 워크플로우를 가속화하고, 난이도가 높은 라벨을 빠르게 발견해서 신속하게 검수할 수 있었습니다.
하지만 여전히 뭔가 부족한 느낌이었습니다. Suite의 오토라벨링 기능에 대한 반응은 대체로 좋았지만, 다루는 객체가 특수하거나 카메라 각도·조명이 특이할 때 등, 다양한 고객사의 데이터에 모두 사용할 수는 없었습니다. 인공지능 산업에 변화를 이끌어내기 위해서는 오토라벨링을 넘어선 더 고도화된 기능이 필요하다는 결론을 내렸습니다. 그리고 그 기능을 정의하기 위해서 회사 규모나 머신러닝 운영을 얼마나 잘 하느냐에 관계 없이, 인공지능 산업 내의 수많은 머신러닝 실무자들을 만나서 이야기를 나눴습니다. Suite를 시장의 판도를 뒤엎을 수 있는 제품으로 발전시키기 위해서는, 고객의 실제 목소리를 수집하고 반영하는 것이 필요했습니다.
궁극적으로, 커스텀 오토라벨 AI를 만들기 위해 두 가지 주요 활용 사례를 정의했습니다.
- 머신러닝 개발 초기 단계에 있는 회사는 특수/도메인별 데이터셋에 대한 pre-trained 모델이 없다.
- 머신러닝 개발 및 배포 라이프사이클을 잘 운영하고 있는 회사는 정교한 pre-trained 모델을 갖고 있으며, 모델 정확도를 향상시키는데 집중하고 있다. 즉, 모델이 잘 동작하지 않는 경우를 파악하고 이러한 엣지 케이스를 해결하기 위해 수동으로 데이터셋을 준비하고 있다.
두 가지 시나리오에서 보다시피, 모든 머신러닝 팀들은 같은 어려움을 토로하고 있었습니다. 고품질의 데이터셋을 위한 반복적인 작업을 수행하고, 작업된 데이터를 전달하는데 소요되는 시간이 너무 많다는 점이었습니다. 이 작업은 몇 달이 걸리기도 했고, 또 비용도 너무 많이 들고 있었습니다.
커스텀 오토라벨의 개념은 단순합니다. 머신러닝 팀이 전체 데이터를 직접 라벨링하는 대신에, 일부 데이터만 라벨링하거나 ‘골든’ 데이터셋을 만들고, 몇 번의 클릭으로 커스텀 오토라벨 모델을 학습시켜 대규모 데이터셋을 짧은 시간에 라벨링할 수 있게 하는 것입니다. 이 워크플로우를 슈퍼브에이아이의 불확실성 추정 AI 및 관리분석 툴과 함께 사용하면, 가공이 어려운 라벨을 식별하고 검수를 위한 액티브러닝 워크플로우를 구축하여 며칠 만에 데이터셋을 완성시킬 수 있습니다.
Custom Auto-Label을 활용한 액티브러닝 워크플로우
Transfer Learning, Few-shot Learning과 autoML을 적재적소에 사용하여 이 기술을 구현할 수 있었고, 고객사가 보유한 소규모의 데이터셋을 활용했을 때도 모델이 빠르게 학습할 수 있습니다. 또한 커스텀 오토라벨은 광범위하게 적용 가능한 것이라, 어떤 프로젝트라도 초기부터 속도를 낼 수 있습니다. 덕분에 모델 학습을 위한 초기 데이터셋을 구축하는 경우나, fine-tuning을 위한 엣지 케이스를 라벨링 하는 프로젝트에도 적합합니다. 결과적으로, 커스텀 오토라벨을 통해 데이터셋을 준비하고 전달하는 데 걸리는 시간을 대폭 감소시킬 수 있습니다.
슈퍼브에이아이의 고객은 빠른 라벨링 작업을 위해 자사의 데이터셋을 학습한 모델을 스핀업할 수 있고, 이로 인한 이점을 몸소 느끼고 있습니다. 이는 재정적 부담을 덜어줄 뿐만 아니라 전달 시간을 크게 줄여주는데, 이 부분은 프로젝트의 순조로운 진행과 모델 최적화에 있어 더욱 더 중요해지고 있는 요소입니다. 슈퍼브에이아이는 Suite내 autoML 기능을 fine-tuning하고 최적화하여, 학습용 데이터셋의 완성과 전달을 위한 혁신적이고 효율적인 방법을 지속적으로 가이드하도록 하겠습니다.
지금 바로, 슈퍼브에이아이의 커스텀 오토라벨 데모를 요청해보세요!