슈퍼브 큐레이트 : 더 적은 데이터로 더 강력한 모델 성능을 구현하세요

슈퍼브 큐레이트 : 더 적은 데이터로 더 강력한 모델 성능을 구현하세요

그동안 베타 버전으로 제공되었던 슈퍼브 큐레이트를 이제 공식적으로 선보일 수 있게 되었습니다.

슈퍼브 큐레이트는 누구나 한 번쯤은 경험했던 데이터 문제들에 대해 슈퍼브에이아이가 제시하는 해답입니다. “어떤 데이터를 먼저 라벨링 해야 할까?”, “어떤 데이터를 모델 학습에 사용하고, 어떤 데이터를 모델 성능 검증에 사용해야 할까?”, “얼만큼의 데이터를 사용해야 할까?” 등 익숙한 문제들이죠.

슈퍼브 큐레이트와 함께라면 회사의 컴퓨터 비전 데이터를 한 곳에서 손쉽게 관리하고, 선별하고, 시각화 할 수 있습니다. 또 AI 기능을 통해 여러분의 데이터셋 전체를 가장 잘 대변하는 균형 잡힌 훈련용 데이터 슬라이스를 자동으로 구축하거나, 엣지 케이스나 라벨링 오류일 확률이 높은 데이터와 같이 중요한 데이터를 자동으로 탐색하는 등, 사람의 개입을 최소화하면서도 앞서 말한 모든 문제를 손쉽게 해결할 수도 있습니다.

슈퍼브에이아이는 앞으로 컴퓨터 비전과 머신러닝이 더 진화하면 결국 어느 기업이든 기업 규모나 ML 인력의 존재 유무와 무관하게 AI 애플리케이션을 개발하고 배포할 수 있는 시대가 올 것이라 믿습니다. 그 믿음을 현실로 만들기 위해 구현한 제품이 바로 큐레이트입니다.

이번 포스팅에서는 지금 바로 사용해보실 수 있는 다양한 툴과 기능을 통해 어떻게 훨씬 적은 데이터로도 모델 성능을 개선할 수 있는지 소개하고자 합니다.
* 혹시 직접 확인해 보고 싶으신가요? 해당 폼을 작성하시면 슈퍼브에이아이팀에서 여러분의 유즈 케이스에 특화된 데모를 시연해 드립니다.

데이터 관리


큐레이트에서는 취득한 대규모 데이터를 바로 플랫폼에 업로드하고 데이터 파이프라인을 관리할 수 있습니다. 첫 출시 버전에서는 슈퍼브에이아이에서 제공하는 SDK를 통해 원시 데이터, 라벨, 라벨에 연동된 어노테이션 및 메타데이터를 업로드하실 수 있습니다. 곧 API와 CLI 등 다양한 업로드 메커니즘과 데이터 파이프라인 자동화 기능을 제공할 예정입니다.

임베딩 스토어


큐레이트가 특별한 이유 중 하나는 슈퍼브에이아이의 독자적인 고차원 임베딩 생성 알고리즘이 제공된다는 점입니다. 사용자들이 데이터에 대한 인사이트를 얻기 위해 직접 임베딩 모델을 구축, 훈련, 유지보수하려면 불필요한 데이터 비용이 추가되고 과도한 컴퓨팅 리소스와 인하우스 인력을 소모해야 하는데, 그럴 필요가 전혀 없어집니다. 또 임베딩을 활용한 섬세한 데이터 선별 기능이 제공되기 때문에, 사람이 오랜 시간을 들여 힘들게 데이터를 선별할 필요가 줄어들거나 아예 없어질 수도 있습니다.

작동 방식은 간단합니다. 새로운 이미지나 객체가 업로드 될 때마다 자동으로 고품질의 임베딩이 생성되며, 큐레이트는 비지도학습을 통해 시각적 유사성을 바탕으로 이미지나 객체 데이터를 클러스터화 합니다. 이후 아래에서 설명할 슈퍼브에이아이의 데이터 선별 알고리즘이 임베딩과 클러스터 정보를 바탕으로 사용자의 모델 니즈에 가장 적합한 데이터를 선별하여 훈련용 데이터셋이나 검증용 데이터셋 등의 형태로 제공합니다.

💡
슈퍼브 큐레이트 무료로 시작하기


쿼리 및 슬라이스


SDK로 데이터를 업로드한 뒤, 이미지에 태그된 메타데이터나 어노테이션을 다양하게 조합해 원하는 데이터를 검색하고 슬라이스로 묶을 수 있습니다. 슬라이스는 하위 데이터 집합을 일컫는 말로, 큐레이트에서 아주 중요하게 사용되는 개념입니다. 슬라이스는 앞서 말씀드린 방법으로 수기로 생성할 수도 있고, 큐레이트에서 제공되는 AI 툴을 사용해 자동으로 생성할 수도 있습니다. 검색 기능인 쿼리를 사용해 슬라이스를 생성하면 예전처럼 힘들게 파일 명과 같은 연산자를 활용해서 데이터를 검색할 필요 없이 손쉽게 원하는 데이터만을 선별해 그룹화 할 수 있습니다.

쿼리와 이미지 뷰, 그리고 곧 출시될 객체별 타일 뷰, 스캐터 뷰를 적절히 활용하면 필요한 데이터를 쉽고 빠르게 발견하고 추출할 수 있습니다. 또 현재 개발 중인 시맨틱 서치 기능까지 함께 활용하면 데이터 선별에 필요한 시간과 노력을 훨씬 더 줄일 수 있습니다.

모든 슬라이스는 플랫폼 내에 저장되고 검색하기도 쉽기 때문에 필요할 때 바로 살펴보거나 사용할 수 있습니다.

데이터 자동 선별


머신러닝 엔지니어나 프로젝트 매니저라면 크게 공감하시겠지만, 컴퓨터 비전 데이터 중 유의미한 데이터를 선별하는 작업은 주먹구구 식으로 진행되는 경우가 많습니다. 물론 사소한 문제들을 해결할 때는 사람이 직접 데이터를 고르는 것이 효과적인 경우도 있지만, 문제가 커질수록 그 과정에서 사람의 편견이나 주관이 반영되거나 모델이 과적합 되어버릴 위험성이 증가합니다. 그리고, 아시다시피, 쉽게 확장할 수 있는 방법도 아니고요.

오토 큐레이트는 이런 문제를 해결하기 위한 AI 기반 툴입니다. 고성능의 데이터 선별 알고리즘을 활용해 아래와 같은 데이터를 사용자가 원하는 규모로 빠르게 선별해 줄 수 있습니다.

  • 학습용 데이터셋
  • 검증용 데이터셋
  • 엣지 케이스
  • 라벨링 오류
“시각화 된 클러스터 정보에서 우리에게 유의미한 데이터만 선별하는 기능은 저희가 내부적으로 항상 개발하고 싶어 했던 기능이에요. 저희 원시 데이터는 비디오 형태인데, 각 프레임이 시각적으로 유사한 경우가 많거든요. 오토큐레이트기능 덕분에 꼭 필요한 데이터만 담긴 균형 잡힌 데이터셋을 구축할 수 있었고, 덕분에 시간도 많이 절약하고 정확하지도 않은 랜덤 샘플링에 의존할 필요도 없어졌어요.”

Yongjin Shin,
ML engineer at ioCrops


데이터 선별 알고리즘이 어떻게 작동하는지, 또는 어떤 도움을 줄 수 있는지 궁금하신가요? 최근 시중의 유명한 데이터셋으로 여러 실험을 진행해서 저희 AI의 성능을 평가해 보았는데, 놀라운 결과들이 나와서 기쁜 마음으로 여러분께 소개합니다:

데이터 산포도 시각화 및 애널리틱스


마지막으로 여러분의 데이터셋의 패턴이나 트렌드를 더 깊이 이해하고 예외적인 데이터를 색출할 수 있게 도와주는 툴들을 소개합니다. 먼저 스캐터 뷰는 임베딩을 이용해 이미지나 객체를 시각적 유사성에 따라 2차원 공간에 클러스터화 하는 기능으로, 몇 초도 안 되는 짧은 시간에 데이터 분포도를 가시적으로 확인할 수 있습니다.

함께 제공되는 심층 애널리틱스 대시보드는 여러분의 데이터 풀을 분석해 메타데이터, 어노테이션 타입, 객체 클래스 분포도를 비롯해 다른 유용한 정보를 다양하게 제공하기 때문에 데이터셋에 대한 인사이트를 도출하기 용이합니다.

큐레이트에 대한 더 자세한 내용이 궁금하다면

데이터셋이 커지고 속성값이 다양해져도 동일한 ROI를 유지하려면 더 적은 시간, 노력, 비용으로 더 많은 데이터를 라벨링 할 수 있는 우수한 모델을 구축하고 관리할 수 있어야 합니다. 물론 큐레이트가 있다면 걱정할 필요 없죠. 큐레이트를 어떻게 여러분의 유즈 케이스에 딱 맞게 사용할 수 있는지 궁금하신가요? 지금 바로 슈퍼브에이아이의 세일즈팀에 문의하세요.