컴퓨터 비전 분류: 노이즈가 많고 잘못 라벨링된 데이터 클리닝

컴퓨터 비전 분류: 노이즈가 많고 잘못 라벨링된 데이터 클리닝

머신러닝 및 컴퓨터 비전 기술에 대한 전문 지식이나 경험에 관계없이 한 가지 보편적인 사실은 모델의 성공 여부는 데이터 품질에 크게 좌우된다는 것입니다. 쓰레기 심은데 쓰레기 난다(Garbage in, Garbage out; GIGO)는 말이 있을 정도로요.

하지만 실제 데이터는 노이즈와 잘못된 라벨로 가득 차 지저분한 경우가 많습니다. 이 포스팅은 머신러닝 실무자와 데이터 라벨러가 보다 정확한 분류 작업을 위해 이러한 데이터셋을 정리하는 과정을 안내하는 것을 목표로 합니다.

다루는 내용

  • 모델 성공에 양질의 데이터가 중요한 이유
  • 데이터 노이즈의 정의와 영향
  • 수동 라벨링이 라벨 노이즈를 유발하는 방법
  • 노이즈가 있는 데이터셋 관리
  • 클러스터링 알고리즘 및 임베딩
  • 고가치 클린 데이터 큐레이션하기
  • 라벨 노이즈 및 잘못 라벨링된 데이터 이해하기

데이터의 노이즈는 관련성이 없거나 무의미한 데이터, 무작위 오류 또는 기본 구조와 추출하고자 하는 진실을 왜곡하는 편차를 의미합니다. 이와 관련하여 '라벨 노이즈'는 데이터 노이즈의 특정 범주로, 잘못 라벨링되었을 가능성이 있는 데이터 또는 임베딩 공간의 근처에 위치하지만 다른 클래스가 할당된 데이터 포인트를 의미합니다.

반면에 잘못 라벨링된 데이터는 잘못된 클래스에 할당된 인스턴스입니다. 이는 모델의 성능을 크게 저하시킬 수 있으므로 분류 문제에 특히 치명적입니다. 슈퍼브 큐레이트(Superb Curate)의 기능인 오토 큐레이션은 이러한 데이터를 지능적으로 식별하여 올바르게 라벨링되고 동일한 클래스에 있는 다른 데이터 포인트와 유사할 가능성이 높은 데이터를 선택합니다.

데이터 큐레이션 자동화로 모델 성능 향상하기

데모 체험


수동 라벨링이 잘못된 라벨로 이어지는 이유

수동 데이터 라벨링은 특히 대규모 데이터셋을 다룰 때 많은 문제를 야기할 수 있습니다. 수동 선택 프로세스는 시간이 많이 걸리고 오류가 발생하기 쉬우며 규모 확장이 어려울 수 있습니다. 자동화가 없다면 머신러닝 모델을 효과적으로 학습시키기 위해 가치가 높은 데이터의 하위 집합을 큐레이팅하는 것은 복잡한 작업이 됩니다.

수동 데이터 라벨링의 주요 단점 중 하나는 데이터셋에 라벨 노이즈와 잘못된 라벨을 발생시키는 경향이 있다는 것입니다. 이러한 오류가 머신러닝 모델의 성능에 미치는 영향은 심대하고 광범위할 수 있습니다. 이러한 오류는 편향을 유발하거나, 과적합(overfitting)을 유발하거나, 잘못된 예측으로 이어질 수 있으므로 이를 정확하게 식별하고 수정하는 것이 중요합니다.

잘못된 라벨 문제

동물 이미지를 여러 클래스로 분류하는 수동 라벨링 프로세스를 예로 들어 설명해 보겠습니다. 라벨 오류는 단순한 사람의 실수로 인해 개 이미지가 고양이로 잘못 라벨링되는 등 다양한 방식으로 발생할 수 있습니다.

마찬가지로 수동 프로세스에서는 조명이 어둡거나 각도가 비정상적인 이미지의 경우 라벨 노이즈가 발생하여 올바른 분류에 혼동을 일으킬 수 있습니다. 예를 들어 펭귄은 흑백으로 표시되어 검은새로 오인될 수 있습니다.

수동 라벨링의 편향성 위험

수동으로 라벨링한 데이터셋에도 편향이 발생할 수 있는데, 이는 라벨러가 무의식적으로 한 클래스를 다른 클래스보다 선호할 수 있기 때문입니다. 예를 들어, 라벨러가 고양이보다 개를 식별하는 데 더 익숙하다면 모호한 이미지를 개로 라벨링할 가능성이 높아져 '개' 클래스가 과대 대표될 수 있습니다.

수동 라벨링으로 인한 과적합 문제

과적합은 수동 라벨링으로 인해 발생할 수 있는 또 다른 문제입니다. 예를 들어, 라벨러가 데이터의 하위 집합에 지속적으로 잘못 라벨링하여 늑대를 개로 지속적으로 잘못 분류한다고 가정해 보겠습니다. 이 데이터로 학습된 모델은 잘못된 라벨로 인해 늑대를 개로 인식하도록 학습했기 때문에 이 훈련 데이터에서는 매우 우수한 성능을 보이지만 새로운 데이터에서는 성능이 저하될 수 있습니다.

노이즈가 많은 잘못된 라벨링 데이터 관리

데이터에서 노이즈를 감지하는 것은 실제 노이즈와 의미 있는 이상값을 구별하기 위해 도메인 지식이 필요한 경우가 많기 때문에 어려울 수 있습니다. 산점도, 박스 플롯, 히스토그램과 같은 시각화를 사용하는 탐색적 데이터 분석(Exploratory Data Analysis, EDA)은 불일치나 이상 징후를 발견하는 데 좋은 출발점입니다.

하지만 슈퍼브에이아이의 오토 큐레이트 기능은 라벨링되지 않은 이미지의 데이터셋을 균일한 분포와 최소한의 데이터 중복으로 큐레이션할 수 있는 기능을 제공함으로써 자동화를 지원합니다. 이 기능은 데이터 포인트가 다른 라벨을 가진 다른 데이터 포인트 근처에 있을 경우 라벨이 잘못 지정되었을 가능성이 높다고 가정하는 라벨 노이즈 기준을 적용하여 라벨이 잘못 지정된 데이터를 감지하는 작업을 관리합니다. 이 사용자 친화적인 기능을 통해 라벨링 오류를 빠르게 수정할 수 있습니다.

슈퍼브에이아이의 오토 큐레이트 기능은 라벨링되지 않은 이미지의 데이터셋을 균일한 분포와 최소한의 데이터 중복으로 큐레이션할 수 있는 기능을 제공하여 자동화를 구현합니다.

데이터셋에서 라벨 노이즈 발생과 무작위 라벨 노이즈 발생을 비교한 그림. 이미지 출처. (CC BY 4.0).‌ ‌

클래스 분포 균형 조정

클래스 균형을 맞추는 것은 데이터셋을 관리할 때 또 다른 중요한 요소입니다. 오토 큐레이트는 빈도가 높은 클래스는 언더샘플링하고 빈도가 낮은 클래스는 오버샘플링하여 왜곡된 클래스 분포를 바로잡는 데 도움을 줍니다. 예를 들어, 데이터셋에 한 클래스가 다른 클래스보다 훨씬 더 자주 나타나는 경우, 오토 큐레이트는 빈도가 낮은 클래스에서 더 많은 데이터를 선택해 분포의 균형을 맞춥니다.

오토 큐레이트는 큐레이션에 드는 수작업을 줄여줌으로써 머신 러닝 팀이 정확하고 잘 선별된 데이터셋으로 보다 효과적인 모델을 구축할 수 있도록 해줍니다. 라벨 노이즈 처리, 잘못된 라벨 수정, 클래스 밸런싱 등 오토 큐레이트는 효율적인 데이터셋 관리를 통해 모델 성능을 향상에 기여합니다.

고급 도구를 사용한 데이터 대체

누락되거나 손상된 데이터가 있는 경우 평균/중앙값 대체, k-NN 대체 또는 자동 인코더와 같은 고급 모델과 같은 대체 방법을 사용할 수 있습니다. 실제 데이터에는 누락되거나 손상된 값이 상당 부분 포함되어 있기 때문에 데이터 전처리에서 데이터 대체는 매우 중요한 단계입니다.

클래스에 구애받지 않는 AI 보조 어노테이션 도구인 슈퍼브에이아이 오토 에딧(Auto-Edit)은 이 과정에서 유용한 역할을 할 수 있습니다. 오토 에딧을 사용하면 라벨링 팀이 복잡하고 불규칙한 모양을 포함하여 이미지와 비디오의 개별 오브젝트를 자동으로 분할하고 1초 이내에 픽셀 단위의 완벽한 폴리곤을 생성할 수 있습니다. 오토 에딧은 처리량과 정확도를 개선하여 이미지 및 비디오 기반 데이터셋의 노이즈 데이터를 효과적으로 처리합니다.

이상값 제거 및 효율적인 어노테이션

다른 값과 비정상적인 거리에 있는 데이터 포인트를 의미하는 이상값(outlier)은 모델의 훈련과 효과적인 일반화 능력을 왜곡할 수 있습니다. 일부 이상값은 실제 극단적인 값을 나타내지만, 다른 이상값은 노이즈, 오류 또는 데이터 손상으로 인해 발생할 수 있습니다. 따라서 이러한 이상값을 제거하는 것은 노이즈가 많은 데이터를 정리하는 데 있어 필수적인 부분입니다.

슈퍼브에이아이의 오토 에딧 기능은 데이터 어노테이션 작업에서 가장 힘들고 시간이 많이 걸리며 정밀도가 요구되는 작업 중 하나인 폴리곤 분할을 자동화하여 이 프로세스를 지원합니다. 오토 에딧을 통해 팀은 더 스마트하게 작업하고 더 빠르게 어노테이션할 수 있으며, 데이터 포인트당 어노테이션 시간을 크게 절약할 수 있으므로 프로젝트 속도와 확장 가능성을 높일 수 있습니다.

💡
컴퓨터 비전 프로젝트를 위한 슈퍼브 플랫폼 데모 체험하기

데이터 클리닝에서 AI의 힘

오토 에딧은 AI를 사용하여 진행 상황을 가속화함으로써 프로젝트와 조직 차원에서 상당한 효과를 가져올 수 있습니다. 오토 에딧은 자동 라벨링 및 잘못된 라벨링 감지와 같은 다른 자동화 방법과 함께 사용하면 더 많은 더 나은 데이터로 더 빠르게 AI 투자 성과를 내는 데 기여합니다.

또한 오토 에딧은 팀이 커스텀 오토 라벨 훈련용 정답 데이터셋을 생성할 수 있도록 지원하여 추가 자동화를 지원하므로 고성능의 정확한 AI를 만드는 데 필요한 시간을 크게 단축할 수 있습니다.

슈퍼브에이아이 툴은 데이터 라벨링과 프로젝트 관리를 넘어 데이터 큐레이션까지 확장됩니다. 대규모 데이터 더미 중에서 '우선적으로 라벨링해야 할 데이터'를 큐레이션하는 데 중점을 둡니다. 이 큐레이션은 두 가지 유형으로 분류할 수 있습니다.

  • 사전 모델 큐레이션: 데이터의 시각적 속성을 캡처하고 이러한 속성이 균형 있게 분포되도록 큐레이션합니다.
  • 사후 모델 큐레이션: 모델의 추론 결과를 분석하고 모델 성능 향상에 필요한 추가 데이터를 선별합니다.

이러한 종합적인 전략은 노이즈가 많은 데이터를 효과적으로 처리하여 강력하고 정확한 머신러닝 모델을 구축할 수 있는 기반을 마련합니다.

반지도 학습

라벨링되지 않은 데이터는 소량의 라벨링된 데이터와 함께 사용하여 잘못된 라벨을 수정하고 분류 성능을 향상시킬 수 있습니다. 반지도 학습은 머신러닝에서 중요하지만 잘 활용되지 않는 접근 방식으로, 학습 중에 라벨링된 데이터와 라벨링되지 않은 데이터를 모두 결합합니다.

이를 통해 적은 양의 라벨링된 데이터와 풍부한 라벨링되지 않은 데이터를 함께 활용할 수 있으며, 이를 통해 종종 모델의 성능을 개선하고 잘못 라벨링된 데이터를 수정할 수 있습니다.

이상값 탐지 간소화

슈퍼브 큐레이트와 슈퍼브 라벨은 이러한 이상값을 감지하고 수정하는 프로세스를 간소화합니다. 오토 큐레이트 옵션 중 '잘못된 라벨 찾기' 옵션을 사용하면 잠재적인 라벨링 오류를 쉽게 발견할 수 있습니다. 검사하려는 데이터셋이나 슬라이스를 선택하기만 하면 ‘오토 큐레이트’가 알아서 처리합니다.

‘슈퍼브 큐레이트'와 ‘슈퍼브 라벨'은 이러한 이상값을 감지하고 수정하는 프로세스를 간소화합니다.

엔드투엔드 머신 러닝수명 주기 버전 관리 시스템의 데이터 흐름도. 이미지 출처. (CC BY-NC-SA 4.0)

분산 시각화를 활용한 효율적인 데이터 분석

강력한 시각화 도구 중 하나인 분산 시각화를 사용하면 2차원 공간에서 시각적 유사성을 기반으로 클러스터링된 이미지 또는 오브젝트의 분포를 파악할 수 있습니다. 이러한 이해는 데이터셋의 패턴을 식별하고 이상값을 효과적으로 감지하는 데 도움이 됩니다.

데이터 관리의 장애물 극복

데이터 관리에는 데이터 수집 과정에서 체계적인 메타데이터 설계 및 수집이 부족하여 철저한 수동 검색 및 검토를 포함한 일련의 과제가 수반되는 경우가 많습니다. 어노테이션이 없는 데이터의 양이 방대하기 때문에 데이터 관리가 어려울 수 있습니다.

많은 팀이 더 많은 데이터를 추가하는 데 매달리지만, 이러한 접근 방식은 종종 모델 성능의 저하와 데이터 준비와 관련된 비용 증가로 이어집니다. 직관과 경험에 크게 의존하는 경우도 있는데, 이는 높은 오차 범위와 거의 불가능에 가까운 완벽한 무작위 샘플링을 초래합니다.

클러스터링 알고리즘 및 임베딩

K-Means, DBSCAN 또는 계층적 클러스터링과 같은 클러스터링 알고리즘은 유사성에 따라 데이터 포인트를 그룹화하는 비지도 머신러닝 방법입니다. 이러한 알고리즘은 데이터의 불일치 또는 불규칙성을 식별하는 데 유용하며, 잘못 라벨링되거나 노이즈가 있는 데이터 요소를 감지할 수 있게 해줍니다.

이러한 접근 방식을 보강하기 위해, 슈퍼브 큐레이트는 임베딩을 기반으로 하는 자동화된 큐레이션 기능을 도입했습니다. 임베딩은 슈퍼브 큐레이트의 AI 기능을 구동하는 기반 기술로, AI가 배경, 색상, 구도, 각도 등과 같은 '이미지 간의 시각적 유사성'을 이해하고 비교할 수 있도록 해줍니다.

슈퍼브 큐레이트의 AI 기반 데이터 큐레이션 기능

슈퍼브 큐레이트는 다음과 같은 임베딩 기반 데이터 큐레이션 기능을 제공합니다.

  • 이미지 큐레이션: 라벨링되지 않은 이미지의 데이터셋을 큐레이션하여 데이터의 중복성을 최소화하고 균일한 분포를 보장합니다.
  • 오브젝트 큐레이션: 라벨링된 이미지의 균형 잡힌 데이터셋을 큐레이션하여 클래스를 균등하게 표현하고 각 클래스 내에서 오브젝트가 균등하게 분포되도록 보장합니다.
  • 엣지 케이스 큐레이션: 유사성(클러스터링)에 따라 데이터를 그룹화하고 희귀하거나 엣지 케이스일 가능성이 높은 이미지만 큐레이션합니다.
  • 공통 사례 큐레이션: 흔하거나 중복될 가능성이 높은 이미지만 큐레이션합니다.

데이터 관리를 위한 쿼리 활용

슈퍼브 큐레이트의 쿼리 기능은 이미지에 태그된 메타데이터와 어노테이션 정보를 검색하여 사용자가 원하는 데이터를 찾을 수 있도록 도와줍니다. 다음과 같은 고급 검색 기능을 지원합니다.

  • 특정 메타데이터 조건을 충족하는 데이터를 검색합니다.
  • ‘어노테이션 수가 X개 이상/미만인 이미지' 또는 특정 오브젝트 구성을 가진 이미지를 검색합니다.
  • 쿼리 빌더를 사용하여 위 두 가지 방법을 혼합해 필터 또는 필터 그룹을 추가해 검색할 수 있습니다.
  • 슈퍼브 큐레이트의 쿼리 기능은 이미지에 태그된 메타데이터와 어노테이션 정보를 검색하여 사용자가 원하는 데이터를 찾을 수 있도록 도와줍니다.


쿼리 단계가 포함된 기본 ML/CV 능동 학습 주기의 그림. 이미지 소스.

이 고급 검색 기능은 메타데이터나 어노테이션 정보가 제한되어 있는 경우 데이터 큐레이션에 도움이 됩니다. 특히 이미지 큐레이션 기능은 로우 이미지의 시각적 유사성을 살펴보고 배경, 구도, 각도 등이 다양한 이미지를 큐레이션하기 때문에 사이즈가 큰 로우 데이터셋을 처음 큐레이션하고 라벨링할 때 가장 유용합니다.

고가치 클린 데이터 큐레이션

머신러닝 및 컴퓨터 비전 애플리케이션에서 데이터 관리 및 큐레이션은 중요한 과제이지만, 이러한 과제를 정면 돌파할 수 있는 고급 도구와 방법이 등장하고 있습니다. 오토 큐레이트, 오토 에딧, 쿼리 기능을 포함한 자동화 도구 제품군을 갖춘 슈퍼브에이아이는 이 프로세스를 간소화하여 머신러닝 팀이 잘못된 라벨링, 라벨 노이즈, 클래스 불균형 등의 문제를 해결할 수 있도록 도와줍니다.