라벨링 검수 완벽 정리: ✅ 효율적인 검수 프로세스로 데이터 품질 극대화하기

라벨링 검수 완벽 정리: ✅ 효율적인 검수 프로세스로 데이터 품질 극대화하기

데이터 품질은 AI 모델의 성능을 결정하는 중요한 부분 중의 하나입니다. 아무리 적절한 데이터를 선별하고, 정교한 모델을 설계하더라도, 학습 데이터가 정확하지 않다면 기대한 성능을 얻기 어렵습니다.

데이터 구축 과정은 데이터를 수집하고 라벨링 하는 것에서 끝나지 않습니다. 오토라벨링을 적용하여 빠르고 자동화된 라벨링이 되었더라도 모든 객체가 정확하게 라벨링 되었는지 검토해야 하고, 여러 명의 라벨러가 작업했다면 모든 데이터에 라벨링 기준이 일관되게 적용되어, 원하는 수준의 GT(Ground Truth)가 만들어졌는지 확인해야 합니다. 특히, 생성형 AI를 활용해 합성 데이터를 생성할 때도, 초기 GT(Ground Truth) 데이터가 정확하지 않다면 잘못된 데이터가 누적될 수 있습니다.

이번 레시피에서는 슈퍼브 플랫폼의 리뷰 기능을 활용하여 라벨링 데이터를 체계적으로 검수하는 검수 프로세스를 소개하고, 데이터 검수 중 발견되는 문제를 이슈 스레드로 관리해 고품질의 GT(Ground Truth)를 만드는 과정을 단계별로 안내해 드립니다.

💡
GT : Ground Truth 즉, 모델을 훈련시키는 데 사용되는 정답 데이터를 의미합니다. GT는 모델이 학습하면서 참조하는 기준 데이터이며, 정확한 GT 구축은 모델 성능에 직접적인 영향을 미칩니다.

GT가 중요한 이유
✔️ 모델이 입력 데이터에 대해 올바른 출력을 생성할 수 있도록 정답을 제공합니다.
✔️ 데이터 품질이 높을수록 모델의 학습 정확도가 향상됩니다.
✔️ 불필요한 재학습을 줄이고, 모델 개발 시간을 단축할 수 있습니다.

0. 시작하기 전에: 왜 데이터 검수가 중요한가요?

위에서 언급된 것처럼, 라벨링 데이터의 품질과 정확성이 AI 모델의 성능을 결정하는 요소 중 하나 입니다. 검수 과정을 거치지 않으면, 학습된 모델이 예상보다 낮은 성능을 보일 가능성이 높아지고, 이를 수정하기 위해 추가적인 시간과 비용이 발생할 수 있습니다. 특히, 라벨링 과정에서 발생한 실수나 라벨러 간의 해석 차이는 모델 성능에 부정적인 영향을 미칠 수 있습니다.

따라서, 데이터 라벨링이 끝난 후 반드시 검수(리뷰) 과정을 거쳐 정확한 Ground Truth(GT)를 구축하는 것이 필수적입니다. 검수를 통해 데이터의 품질을 보장하면, 더 높은 성능의 모델을 구축할 수 있으며, 이후 생성형 AI를 활용한 합성 데이터 생성에도 신뢰성과 정확성을 높일 수 있습니다.


1. 라벨링이 끝난 후 1차 검수(리뷰 모드)로 정확도 높이기

라벨링 작업이 완료되면, 제출(Submitted) 상태의 라벨을 필터링한 뒤 리뷰 요청(Request Review) 기능을 사용하여 리뷰어(Reviewer)를 지정하고 검수를 요청합니다. 👉 리뷰어 역할 확인하기

💡
리뷰 모드란?
리뷰 모드는 작업자가 라벨링한 결과물을 검수하고 승인(Approve) 또는 반려(Reject)할 수 있는 기능입니다. 검수 과정에서 라벨링이 기준에 맞지 않거나 수정이 필요한 경우, 즉시 편집하여 반영할 수 있습니다. 또한, 모든 검수 결과는 기록으로 남아 추적이 가능하며, 필터 기능을 활용해 승인된 라벨과 반려된 라벨을 쉽게 검색할 수 있습니다.
👉리뷰 모드 자세히 보기

1차 검수 과정에서는 어떤 것을 주로 확인하나요?

이제, 리뷰 요청을 받은 리뷰어는 할당된 라벨에 대해 1차 검수를 진행합니다. 이 과정에서는 리뷰 모드를 활용하여 라벨링이 의도에 맞게 작업되었는지 확인할 수 있습니다.

  • 라벨링된 데이터 검토: 제출(Submitted)된 라벨의 정확성과 기준에 부합하는지 확인합니다.
  • 오류 수정: 라벨이 부정확하거나 기준과 다를 경우 수정합니다.
  • 승인 또는 반려: 검수가 완료된 데이터는 승인하거나, 필요 시 반려하여 재작업을 요청합니다.

1차 검수 주요 체크 사항
1. 클래스가 올바르게 적용되었는지?
2. 객체의 위치와 크기가 정확한지?
3. 중복되거나 누락된 객체가 없는지?
4. 불필요한 객체가 포함되지 않았는지?

검수 과정에서 모든 라벨이 정상적으로 적용되었다면, 승인(Approve) 처리를 진행합니다. 1차 검수를 통과한 데이터는 매니저 레벨 이상의 사용자가 추가 검수를 할 수 있습니다.

⚠️
반려된 라벨의 우선 처리 방식
예를 들어, 라벨러가 자동차를 라벨링해야 하는 가이드라인을 받고 10개의 라벨을 할당받았으나, 그중 2개를 트럭으로 잘못 라벨링하여 제출한 경우, 리뷰어는 이를 반려하게 됩니다. 그 다음, 라벨러가 진행 중이던 나머지 8개의 라벨링 작업보다 반려된 2개의 라벨이 우선적으로 수정되도록 작업 순서가 조정됩니다.
이러한 프로세스를 통해 작업자는 이슈를 바로 확인하고 이후 남은 8개의 라벨을 올바르게 작업할 수 있도록 유도됩니다.

2. 매니저/어드민 레벨의 2차 검수로 데이터 품질 확보

1차 검수가 완료되면, 매니저/어드민 레벨 사용자가 승인된 라벨 필터링하여 2차 검수를 진행합니다. 이 단계는 GT 데이터 품질과 정확도를 한층 더 높이기 위한 과정입니다. 이때, 반려된 라벨은 다시 라벨링 작업을 진행해야 하며, 라벨의 상태가 다시 작업 중(In Progress)으로 변경됩니다.

2차 검수 과정에서는 어떤 것을 주로 확인하나요?

2차 검수는 라벨링 데이터의 일관성과 정확성을 최종적으로 확인하는 과정으로, 1차 검수에서 승인된 라벨을 다시 한번 검토하여 라벨링 작업이 일관되게 유지되었는지 확인합니다.

승인(Approve)된 라벨의 최종 체크 사항
1. 라벨러가 라벨링 기준을 정확히 이해하고 적용했는지 여부
2. 리뷰어가 일관된 기준으로 적절한 검수를 진행했는지 확인
3. 매니저가 최종 라벨링된 데이터를 검증하여 데이터 품질을 보장

✔️ 이렇게 2차 검수 과정을 거쳐 승인된 데이터는 라벨러, 리뷰어, 매니저가 모두 동일한 기준과 해석을 공유하고 있음을 의미합니다. 이렇게 검증된 데이터는 신뢰도 높은 GT(Ground Truth) 데이터로서 모델 학습에 즉시 활용할 수 있습니다.

⚠️
라벨링 오류 유형 파악 및 피드백
라벨링 작업은 여러 라벨러가 참여하므로 다양한 유형의 오류가 발생할 수 있습니다.
1. 객체의 경계를 정확하게 지정하지 못하는 경향이 있거나,
2. 객체를 누락하거나 잘못된 클래스로 분류하는 경향이 나타날 수 있습니다.
검수 과정에서 반복적으로 발견되는 문제가 있다면 작업자와 피드백 세션을 진행하여 앞으로의 오류를 줄이는 것이 좋습니다. 패턴을 파악하여 라벨러별 맞춤 피드백을 제공하면, 전체적인 라벨링 품질을 효율적으로 관리할 수 있습니다.

효율적인 라벨링 검수 전략

매니저는 검수 과정에서 아래와 같이 각 라벨러가 작업한 데이터의 일관성을 빠르게 확인하는 전략을 사용할 수 있습니다.

  • 라벨러가 제출한 라벨을 필터링하여 검토: 특정 리뷰어 또는 라벨러가 제출한 라벨만 필터링하여, 검수할 데이터를 선정합니다.
  • 가장 오래된 라벨과 가장 최근에 제출된 라벨 비교: 해당 라벨러가 처음 작업한 데이터와 가장 최근 작업한 데이터를 비교하여 라벨링 기준이 일관되게 적용되었는지 확인합니다. 이를 통해 중간에 제출된 모든 데이터를 하나하나 확인하지 않더라도, 전체적인 작업 품질을 빠르게 파악할 수 있습니다.

이슈 관리 및 문제 해결

2차 검수 과정에서도 오류가 발견되거나 수정이 필요한 경우, 이를 이슈 스레드 기능을 활용해 기록하고, 담당자와 논의할 수 있습니다. 👉 이슈 관리 기능 자세히 보기

또한, 아래 두 가지 지표를 함께 살펴보면 반복적으로 어려움을 겪고 있는 라벨러를 파악할 수 있으며, 이를 바탕으로 보다 빠르고 효과적인 피드백을 제공할 수 있습니다.
1. 리뷰 라운드가 높은 순서대로 검토하여, 여러 번 검수가 이루어진 라벨부터 우선으로 확인 👉 리뷰 통계 및 필터링 자세히 보기
2. 프로젝트 애널리틱스에서 라벨링 시간이 가장 오래 걸린 데이터 분석 👉 프로젝트 분석 및 리포트 자세히 보기


3. 이슈 해결로 최종 검수 및 GT(Ground Truth) 데이터 완성

이슈 필터링을 통한 최종 검수

이슈가 모두 기록되었다면, 이슈를 남긴 유저로 필터링하여 최종 검수를 진행합니다.

  1. 최종 필터링
    ✅ 리뷰에서 승인된 라벨
    ✅ 이슈를 남긴 사람이 어드민인 라벨
  2. 이슈별 검토: 각 라벨에 남겨진 이슈를 하나씩 확인하고, 오류나 누락된 정보를 점검합니다.
  3. 최종 수정: 검토 과정에서 발견된 문제를 수정하여 데이터를 최종적으로 정리합니다.
  4. 이슈 상태 변경: 모든 수정이 완료되면, 해당 이슈의 상태를 해결됨으로 업데이트합니다.

라벨 태그(Label Tag) 기능을 활용한 최종 데이터 관리

이슈 해결 여부를 더욱 체계적으로 관리하기 위해 라벨 태그를 활용할 수 있습니다. 예를 들어, 최종 검수를 마치고 모든 이슈가 수정된 라벨에 최종확인 또는 3차 검수 완료 같은 태그를 추가하면, 이후 검토가 필요한 데이터를 쉽게 필터링할 수 있습니다.
👉 태그, 필터 및 라벨 검색 자세히 보기

필터 선택 필드에서 '이슈' -> '미해결/해결된 이슈'가 있는지 필터링
💡
모든 이슈가 수정된 라벨에 태그를 지정하여 관리하면 데이터의 최종본을 정확하게 구분할 수 있습니다. 이를 통해 최종 검수된 데이터를 모델 학습용으로 활용하거나, 필요한 데이터만 선별하여 내보낼 수 있습니다.

4. 검수 완료 후, AI를 통한 미스라벨 찾기

모든 검수 프로세스가 완료된 후에도 발견하기 어려운 오류를 찾기 위해 슈퍼브 플랫폼의 오토큐레이트 기능으로 AI를 통한 미스라벨 검증이 가능합니다. AI 기능을 통해 최종 GT 데이터의 정확성, 일관성, 누락 여부를 한 번 더 검증하여 문제 발생 가능성을 최소화할 수 있습니다.

오토 큐레이트(미스라벨 찾기)를 활용한 휴먼 에러 검증

검수가 완료된 데이터에서도 사람이 놓칠 수 있는 오류가 있을 수 있습니다. 이를 보완하기 위해 슈퍼브 큐레이트의 '오토 큐레이트-미스라벨 찾기(Find Mislabels)' 기능을 활용하면 보다 효율적으로 잘못된 라벨을 검출하고 수정할 수 있습니다.
👉 라벨링 오류 찾기(Find Mislabels)

💡
미스라벨 찾기 원리
각 이미지 데이터 그룹에서 주변 그룹과의 관계를 분석하여 잘못된 데이터를 식별합니다.
예를 들어, 강아지 사진에 고양이 라벨이 붙어 있는 경우, 주변 이미지 그룹이 모두 고양이 사진이라면 해당 데이터는 잘못 분류되었을 가능성이 크다고 판단합니다. 이러한 데이터를 빠르게 찾아 수정한다면, 모델이 더 정확한 학습을 진행할 수 있습니다.

5. 최종 요약: 라벨링 검수의 전체 워크플로우

슈퍼브 플랫폼을 통해 쉽고 빠르게 데이터 품질을 보장하기 위한 체계적인 검수 단계를 거쳐 신뢰할 수 있는 GT(Ground Truth) 데이터를 구축할 수 있습니다.

  1. 라벨링(라벨러): 데이터를 플랫폼에 라벨링합니다.
  2. 1차 검수(리뷰어): 리뷰 모드를 통해 라벨을 검수하고 승인 또는 반려합니다.
  3. 2차 검수(매니저, 어드민): 승인된 라벨을 다시 검토하고 이슈를 기록합니다.
  4. 이슈 해결(어드민): 이슈를 필터링하여 최종 검수 및 수정 작업을 수행합니다.
  5. 최종 GT 데이터 완성: 검수가 완료된 데이터로 모델 학습을 시작할 수 있습니다.
📍검수된 데이터로 모델 학습 후, 모델 진단을 활용한 데이터 검증과 보완
검수된 데이터가 실제 모델 학습에 적합한지 판단하는 것도 중요합니다. 슈퍼브 플랫폼에서 직접 모델을 학습시킨다면, 모델 진단 기능을 활용하여 데이터의 취약점을 분석하고 보강이 필요한 부분을 확인할 수 있습니다.

모델 진단을 통한 인사이트
- 모델의 성능이 낮은 원인이 데이터 부족인지, 데이터 정확도가 떨어지는 것인지 파악할 수 있습니다.
- 특정 클래스나 특정 유형의 데이터에서 모델이 오작동하는 패턴을 분석할 수 있습니다.
- 추가로 보강해야 할 데이터가 있는지 확인하여 효율적으로 데이터셋을 확장할 수 있습니다.

효율적인 모델 개선 프로세스
처음부터 무결한 데이터를 구축하려는 시도는 많은 시간과 비용이 소요될 수 있습니다. 빠르게 모델 학습을 진행한 후에 모델 진단 기능을 활용하여 부족한 부분을 분석하고 보강하는 방식이 더 효율적입니다.
1. 선별적 데이터 보강 → 핵심 데이터만 보강하여 최적의 학습 데이터셋 구성
2. 모델 진단으로 취약점 분석 → 데이터 추가나 보강 필요성 판단
3. 빠른 모델 학습 → 플랫폼에서 즉시 학습 진행

6. 마무리

라벨링 작업은 AI 모델의 기초를 다지는 작업인 만큼 검수 과정의 철저함이 중요합니다. 이번 레시피에서 소개한 리뷰 모드와 이슈 관리 기능을 활용하면 더욱 정확하고 신뢰할 수 있는 GT 데이터를 구축할 수 있습니다.

📌 슈퍼브 플랫폼을 활용하면, 빠르게 모델을 학습시키고 데이터의 부족한 부분을 진단하여 최적의 보강 전략을 수립할 수 있습니다. 데이터 검증과 보강 과정을 최적화하여, 고품질 AI 모델을 구축해보세요! 🚀