컴퓨터 비전 데이터셋 - 공공 데이터셋 살펴보기
공공 데이터셋(Open Dataset)이란?
데이터셋은 머신러닝 모델을 학습시키고 테스트하는 데에 사용되는 이미지 또는 영상과 같은 샘플의 집합으로, 주로 특정 주제나 도메인에 속하는 사례들을 포함합니다.
공공 데이터셋(혹은 오픈 데이터셋)은 누구나 다운로드 해 자유롭게 사용할 수 있는 데이터셋입니다. 라벨링 되어있는 경우가 대부분이며, 오브젝트 검출이나 이미지 분류와 같은 다양한 지도 학습(supervised learning) 작업의 정답 데이터셋으로 활용될 수 있습니다. 지난 10년간 컴퓨터 비전 연구가 빠르게 발전할 수 있었던 데에는 라벨링된 데이터셋의 역할이 컸다고 말할 수 있습니다.
이미지 데이터셋 활용하기
컴퓨터 비전용으로 공공 데이터셋을 활용하는 것의 어려움은 구조화 데이터셋과 비구조화 데이터셋의 차이를 짚어보는 것을 통해 이해할 수 있습니다. 표 형태 또는 구조화 데이터셋
은 데이터 포인트가 테이블이나 좌표로 정리된 형태로, 열과 행이 특정 변수나 데이터셋 필드에 대응하게 됩니다. 이러한 구조 덕에 쿼리나 통계적 방법론을 적용해 데이터와 공식을 분석해 데이터를 변형시켜 머신러닝 학습에 활용할 수 있는 특징들을 추출해냅니다.
한편, 컴퓨터 비전 태스크용 데이터셋은 일정한 구조가 없기 때문에 데이터 탐색과 학습용 데이터 전처리 방식이 매우 다릅니다. 비구조화 데이터셋은 다음과 같은 요소들로 구별할 수 있습니다.
- 미디어 파일이 포함된 큰 데이터셋이기 때문에 다운로드 또는 이동에 많은 광대역을 차지합니다.
- 일반적인 데이터셋은 이미지와 이미지 라벨 매핑을 포함한 CVS 파일이 들어있는 폴더로 구성됩니다. 이미지를 라벨과 이에 상응하는 바운딩 박스로 시각화하기 위해서는 분석용 이미지를 재생성하는 수십줄의 코드를 작성해야 합니다.
- 이미지 데이터셋을 작업할 때 이미지 라벨 매핑을 망가뜨리지 않도록 항상 주의해야 합니다. 매핑은 이미지별로 여러개의 라벨을 가지는 동시에 바운딩 박스가 각각의 라벨과 조합되기 때문에 오브젝트 검출이나 세그멘테이션 태스크보다도 복잡합니다.
- 이미지는 특정 뉴럴 네트워크가 가진 하나의 기준에 부합하도록 사이즈가 조정되어야 하며 정규화되어야 합니다. 일반적으로 학습에 더 많은 변형을 도입하기 위해 데이터 증강과 변형이 권장됩니다. 다시 말해 별도의 데이터셋을 생성해야 하며, 이는 곧 상당한 시간과 저장 공간이 필요하다는 것을 뜻합니다.
- 데이터셋에서 수천 개의 이미지를 탐색하여 학습을 개선할 수 있는 의미 있는 가정을 찾는 것은 중요하지만, 이를 위한 도구와 프레임워크가 확립되어 있지 않아 매우 어려운 것이 현실입니다. 컴퓨터 비전 실무자는 거의 대부분 어둠 속에서 작업해야 하는 경우가 많습니다.
컴퓨터 비전 데이터셋 탐색하기
표 형태의 데이터와 마찬가지로 이미지 데이터셋은 역시 다운로드 및 전처리에 상당한 시간과 자원이 들기 때문에 우선적으로 탐색해야 합니다.
최소한으로만 이미지 데이터셋을 탐색해 유즈 케이스에 적합하지 않다는 것을 빠르게 깨달을 수 있다면 이미지 데이터를 붙잡고 씨름하며 처리하는 시간을 상당 부분 줄일 수 있습니다. 하지만 대부분의 경우, 좋은 데이터 탐색을 통해 모델 퍼포먼스를 이해하고 개선하는 데에 필요한 인사이트를 얻을 수 있습니다.
공공 컴퓨터 비전 데이터셋은 특정 기업이나 크라우드 소싱으로 전 세계의 많은 사람들에 의해 라벨링됩니다. 따라서 이 데이터셋이 완벽할 것이라고 생각하면 절대 안됩니다.
시각적으로 이미지 데이터셋을 탐색하면 아래와 같은 점을 깨달을 수 있습니다.
- 데이터의 전체적인 품질을 평가할 수 있습니다. 가능한 한 최대로 데이터셋을 시각적으로 검수하세요. 이미지에 명백한 조작이 없는지 다시 한번 확인해보세요.
- 데이터셋이 제공하는 클래스를 검수할 수 있습니다. 정말 필요하거나 기대했던 클래스가 맞나요?
- 오브젝트 검출용 어노테이션 또는 세그먼트의 품질을 체크해보세요. 라벨링이 잘못된 경우는 없나요? 어노테이션의 품질은 만족스러운가요?
- 어노테이션이 누락되었거나 일부만 라벨링 되어있는 사례는 없나요?
- 각 클래스마다 몇개의 사례가 포함되어 있나요? 그 수에 눈에 띄는 불균형은 없나요?
컴퓨터 비전용 공공 데이터셋을 제공하는 곳
인터넷 상으로 수많은 공공 데이터셋을 이용할 수 있습니다.
다음은 대한민국 정부 혹은 커뮤니티가 지속적으로 유지 및 업데이트하고 있는 컴퓨터 비전 데이터셋 애그리게이터의 리스트입니다. 이 리스트에 믿을 수 있는 고품질의 오픈 소스 데이터셋만 기재해되어 있습니다.
AI Hub (AI 허브)
AI 허브는 과학기술정보통신부와 한국지능정보사회진흥원(NIA)가 운영 중인 AI 통합 플랫폼입니다. AI 허브에서 국내외 공공 데이터셋 리스트를 한눈에 확인할 수 있습니다.
이러한 오픈 데이터셋을 통해 직접 AI 모델을 개발하실 수도 있지만, 이는 일부 소규모 기업 혹은 머신러닝 개발자 부재 이슈를 겪고 있는 기업에게는 다소 어려운 작업입니다.
슈퍼브에이아이는 이러한 기업들의 고민을 해결해 드리고자, 오픈 데이터셋으로 학습하여 다양한 산업에 적용 가능한 AI 모델을 제공하는 슈퍼브 모델 서비스를 제공합니다.
Datasets
데이터셋 탐색에 매우 소중한 자료가 많은 사이트입니다. 이 사이트에서는 다양한 종류의 데이터셋과 해당 데이터셋으로 학습시킨 최첨단 모델과 관련된 논문도 확인할 수 있습니다. 오브젝트 검출과 같은 태스크나 모달리티 기준의 필터를 제공해 직관적으로 사용할 수 있습니다.
Kaggle
데이터셋과 머신러닝 경진대회에 대한 자료를 제공하는 가장 잘 알려진 사이트입니다.
구글 데이터셋 검색(Dataset Search from Google)
데이터셋 검색은 데이터셋용 검색 엔진입니다. 간단한 키워드를 입력해 웹 상에 존재하는 수천개의 저장소에 호스팅된 데이터셋을 검색할 수 있습니다.
구글 오픈 이미지(Google Open Images)
구글 오픈 이미지는 사실 애그리게이터가 아니라 데이터셋입니다. 최신 버전인 버전 6은 9백만장에 이르는 이미지에 이미지 레벨의 라벨링, 오브젝트 바운딩 박스, 오브젝트 세그멘테이션 마스크, 시각적 관계 및 로컬라이징 된 내러티브 등을 포함하는 어노테이션이 추가되어 있습니다.
웹 상의 컴퓨터 비전 데이터셋(CV Datasets on the web)
검출, 분류, 인식, 트래킹, 세그멘테이션과 같은 컴퓨터 비전 태스크를 기준으로 분류된 데이터셋 저장소입니다.
Visual Data Discovery
상세한 검색 필터로 컴퓨터 비전 데이터셋을 찾고 공유하기에 안성맞춤인 곳입니다.
마치며
대부분의 경우 딥뉴럴 네트워크는 컴퓨터 비전 태스크에 기본적으로 필요한 요소입니다. 딥 뉴럴 네트워크는 이미지 데이터에서 의미있는 특징을 추출하는 데에 사람보다 더 뛰어나기 때문에, 작동 원리를 이해할 수 없는 블랙 박스와 같은 것으로 취급되고는 합니다. 그래서 우리가 할 수 있는 것이라고는 네트워크에 수백만장의 이미지를 투입해 최선의 결과를 낼 수 있도록 기다리는 것 뿐입니다.
하지만 슈퍼브에이아이는 초기 단계의 데이터 탐색·선별이 성공에 중요한 요소라고 믿어 의심치 않습니다. 최소한으로만 이미지 데이터셋을 탐색·선별해 유즈 케이스에 적합하지 않다는 것을 빠르게 깨달을 수 있다면 이미지 데이터를 붙잡고 씨름하며 처리하는 시간을 상당 부분 줄일 수 있습니다. 하지만 대부분의 경우, 좋은 데이터 탐색·선별을 통해 모델 퍼포먼스를 이해하고 개선하는 데에 필요한 인사이트를 얻을 수 있습니다.