슈퍼브에이아이 “AI 학습 데이터는 양보다 질...'고품질 전환'으로 부족 해결해야”

슈퍼브에이아이 “AI 학습 데이터는 양보다 질...'고품질 전환'으로 부족 해결해야”
이현동 슈퍼브에이아이 부대표 (출처 : AI타임스)

기업들의 인공지능(AI) 학습용 데이터 부족에 대한 문제 인식이 지난해보다 10% 늘어났다는 설문 조사 결과가 최근 해외에서 발표됐다.

이는 '챗GPT'나 '제미나이'와 같은 범용 AI 모델에 관한 것이 아니라, 맞춤형 모델을 구축한 기업에 관한 것이라 주목됐다. 분기 또는 반기마다 모델을 재학습하다 보니, 데이터 부족 현상이 갈수록 심각하게 느껴진다는 내용이다.

지난 2018년부터 비전 AI 개발에 매달린 슈퍼브에이아이(대표 김현수)도 이 점에 동의했다. 이현동 슈퍼브에이아이 부대표는 "데이터 부족은 현장에서 늘 경험하는 일"이라고 말했다.

그는 최근 한 기업과 AI 도입을 논의하며 겪은 경험을 소개했다. "이 기업은 하루 300만장에 달하는 이미지 데이터가 생산된다고 밝혔지만, 확인 결과 AI 학습에 사용할 만한 고품질 데이터는 0.6%에 불과한 2만장에 불과했다"라는 말이다. 즉, 일반 데이터와 고품질 데이터의 불균형이 심각한 수준이다.

"기업이 과거부터 아무리 많은 데이터를 쌓아왔다고 해도 AI 앞에서는 없는 것이나 마찬가지"라며 "AI 성능 향상에 도움이 되는 고품질 데이터는 턱없이 부족한 게 사실"이라고 지적했다.

구조적으로 당연한 일이라고 설명했다. AI의 성능을 향상하려면 AI가 어려워하는 특이 데이터나 디바이스에서 직접 발생하는 '엣지 케이스'의 데이터를 학습하는 게 효과적이다. 이런 데이터는 수집 자체가 어렵다.

그래서 슈퍼브에이아이가 사업을 시작하며 가장 먼저 집중한 분야는 데이터 라벨링이다. 이 분야 인지도는 국내를 넘어 해외에서도 알아줄 정도다. 

이 부대표는 데이터 문제를 해결하기 위해서는 ▲라벨의 일관성 ▲원시(raw) 데이터의 다양성 ▲AI의 용도와 관련이 있는 데이터의 균형(편향 제거) 등 세가지가 중요하다고 강조했다.

하지만 가장 기본적이고 중요한 라벨링부터 일관성에서 문제가 많이 생긴다고 지적했다. 데이터 설계와 수집, 저장, 라벨링 등 '고품질 데이터를 구축하는 전문성'이 AI 기능 발전에 비해 아직 많이 뒤떨어진다는 설명이다. 이래서야 모델이 아무리 뛰어난들, 좋은 성능을 기대하는 것은 무리다.

그래서 슈퍼브에이아이도 데이터를 무작정 많이 수집하는 것보다 저품질 데이터를 고품질로 전환하는 데 힘을 싣는다고 밝혔다.

이 문제는 말처럼 쉬운 것은 아니다. 아무 데이터나 고품질화가 가능한 것도 아니고, 정작 데이터 가공에 들인 시간과 비용에 비해 성능 향상에 기여하지 못하는 문제도 발생할 수 있다.

예를 들어 자율주행의 경우, 맑은 날씨에 주간에 촬영된 영상은 아무리 고품질이라고 해도 이미 충분히 데이터가 확보된 상태라 비용 대비 효과가 크지 않다. 상대적으로 데이터가 부족한 야간에 눈길에서 발생한 사고 영상 등에 집중하는 것이 AI 성능 향상에는 훨씬 큰 도움이 된다.

슈퍼브에이아이는 이런 면에서 차별화된 기술을 보유했다고 소개했다. 

우선 특정 데이터를 학습에 사용하면 모델 성능 향상(또는 하락)에 얼마나 기여할지를 먼저 평가한다. 이를 '데이터 인플루언스' 과정이라고 부른다. 

이어 원시 데이터 풀에서 라벨링을 거쳐야 할 중요 데이터를 골라내는 '액티브 러닝' 기술을 가지고 있다. 이 두 단계는 단순 프로세스가 아닌, 지난 6년간의 경험을 통해 축적한 노하우의 결과다.

이를 통해 고품질 데이터가 될 만한 소스를 선별, 빠른 속도로 데이터를 확보하고 AI 학습에 투입할 수 있다. 슈퍼브에이아이가 말하는 데이터 병목 해결책은 바로 여기에 있다. 

이는 이미 '슈퍼브 라벨'과 '슈퍼브 큐레이트'라는 제품으로도 출시됐다. 여기에 '슈퍼브 모델'까지 합쳐, 하나의 플랫폼에서 AI 개발 전체 사이클을 아우르는 AI 구축 플랫폼을 구축한 것이 이 회사의 대표 제품이다.

합성 데이터 생성 예시 (출처 : 슈퍼브에이아이)

여기에 얼마 전에는 합성 데이터까지 도입했다. 이는 '야간에 눈길에서 발생하는 사고 영상'과 같이 데이터 자체가 드문 경우에 필요하다. 

합성 데이터 생성에 드는 비용은 실제 데이터 수집에 드는 비용에 비해 매우 저렴하다. 물론 생성 AI의 환각이나 편향으로 인해 생성 데이터를 100% 신뢰할 수는 없다. 또 합성 데이터를 과도하게 사용하면 모델 붕괴 가능성이 있어, 이런 점에 유의해야 한다고 밝혔다.  

하지만 실제 데이터 확보가 어려운 특정 구간부터는 합성 데이터의 도입은 불가피해질 것으로 봤다. 그래서 이 회사는 합성 데이터에도 데이터 평가 기술 및 선별 기술을 함께 활용한다. 이를 통해 문제가 될 만한 부분을 최대한 걸러낸다는 설명이다.
 
제조업 중심의 산업 AI는 이제 본격적인 확대 단계로 접어들었다. 정부에서도 이를 적극 강조하며 'AI 자율 제조 전략'을 내놓았다. 그중 비전 AI는 큰 비중을 차지한다.

이현동 부대표는 "우리가 보유한 데이터 평가 및 선별 기술을 활용하면 수집이 어렵고 비용이 많이 드는 시나리오에 대한 데이터 병목 문제도 효과적으로 해결할 수 있을 것"이라며 "중요한 것은 데이터 수집이 아닌, 데이터 품질 전환"이라고 거듭 강조했다.