김계현 슈퍼브에이아이 CRO “AI 개발 핵심은 데이터, 양보다 가치에 집중해야”

김계현 슈퍼브에이아이 CRO “AI 개발 핵심은 데이터, 양보다 가치에 집중해야”

산업 분야에서 ‘만에 하나’는 매우 위험한 경우의 수다. 자율주행에서 비전 카메라가 만 번을 정확하게 식별해도 단 한 번 잘못 식별하면 큰 사고로 이어질 수 있다. 제조 분야도 마찬가지다. 불량률 1만분의 1은 경우에 따라 신뢰성이 떨어지는 수준일 수 있다. 

인공지능(AI)은 이러한 ‘만에 하나’의 난관을 해결해주는 핵심 기술이다. 다만 이를 위해서는 좋은 데이터를 확보해야 하고 제대로 된 관리가 이뤄져야 한다는 조건이 붙는다. 하지만 많은 기업들은 여전히 데이터 문제로 골머리를 앓고 있다. 자율주행에서 비전 카메라가 만 번을 정확하게 식별해도 단 한 번 잘못 식별하면 큰 사고로 이어질 수 있다. 제조 분야도 마찬가지다. 불량률 1만분의 1은 경우에 따라 신뢰성이 떨어지는 수준일 수 있다. 

현재 많은 기업들이 외부 AI 시스템을 도입하거나 AI 조직을 구성해 자체적인 AI를 만들고 있으나 여전히 어려움은 많다. 슈퍼브에이아이 김계현 CRO(최고연구책임자)는 “기업의 규모를 떠나 누구든 쉽게 AI를 도입하고 내부 데이터를 좀더 체계화 할 수 있어야 한다”고 말한다. 좋은 데이터를 확보하고 관리하는 것에 초점을 맞춰 AI 개발 플롯폼을 구축한 슈퍼브에이아이에게 성공적인 AI 결과물을 얻기 위한 데이터의 가치에 대해 들어봤다.

슈퍼브에이아이 김계현 CRO / 슈퍼브에이아이

― AI에서 데이터를 중요하게 보고 있는 것 같다.

“AI 개발의 핵심은 결국 데이터다. 많은 사람들이 AI 모델을 학습시키는 것이 가장 중요한 단계라고 생각하지만 실제로는 그보다도 데이터의 품질이 더 중요한 경우가 많다. 모델을 아무리 최적화해도 학습하는 데이터가 부정확하거나 적절하지 않으면 기대한 성능을 내기 어렵다.

슈퍼브에이아이는 데이터의 취득부터 정제, 라벨링, 그리고 관리까지의 모든 과정을 중요하게 다룬다. 보통 정의하는 AI 개발 과정 즉, 엠엘옵스(MLOps)는 데이터 수집 - 데이터 선별 - 라벨링 - 학습 - 성능 평가 및 배포 - 모니터링 과정을 거친다. 이 과정에서 얻어지는 새로운 데이터를 다시 라벨링하고 학습하는 등의 사이클을 반복한다. 사실 이 전체 AI 개발 과정을 하나의 플랫폼으로 제공할 수 있는 기업이 많지 않다. 그 중 하나가 슈퍼브에이아이다.”



― 데이터의 중요성은 자율주행이나 제조업 같은 실무 환경에서도 체감할 수 있을 것 같다.

“실무에서 특히 자율주행과 같은 고도화된 AI 기술을 사용할 때 데이터의 중요성은 매우 크다. 예를 들어 자율주행 시스템이 하얀색 밴을 제대로 감지하지 못하는 문제가 발생할 때가 있는데 이런 인식 오류는 학습 데이터에 하얀색 밴이 포함되지 않았거나 너무 적게 포함됐기 때문에 나타난다. 결국 문제 해결을 위해서는 해당 데이터를 추가로 수집하고 라벨링하는 과정이 필요하다.”


― 슈퍼브에이아이는 기업들이 겪는 데이터 문제, AI 개발의 어려움을 어떻게 해결해 주나. 

“자율주행이나 제조 산업에서 데이터는 매우 중요하지만 필요한 데이터를 확보하기도 쉽지 않다. 가령 제조 라인에서 불량 검수 AI를 적용하기 위해서는 불량 이미지 데이터가 필요하지만 하루에 하나 나올까 말까 하는 경우도 많다. 이를 해결하기 위해 검수 범위를 넓히게 되면 비용 부담이 커지게 된다. 우리가 해결하고자 하는 대표적인 사례다.

슈퍼브에이아이는 데이터 관리뿐만 아니라 관리된 데이터를 기반으로 AI 모델도 만들어준다. 핵심은 AI 성능을 높여주기 위한 데이터 관리에 더 초점이 맞춰져 있다고 보면 된다. 그러니까 AI 성능을 높이기 위해 모아야 할 데이터, 버려야 할 데이터를 알려주고 품질이 낮거나 라벨링이 잘못된 데이터를 정제를 할 수 있도록 찾아주는 등의 역할을 한다는 것이다. 이는 사람이 모두 할 수 있는 일이지만 데이터 양이 많아지면 인력 비용이 상승하고 시간 대비 효율성이 떨어질 수밖에 없다.”



― 좀 더 구체적으로 설명해달라.

“슈퍼브에이아이의 플랫폼은 데이터를 비슷한 유형별로 자동으로 그룹핑하고 희소한 데이터나 유사한 데이터를 빠르게 찾아낸다. 예를 들어 100만 장의 데이터를 한 번에 플랫폼에 업로드하면 시스템이 자동으로 이를 분석하고 그룹화 한다. 각 그룹은 비슷한 유형의 데이터를 모아놓기 때문에 고객은 특정 상황에 해당하는 데이터가 얼마나 부족한지 한눈에 파악할 수 있다. 이런 식으로 데이터를 체계적으로 관리하면 AI 성능을 저해할 수 있는 데이터의 공백을 빠르게 찾아내고 보완할 수 있게 된다.

특히 그룹핑을 통해 희소한 데이터를 찾아내기 더 쉬워진다. 가령 100만 장에서 한 장의 불량 데이터를 찾는 시간과 그룹핑한 후에 오름차순으로 정렬해서 한 두 장의 데이터만 분류돼 있는 그룹만 확인하는 시간과 비교하면 쉽게 이해할 수 있을 것이다.”

슈퍼브에이아이의 큐레이트 플랫폼 '슈퍼브 큐레이트' 스캐터뷰 화면. 비슷한 유형끼리 그룹핑 되어 있는 것을 확인할 수 있다. 오른쪽 화면처럼 오름차순으로 그룹핑을 나열할 수도 있다. / 슈퍼브에이아이

― 희소한 데이터는 불량률을 낮추는 데 꼭 필요한 데이터지만 양이 너무 적다는 문제가 있다.  

“우선 고객의 커스텀 데이터(고유 데이터)를 기반으로 학습된 생성형 AI를 활용한다. 왜냐하면 슈퍼브에이아이에서 사용자 데이터에 맞춰 모델을 학습하고 서빙할 수 있는 기능까지 다 제공하고 있기 때문에 고객은 원하는 데이터를 손쉽게 생성할 수 있다.

핵심은 일반적인 AI 모델이 아닌 고객 데이터로 커스텀화 된 생성형 AI 모델이라는 부분이다. 가령 케이블 전문 기업이라고 한다면 케이블 생산에서만 발생되는 불량 이미지 데이터가 있을 것이다. 이를 일반적인 AI 모델로 생성한다면 실제 생산 라인과는 동떨어진 이미지가 만들어질 것이다. 반면 커스텀 AI 모델은 실제 발생될 수 있는 불량 이미지를 만들어낸다. 사용자는 여기에 배경을 바꾼다거나 하는 수정을 통해 좀더 원하는 데이터로 만들어나갈 수 있다.”



― 커스텀 오토 라벨 기능도 많이 알려져 있다.

“AI를 활용해 자동으로 라벨링하는 기능이다. 처음에 데이터가 들어오면 전문 지식을 갖춘 라벨러들이 라벨링을 하게 된다. 어느 정도 라벨링 과정을 거치면 플랫폼 안에서 AI 모델을 만들 수 있다. 이를 통해 자동으로 라벨링을 할 수 있다. 사람이 1부터 100까지 라벨링하는 게 아니라 1부터 10까지만 하고 11부터 100까지는 커스텀 오토 라벨을 이용하는 것이다.

물론 자동으로 라벨링할 때 오류가 생길 수 있다. 이를 위해 사전에 AI 모델 학습에 사용했던 테스트 데이터와 비교해 성능 차이를 보일 경우 확인해봐야 할 데이터로 분류하는 방식을 통해 오류를 줄인다. 사실 오토 라벨링 기술은 다른 플랫폼에도 많이 있다. 다만 커스텀 오토 라벨은 내 데이터에 맞는 오토 라벨링이 가능하다는 차이점이 있다.”



― 도요타, 덴소텐 등의 일본 자동자 제조기업은 물론 현대차, 삼성, SK 등 국내 대기업에서 솔루션을 공급하고 있다. 이 기업들이 선택한 이유는.

“언급된 대기업들은 자체적으로도 AI 역량을 갖추고 있다. 다만 모든 분야에 AI를 적용하는 경우는 많지 않다. 우리 솔루션을 사용하는 이유는 플랫폼으로써 AI를 제공하기 때문이라고 본다. 기업에서는 데이터가 매일 매 시간 나올 것이고 규모가 큰 기업일 수록 그 양은 더 많을 것이라고 본다. 이런 경우 슈퍼브에이아이 플랫폼을 통해 관리하면 시간 대비 효율적인 관리가 가능하다.

또 한 가지의 차별점은 고객 피드백을 적극 수용하고 이를 플랫폼에 반영한다는 점이다. 우리는 개발 스프린트가 있어서 버그 개선, 새로운 기능 추가, 고객들이 불편하다고 요청한 부분 등을 2주 단위로 플랫폼에 반영한다.

슈퍼브에이아이에서 제공하는 솔루션들은 SaaS(서비스형 소프트웨어) 형태로 사용할 수 있다. 물론 기업의 프라이빗 클라우드 환경과 플랫폼이 연동되기 때문에 클라우드 환경 제약 없이 사용 가능하다. 조만간 온프레미스(기업이 자체적으로 가지고 있는 서버 형식) 환경에서도 사용할 수 있도록 할 예정이다.”



― 아직 AI를 어떻게 도입해야 하는지 모르는 기업들도 많다. 이런 기업들도 활용할 수 있나.

“우리 솔루션의 특징 중 하나가 AI를 모르는 사람도 실제로 실행하면서 배워나갈 수 있다는 점이다. 설령 막연함을 가지고 있다 하더라도 컨설팅을 통해 AI를 쉽게 도입할 수 있다. 가령 비전 AI를 도입하는 경우라면 어떤 카메라를 구매해야 되고 어떻게 설치해야 되고 취득한 이미지를 어떻게 라벨링해서 최종적으로 AI 시스템을 구축해야 되는지 알기 어렵다. 사실 제대로 된 AI를 구축하기 위해서는 문제 정의부터 잘 해야 한다. 만약 이 부분이 잘 안되면 데이터 취득 과정부터 엉망이 될 수 있고 AI를 통한 기대 효과를 얻을 수 없게 된다. 슈퍼브에이아이는 이를 위한 디자인 상담 컨설팅을 제공한다.”



― 슈퍼브에이아이가 생각하는 AI란 무엇인가.

슈퍼브에이아이가 생각하는 AI는 데이터라는 것을 빼고 볼 수 없다. AI는 데이터에서 만들어진다. 결국 좋은 AI는 좋은 데이터에서 만들어진다. 이는 투자 대비 실질적인 성과를 곧바로 보여준다.

앞으로는 선별된 데이터가 더 중요해 질 것 같다. 최근 여러 초거대 AI 모델들이 등장하는데 이 모델들이 현존 데이터를 거의 다 사용해가는 시점이라는 관점도 있다. 그런 관점에서라면 AI 성능의 발전도 더딜 것이라는 추측이 나온다.

이에 대해 데이터 전문가들은 앞으로는 가치 있는 데이터, 오류 없는 데이터만을 중심으로 학습돼야 하고 그래야 AI 성능이 올라갈 것이라고 말한다. 바꿔 말하면 불량 데이터를 찾아서 정제하는 등의 데이터 선별이 더 중요해질 것이라는 의미이기도 하다. 이제는 데이터의 양이 아니라 좋은 데이터의 가치가 더 중요해질 것이다.”