2021년 AI 학습용 데이터 구축 사업을 준비하는 기업이 꼭 알아야 할 3가지

2021년 AI 학습용 데이터 구축 사업을 준비하는 기업이 꼭 알아야 할 3가지

들어가며

2017년부터 시작된 AI 학습용 데이터 구축 사업은 AI 열풍과 정부 지원 등에 힘입어 매년 규모가 커지고 있습니다. 2020년에 디지털 뉴딜 정책이라는 큰 흐름에 힘입어 연간 수천억대 규모의 사업으로 크게 그 규모가 확장 되었고, 2021년에 역시 이와 유사한 규모로 사업이 수행 될 예정이라, 많은 사업자들의 귀촉이 주목되고 있습니다. 2021년 1월 15일, NIA에서는 2021년 지정과제 공모 후보안을 공개하면서, 2021년 사업의 신호탄을 울렸습니다.

실제로 많은 기업들이 데이터 구축 사업에 뛰어 들고 있습니다. 그런데 한 편에서 이 흐름을 관찰하고 있노라면, 데이터 구축 사업에 성공적으로 안착한 기업과 그렇지 못한 기업 간에 상당한 차이를 목격할 수 있습니다. 사업에 참여할 수 있기를 희망함에도 불구하고 참여할 수 없게 되는 것은 차후에 기업간 큰 차이를 가져오게 될 것이 분명합니다. 빠르게 격동하는 AI 산업에 있어서 경쟁자보다 더욱 신속하고 민첩하게 경험을 쌓고 또 이를 바탕으로 시장을 선점하는 것만큼 중요한 일이 없기 때문입니다. 그러나 이 거대한 흐름 속에서, 당연한 말이겠지만, 욕심 내서 사업에 뛰어드는 그 자체보다는 실제 사업 수주에 성공하고 이를 완수하는 것이 중요합니다.

사업에 참여해 성공하는 게 여러모로 회사의 현재와 미래에 중대한 기여를 할 수 있는 만큼, 사업 참여 및 수행에 성공하고자 한다면 보다 치밀하게 전략을 구상하고 실행할 필요가 있습니다. AI 학습용 데이터 구축 사업의 추세를 더 면밀히 살펴보고 어떤 기업이 사업 공모에 성공했으며 또 어떻게 수행했는지를 살펴본다면 여러분의 기업도 성공의 반열에 합류할 공산이 더 커질 것입니다. NIA에서 주도하고 있는 인공지능 학습용 데이터 구축 사업의 전반부와 성공적인 사업 구성과 실행을 위해 알아야 할 내용을 이 글을 통해 전달하고자 합니다.

NIA의 AI 학습용 데이터 구축 사업을 알아보자

디지털 뉴딜, 데이터댐 사업의 일환으로 한국지능정보사회진흥원(NIA)은 ‘인공지능(AI) 학습용 데이터 구축 사업’을 확대 개시했습니다. NIA는 사업을 통해 개개인이 접하기 힘들었던 양질의 AI 학습용 데이터를 형성하고 공개함으로써, 국민들이 누구나 직접 인공지능을 개발하고 연구할 수 있는 AI 생태계 조성에 힘쓰고자 하고 있습니다.

AI 학습용 데이터 구축 사업은 인공지능 기술 개발 과정에서 기초이자 핵심인 대규모 학습용 데이터를 구축⸱개방하여 인공지능 생태계를 활성화 하는 한 편, 대규모 사업을 통해 일자리 창출을 하고자 하는 목적을 갖고 있습니다. 정부는 2025년까지 무려 총 1300여 종의 데이터를 구축할 예정이라 발표한 바 있습니다. 매년 NIA에서는 당해년도 사업 규모가 어떨지, 어떤 주제의 학습용 데이터를 구축할지 등을 발표하고, 민간으로 부터 사업 공모를 받기 시작합니다. 기업 또는 기관들은 컨소시엄을 구성하여 특정 주제의 데이터 구축 사업에 지원하게 되고, 지정된 사업 기간 안에 학습용 데이터를 구축하고 품질 평가를 받아 학습용 데이터를 제출함으로써 사업을 완수하게 됩니다.

2020년에는 △음성·자연어 △비전 △헬스케어 △교통 △재난·안전·환경 △농축수산 △전략 △기후 △교육/문화 등 10대 분야 150종의 데이터를 선정해 72개의 그룹과제를 최종 도출하였고, 각 기업 및 연구소로부터 공모를 받았습니다.

사업 수주를 넘어, 완수까지의 험난한 길을 안전하게 항해하기 위해 알아야 할 3가지

3년간 진행된 이 사업 속에서, 성공적으로 사업을 수행해 스스로의 위상을 높이는데 성공한 기업이 있는가 하면, 과정 속에서 어려움을 겪으며 고군분투하고, 최악의 한 해를 보내는 기업들도 보게 됩니다. 사업 수행을 위해 주어진 시간이 길지 않으며, 수집해야 할 데이터의 양은 많고, 관리해야 할 인력은 많습니다. 단순히 사업을 성공적으로 수주한 것을 넘어서, 완수까지의 험난한 길을 안전하게 항해하기 위해 고려해야 할 점들은 다음과 같습니다.

1. 데이터 구축 규모가 커지며, 데이터 품질 관리가 강화되고 있다.

AI 학습용 데이터 구축 사업은 2020년 기준 3000억 원 규모로 성장했습니다. 앞으로도 약 2조 5천억 원 가량이 사업 종료 시까지 투자될 전망입니다. 자본이 커지면서 데이터 규모 역시 계속 커지게 되자, NIA는 2020년 사업부터 외부사업자인 한국정보통신기술협회(TTA)를 통해 구축된 데이터를 검수하기 시작했습니다. 이 점은 2020년에 가장 달라진 부분 중 하나인데요. 2018년과 2019년에 구축된 데이터가 어떻게 활용될지에 대해 의문이 빈번하게 제기되었기 때문에 이에 대한 대책으로서 NIA가 검수라는 방책을 꺼내든 것으로 볼 수 있습니다. 당연하게도, 구축 이후의 단계가 활용이기 때문에, 실제 활용할 수 있는 데이터인지 아닌지에 대한 검증은 더욱 까다로워질 전망입니다. 게다가 2020년 사업은 전년도 대비 데이터의 종류가 훨씬 늘어났을 뿐만 아니라 그 규모 역시 상당히 증대되었기에, 사업에 참여한 기업들은 이전까지 볼 수 없었던 대규모 인력을 고용해 데이터 수집, 가공, 그리고 검수 과정을 수행할 수 밖에 없었습니다. 이는 사업에 참여한 기업이 방대한 데이터 규모는 물론이고 평소보다 더 비대해진 인력 및 프로세스 관리까지 맞닥뜨려야 함을 의미합니다. 즉 사업의 규모가 증대되며 더 많은 자본과 양질의 데이터 등으로 시장성 역시 무르익어가고 있다는 메리트가 있지만, 그만큼 기업이 사업에서 성공하는 데에 그 조건이 더욱 까다로워지고 있음을 이해해야 합니다.

NIA 인공지능 학습용 데이터셋 구축 사업 수행 단계

NIA 인공지능 학습용 데이터셋 구축 사업 수행단계

2. 약점을 상쇄해줄 협력자를 찾는 것이 컨소시엄 구성의 핵심이다

사업을 수주하려면 적절한 컨소시엄 구성이 필수적입니다. 한 기업이나 연구소가 데이터 구축의 모든 과정을 수행하기엔 당연하게도 역부족이며, 다른 업체와의 협업이 필수적입니다. 그렇다면 관건은 기업의 장/단점을 파악한 다음 프로젝트에 대한 관심을 공유하며 약점을 상쇄해줄 수 있는 협력자를 찾는 것이라 할 수 있습니다.  희망하는 사업의 분야에서 자신과 다르지만 뚜렷한 강점을 지니고 있으며 시너지 효과를 발휘할 수 있는 파트너들을 물색하고 함께 사업을 위한 청사진을 그려나가야 사업을 수주할 수 있는 가능성을 최대한으로 높일 수 있습니다.  또한, 대학 등 학계와 접촉하면서 필요한 정보와 아이디어를 습득하는 것도 요긴하게 작용할 수 있습니다. 해당 분야에 전문화된 학문적 역량이 투입된다면 사업 구상 단계부터 명확히 다져놓을 수 있기 때문입니다. AI 학습용 데이터 구축 산업에서 학계의 도움이 필요한 전문적 요소가 계속 늘어나게 될 전망이므로 학계가 갖는 중요성은 더 높아질 것이라 전망해 봅니다.

3. 의미있는 데이터를 짜는 것이, 사업 수행의 성패를 결정한다

‘학습용 데이터 구축 사업’이라는 이름만 본다면, 데이터를 일단 구축만 하면 되는게 아닐까? 라고 생각하기 쉽지만, 사실은 좋은 모델을 만들 수 있는 구성으로 데이터를 짜야 의미 있는 데이터를 구축할 수 있습니다. 즉, 어떤 데이터를 만들지 보다는 어떤 모델을 만들지가 더 중요할 수 있습니다. 나아가 데이터 설계 단계에서부터 디테일한 설계를 해 두어야 수집에서도 명확한 수집이 가능합니다. 실제로 사업 수행 중 데이터 정의가 잘 되지 않았고, 수집부터 잘못되어 이후 전체 과정에서 딜레이 및 문제가 된 사례가 여러 기업에서 빈번이 발생하는 것을 볼 수 있었습니다. 이를 사업 수행 중간에 모니터링하고 수정할 수 있었다면 시행착오를 줄일 수 있었겠지만, 사업 수행의 후반부에 이런 문제를 발견하게 된다면 어마어마한 추가 비용이 드는 결과가 초래될 수 있습니다. 실제로, 계획에 충분한 시간을 할애하여 데이터의 정의가 잘 이뤄진 회사는 문제없이 과제를 수행한  반면, 데이터 정의에 실패한 회사는 데이터 수집-가공-검수 전 과정을 다시 해야 하는 난관에 봉착하여 과제 수행에 많은 어려움을 호소하였습니다.

이런 실패를 피하기 위해선 어떤 모델을 만들지를 정확하게 정의를 내리고, 정의에 적합한 데이터를 구축해야 합니다. 물론 범용성을 가진 데이터를 구축한다는 것이 이번 사업의 목적이기는 하지만 의도가 불분명한 데이터가 나오지 않기 위해서는 어떠한 문제를 해결하기 위한 모델을 만들지, 변수 선정에 공을 들여야합니다.

내부적인 검수 과정을 생략하지 않는 것도 중요합니다. 검수가 곧 데이터가 갖는 질의 보장으로 이어집니다. 여러 이유로 실제 검수 수행을 소홀히 한 회사가 많지만 이로 인해 ‘품질 평가’를 통과하지 못하는 경우, 이후 수정에 큰 비용이 발생 할 수 있습니다. 이는 앞서 데이터 품질 관리가 강화되고 있다는 지점과도 일맥 상통합니다. 데이터 구축 사업에 지속적으로 참여한 회사들 중, 기존의 경험을 통해 데이터 구축 규모와 형태를 잘 알고 있음에도 불구하고 검수를 소홀히 하는 회사가 있기도 합니다. 물론, 이런 문제가 발생하는 이유는 데이터를 수집하고 구축하는 데에 대부분의 시간을 소요하고 있기 때문일 것입니다. 빠듯한 시간 등의 이유로, 검수의 단계를 가능하면 생략하고자 노력하고 싶을지 모릅니다. 그러나 검수를 위한 충분한 시간과 인력이 확보되지 못하면 데이터가 갖춰야 할 최소한의 질이 담보될 수가 없고, 이 때문에 오히려 전체 과정이 더 길어질 수 있음을 이해해야 합니다.

“사업의 성공적 수행과 동일하다 볼 수 있는 양질의 데이터는 다시 말해 확실한 데이터 정의 하에 모든 과정이 충분한 시간과 인력을 바탕으로 이루어진 다음, 최종품질검수를 통과한 데이터라고 할 수 있습니다.”

이 과정을 완료하지 못한 회사는 이후 과제에 패널티를 받을 수 있습니다. 사업에 참여했더라도 품질검사를 통과하지 못해 다시 데이터 작업을 하게 되면, 그간 공들여온 모든 요소가 비용이 되어 돌아오고 사업에 참여를 안 하니만 못한 꼴이 될 수 있습니다.

이런 상황을 방지하려면 명확한 설계와 충분한 시간과 인력이 필요하지만, 이 모든 것을 확보하는데 어려움을 겪는 회사들도 존재합니다.

그런 비용 절약과 산출물 획득에 대한 고민을 Superb AI의 ‘스위트’를 활용하여  해결 할 수 있습니다.  ‘스위트’는 인공지능 데이터 구축, 가공, 관리, 분석에 필요한 업무를 자동화 및 효율화해주는 MLOps 플랫폼으로, 스위트에 탑재된 협업 도구와 관리, 검수 기능을 활용하면 각 프로젝트를 투명하게 실시간으로 모니터링하는 것이 가능하며, 데이터의 품질을 입체적으로 평가하는 게 가능합니다. ‘스위트’를 활용한다면 인력난에 대한 고민을 해소하고 사업 참여에 박차를 가할 수 있을 것입니다.

NIA의 AI 학습용 데이터 구축 사업에 성공적으로 참여하기 위해선 컨소시엄과 함께 명확한 구상 및 데이터 정의를 갖고 충분한 시간과 대규모 인력 또는 최소 필요 인력과 자동화 도구를 바탕으로 데이터 구축에 임해야 합니다. 앞으로 더욱 까다로워질 사업의 기준을 충족하고 또 마찬가지로 사업 참여에 심화될 경쟁 속에서 살아남기 위해서는 더욱 냉철하고 합리적인 방안을 수립하고 과정에 임해야 할 것입니다.

Superb AI는 2020년 1월, Suite를 활용한 고품질 인공지능 학습용 데이터 구축(한글 OCR 데이터)을 통해 NIA로 부터 공로상을 수상받았으며, 2020년 9월 과학기술정보통신부가 주최하는 ‘이달의 D.N.A 우수기업’에 선정되었으며, 고품질 데이터댐 구축의 공로를 인정 받아 2020년 올해의 D.N.A 우수사례로 장관 표창을 수상하였습니다. 한편, TTA가 선정한 2020년 인공지능 학습용 데이터 구축 사업의 품질 관리 사업자로, 데이터 품질 관리 검수와 컨설팅을 진행하고 있습니다.

Superb AI의 고품질 데이터 구축/관리 노하우와 Suite를 활용한 품질 관리/프로젝트 관리 노하우를 웨비나를 통해 공개합니다. 참여하는 기업에게는 머신러닝 데이터 플랫폼 Suite 3개월(약 500만원 상당) 사용을 제공해 드리며, 자사의 데이터 구축 노하우가 담겨 있는 고품질 데이터 구축 매뉴얼을 무상으로 제공합니다.