기계에게 한글을 가르칠 수 있을까?

기계에게 한글을 가르칠 수 있을까?

‍들어가며

사람은 길을 걷다가, 운전을 하다가, 표지판이나 입간판에 적힌 글씨를 한 눈에 읽고 그 의미를 파악합니다. 하지만 기계는 꼬불 꼬불한 그림을 글자로 인식하고, 그것으로부터 의미를 즉각적으로 파악하지 못합니다. 표지판을 읽지 못하는 자율주행차란 세상에 존재할 수 없으므로, 인간의 지능을 갖기 위해서는 글씨를 이해하는 것이 필수적입니다. 그럼, 기계에게 글씨를 어떻게 가르칠 수 있을까요?

OCR(Optical Character Recognition, 광학문자인식)은 자율주행, 증강현실, IoT 등의 산업 분야에서 사물의 문자를 인식하는 기반 기술을 말합니다. 사람이 글자를 배우기 전에는 구불구불한 선들과 글자를 구별할 수 없지만, 글자를 배우고, 그것을 읽거나 소리 내어 말하고, 나아가 의미를 파악하는 것처럼, 기계에게 글자를 가르치기 위해서는 글자를 ‘글자’로 인식하는 기반 기술인 OCR이 필수적입니다.

자율 주행 자동차가 도로 위의 표지판을 읽고 길을 안내하거나, 누군가의 명함을 사진으로 찍으면 이름과 연락처 등을 자동으로 저장해주는 서비스에는 이런 OCR 기술이 탑재되어 있다고 보면 됩니다. 그렇다면 OCR 모델을 학습시키는 데이터셋은 어떻게 만들어질까요?



기계는 어린 시절의 우리처럼, 한글을 배울 수 있을까?

Suite로 도로 표지판의 한글을 라벨링하는 화면

슈퍼브에이아이가 구축한 11,172자의 한국어 글자체 이미지 데이터셋 : 누구나 기계에게 한국어를 가르칠 수 있도록


슈퍼브에이아이는 2020년 1월, 세계 최초의 한국어 글자체 이미지 AI 데이터셋을 공개했습니다. 사람이 직접 쓴 손글씨와 인쇄체, Text-in-the-wild 형태로 구성되어 있고, 한글 자모조합 11,172자를 포함하는 데이터셋으로서 전례를 찾아볼 수 없는 규모를 갖춘 한국어 이미지 데이터셋이었습니다.

기존에 OCR 기술 개발에 사용하는 학습용 데이터셋이 아예 없었던 것은 아닙니다. 네이버가 제공하는 한글 필기체 데이터셋에는 약 2350개의 글자에 대해 각각 2187개의 데이터가 구축되어 있습니다. 하지만 이름에서 알 수 있듯 ‘필기체’ 데이터에 한정되어 있었으며, text-in-the-wild나 서류에서 볼 수 있는 인쇄체 등 다양한 한글의 모습을 담고 있지 않았습니다. 자연스럽게 데이터셋을 활용해 만들어낼 수 있는 서비스의 범위도 좁아집니다.

💡
이미지 데이터 셋 구축을 위한 슈퍼브 플랫폼 더 알아보기

한국어 이미지 데이터셋, 왜 그 동안 구축하기 힘들었을까?

영어의 경우, 전세계의 AI기업 및 연구소에서 AI데이터셋 구축에 앞장서고 있습니다. 특히, 미국의 경우 민관협력을 통해 손글씨, 글자체 이미지 등에 활발하게 투자하여 전세계 인공지능 연구자와 기업에서 사용할 수 있게 지속적으로 업데이트해 오고 있습니다. 2019년에는 미국 기술 표준연구원(National Institute of Standards and Technology)에서 3600명의 손글씨를 수집하여 총 800,000장 이미지 데이터를 가공하여 공개하기도 했습니다.

한글은 세계에서 가장 과학적인 문자, 가장 독창적이고 확장성이 높은 문자라고들 합니다. 총 26자에 불과한 영어 알파벳과 달리 한글은 자모를 초성, 중성, 종성으로 조합하면 조합이 가능한 음절이 11,172자나 됩니다. 이 때문에 전체 철자에 대한 데이터를 수집하기 어렵습니다. 5언 9품사 등 문법에 따라 한글이 사용되는 방식도 다양하기 때문에, 사용되는 상황에 따라 표기되는 형태(글자, 단어, 문장 등)가 다르다는 것 또한 데이터 구축의 장벽이 됩니다.

이번 한글 데이터셋 구축 프로젝트는 일상생활에서 사용되는 모든 형태의 한글을 수집하도록 추진되었습니다. 구축하고자 하는 한글은 자모 조합으로 만들 수 있는 현대한글 11,172자와, 국립국어원이 조사한 한국인이 가장 많이 사용하는 단어나 뉴스 스크립트 문장 등으로, 사용 빈도가 가장 높은 것들이었습니다. 슈퍼브에이아이는 먼저 방대한 한글 데이터를 수집하였습니다. △ 간판, 도로 표지 등의 이미지 내 Text in the Wild 10만 장 △ 인쇄체 250만자 △ 손글씨체 250만자 이미지 데이터를 음절, 어절, 문장 단위로 수집을 진행했습니다.

수집방법은 각 영역마다 다른 방법을 선택하였습니다. 손글씨는 다양한 연령대의 남녀 260명을 선발하여 지정된 글자, 단어, 문장을 직접 쓰는 방식으로 총 250만자(최종 370만자)를 목표로 수집했습니다. 인쇄체는 공공,상업 분야에서 가장 많이 쓰이는 인쇄체 폰트 51개를 선정하여 250만자(최종 280만자)를 목표로 데이터를 제작하였고, 이미지 처리 증강기법을 활용하여 약 840만자의 인쇄체 데이터를 추가 확보했습니다. 또한, 실외환경에서 쉽게 볼 수 있는 도로표지판, 번호판, 간판, 상표, 도서 표지 등 Text in the Wild 데이터를 10만장(한글 기준 약 170만자)을 확보했습니다.

Superb AI Suite, OCR 데이터셋 구축 성공의 공신

Suite로 라벨링한 간판 이미지 OCR 데이터
OCR 데이터 라벨링 예시

본격적인 데이터 라벨링 및 구축 프로젝트는 슈퍼브에이아이 스위트를 통해 체계적으로 관리할 수 있었습니다. 수집 단계 부터 가공 후 검수단계까지 업무 프로세스를 스위트 플랫폼에서 운영하여 대규모 데이터셋 제작을 완수했고, 품질정확도 평가에서 99.3%(자체 모델 테스트 결과)를 받았습니다. 따로 데이터셋을 제작할 필요 없이 AI 서비스 개발에 바로 적용 가능한 정확성과 품질을 갖추고 있어, 다양한 산업군에서 활용가치가 높다는 평가를 받고 있습니다.

둘째로, 총 350명이 넘는 인원이 8주 동안 플랫폼을 적극적으로 활용 했습니다. 스위트는 어노테이션 타입, 오브젝트 클래스를 사용자가 손쉽게 설정할 수 있어 구축하고자 하는 데이터셋의 성격에 따라 맞춤형 프로젝트를 생성할 수 있습니다. 프로젝트 매니저는 실시간으로 프로젝트 워크플로우를 확인할 수 있고, 협업을 위한 작업자, 검수자, 엔지니어 등 사용자의 역할에 맞게 권한을 설정할 수 있습니다. 각 사용자가 작업한 결과물은 대시보드를 통해 시각화된 데이터로 확인 가능합니다. 스위트는 라벨링 작업자 수백명이 동시에 접속하여 실시간으로 대용량 데이터를 다루는 협업을 안정적으로 할 수 있는 시스템을 갖추고 있습니다. 또한, 데이터기반의 커뮤니케이션(피드백) 및 작업 이력 관리가 쉬워 효율적인 데이터셋 구축 과정을 효율화 시킬 수 있었습니다.

“NIA AI 학습 데이터 구축 사업 담당자로 라벨링 프로젝트를 매니징했습니다. 기존에는 대용량 데이터를 주고 받고, 결과물을 확인하는 작업들이 쉽지 않았는데, 스위트에서는 실시간으로 확인할 수 있었습니다. 프로젝트 진행률(workflow)을 실시간으로 확인할 수 있다는 점도 프로젝트를 관리하는데 큰 도움이 되었습니다.”

OCR 데이터셋을 활용한 응용서비스는?

:주관식 채점을 빠르고 정확하게

여기, 슈퍼브에이아이가 구축한 데이터셋을 활용해 새로운 한글 인식 AI 서비스를 만든 곳이 있습니다. 바로 Ko.AI입니다. Ko.AI에서는 ‘한글인식 OMR 주관식 단답 자동채점 서비스’를 새롭게 만들었습니다.

기존의 OMR 채점 시스템은 주관식을 인식할 수 없어 여전히 채점자가 수기로 진행하고 있었습니다. 때문에 업무의 비효율성과 정확도 측면에서 향상이 필요했습니다.

이 서비스의 주요 고객은 국가자격시험, 각종 공공기관의 시험의 주관사입니다. 현재 시범 서비스를 통해 OCR 주관식 단답 채점서비스의 가능성을 확인했고, 서비스 모형 학습을 통해 정확도를 향상시켜 국가자격시험, 각종 공공기관의 주관식 단답의 자동채점 시스템으로 쓰이고 있습니다.

OMR 주관식 단답 자동채점 서비스 사용방법 2
출처 : 한글인식 Beta OMR 주관식 단답 자동채점 서비스 (AI HUB)

거래명세서 인식을 통한 식재료 흐름 통계 분석까지

뿐만 아닙니다. 이 데이터셋은 K기관의 거래명세표 인식을 통한 중도매 식재료 통계 분석 시스템에도 활용되고 있습니다.

보통 시중에서 사용되는 거래명세서는 서식이 표준화되어 있지 않으며, 특히 영세 중도매상들이 자체적으로 서식을 만들어 쓰는 경우에는 기존의 일반 OCR 기술을 사용하기 힘들었습니다. 이에 K기관에서는 본 데이터셋을 활용해 새로운 OCR 모델을 개발하였고, 거래명세서의 식자재 품목·금액· 수량을 인식, 데이터를 확보하여 주기적으로 식자재의 중도매 흐름과 통계를 분석하고 있습니다.

마치며

한 번 잘 구축된 데이터셋은 여러 응용 서비스에 활용될 수 있습니다. 특히 OCR 데이터셋은 활용 가능성이 무궁무진한 분야 중 하나입니다. 금융권의 종이 또는 이미지 형태의 문서들의 글자를 인식해 디지털화하거나, 자율주행 AI를 고도화시키기 위해 필수적인 기술입니다.

이런 대규모 데이터셋을 구축하기 위해서는 프로젝트를 체계적으로 관리할 수 있는 플랫폼을 사용하는 것이 좋습니다. 데이터 라벨링 뿐 아니라 프로젝트 관리 분석, 그리고 다양한 이해관계자들의 협업까지, 머신러닝 팀이 온전히 모델 개발에만 집중할 수 있도록 지원하는 플랫폼이 필요합니다. 지금 바로 Superb AI Suite에서 데이터셋 구축 프로젝트를 시작해보세요.

ⓘ  슈퍼브에이아이가 구축한 데이터셋은 한글 OCR 서비스를 개발하고자 하는 연구자와 기업이 자유롭게 활용할 수 있습니다.