데이터 프렙 옵스가 머신러닝 라이프 사이클의 잃어버린 퍼즐 조각이 맞을까?

데이터 프렙 옵스가 머신러닝 라이프 사이클의 잃어버린 퍼즐 조각이 맞을까?

일반적인 머신러닝 라이프 사이클은 세 가지로 구성됩니다. (1) 데이터 준비(데이터의 수집, 보관, 증강, 라벨링, 검증, 기능 선택), (2) 모델 개발(하이퍼파라미터 튜닝, 모델의 선택, 훈련, 테스트, 검증), 그리고 (3) 모델 운용(모델의 인퍼런스, 모니터링, 유지보수)입니다. 하지만 머신러닝 전문가들이 흔히 간과하지만 사실은 머신러닝 라이프 사이클에서 가장 중요한 영역이 있습니다. 바로 데이터 준비 과정입니다. 제대로 작동하지 못하는 머신러닝 라이프사이클은 데이터 준비 과정에 기인할 가능성이 높습니다.

더 뛰어난 성능의 모델을 구축하기 위해서는 고품질의 훈련용 데이터가 필요하다는 것은 널리 알려진  상식입니다. 하지만 좋은 데이터셋, 혹은 작업에 더 적합한 데이터셋에 대한 정형화된 정의가 없다는 것이 AI의 전방위적인 적용을 방해하는 병목 현상의 진짜 원인입니다. 그렇다면 여러분 머릿속에는 다양한 질문이 떠오를겁니다. 어떤 데이터를 어디서 찾을 수 있을지, 얼마나 많은 데이터가 필요한지, 데이터 검증은 어떻게 해야하는지, 품질을 어떻게 정의할 수 있으며 그 데이터는 어디에 저장할지, 데이터의 정리는 어떻게 할지와 같은 질문들 말이죠.

알렉티오(Alectio)의 창립자이자 CEO인 제니퍼 프렌드키(Jennifer Prendki)는 저희 데이터캐스트(Datacast) 팟캐스트에서 데이터 프렙 옵스(DataPrepOps)의 개념과 제대로 활용하는 방법에 대해 공유했습니다. 월마트 랩스(Walmart Labs), 아틀라시안(Atlassian), 피겨에잇(Figure Eight)과 같은 기업에서 이 프로세스를 적용했던 경험을 바탕으로 의미있는 인사이트 공유했는데요, 아래에서 에피소드를 들어보시거나 스크롤을 내려 하이라이트 요약본을 읽어보세요.

데이터 사이언스에 대해 알아보기

제니퍼는 과거 금융계에서 블랙 숄즈 방정식이나 시계열 모델을 활용해 커리어를 쌓으면서 더 정교한 모델링 기법에 대한 갈증을 느꼈습니다. 2014년 무렵부터 데이터 사이언스가 각광을 받기 시작했고, 빅 테크 기업들이 데이터 이니셔티브에 대해 강조하기 시작했습니다.

퀀트랩 파이낸셜(Quantlab Financial)을 거치며, 제니퍼는 다시 기초부터 쌓아나갈 수 있는 곳을 물색하기 시작했습니다. 그리고 최종적으로 유미(YuMe)를 선택했는데, 유미는 그 무렵 아마존의 첫 고객인 존 웨인라이트(John Wainwright)가 CEO로 재직하던 기업을 인수한 직후였습니다.

뿐만 아니라, 현재 게임 개발 및 3D 애니메이션의 핵심 언어로 사용되고 있는 순수 오브젝트 기반의 컴퓨터 언어의 선구자인 존과 함께 일할 수 있다는 것은, 제니퍼에게 있어서는 미래의 연봉이나 베네핏보다도 훨씬 중요한 것이었습니다. 하지만 제니퍼가 유미에 입사한 것은 존이 이미 그만둔 뒤였습니다.

결국 제니퍼는 애매한 상황에 놓이게 되었습니다. 회사가 정확히 제니퍼에게 데이터 사이언티스트로서 요구하는 것이 무엇인지 알 수 없었죠. 제니퍼는 본인이 데이터 사이언스에 대해 잘 모르는데도 회사의 주요한 결정을 내려야하는 관리직과 다름 없는 처지에 놓이게 되었습니다. 하지만 얼마 지나지 않아 제니퍼는 자신이 이 상황을 즐기고 있다는 것을 깨달았습니다. 제니퍼는 엔지니어링 팀과 효율적으로 커뮤니케이션 하는 방법을 아는 사람이었고, 결국 본인이 모델을 직접 개발하는 것보다는 데이터 전략을 세우는 것에 더 적합한 사람이라는 것을 깨달았습니다.

하지만 유미는 제니퍼에게 관리자로서의 많은 기회를 주었지만 예산은 주지 않았습니다. 제니퍼를 완전히 신뢰하지 못하는 누군가가 있었던 거죠. 제니퍼는 이 때 만약에 자신에게 맞지 않는 자리라면 과감히 떠나야한다는 것을 교훈을 얻었다고 합니다. 지금도 제니퍼는 자신의 커리어를 위해 가장 필요한 것이 무엇인지에 대한 확신을 잃지 않는 것이 가장 중요하다고 생각합니다.

“나와 함께 있는 사람이 적합한 사람이 아니거나 내가 놓여있는 환경이 적합하지 않다면, 내 성장을 위한 결단을 내리는 것을 주저해서는 안됩니다.”


데이터 사이언스의 ROI 측정하기

제니퍼는 월마트 랩스(Walmart Labs)에 IC(Individual Contributor)로 합류해 수석 데이터 사이언티스트로 시작하게 되었습니다. 후에 더 큰 스케일의 이니셔티브를 다루고 싶어했던 제니퍼에게 대기업은 좋은 선택이었습니다.

이 시기의 일반적인 데이터 사이언스 팀은 모델 개발 관련 박사 학위를 가진 사람들로 이루어져 있었습니다. 그러나 많은 기업들은 이와 같은 모델을 수익화하는 데에 어려움을 겪고 있었습니다. 월마트와 같은 대기업에서는 사업 부서와 연구 부서 간의 커뮤니케이션이 전무하다시피 했고, 사업 목표에서 데이터 사이언티스트들은 완전히 차단되어 있었습니다.

“일 잘하는 데이터 사이언티스트가 되려면 임원들의 달성하고자 하는 것이 무엇인지 이해해야 합니다.”

제니퍼가 관리하는 지표-측정-인사이트 팀 내부에서, 사람들은 다른 팀의 유관인력 모두와의 대화를 통해 그들의 성공을 측정할 방법과 다양한 측정 지표를 찾아냈고, 이러한 노력이 실제로 그들을 위한 변화를 만들어내고 있는지에 대해 소통했습니다. 여기서 기억해야 할 것은 데이터 사이언스를 도입한 기업은 ROI를 측정하고 싶어한다는 점입니다. 그들에게 도움이 되는 모델을 개발하지 않는다면 해고될 확률이 높겠죠. 그래서 이러한 형태의 이니셔티브가 필요한 것입니다.

제니퍼는 데이터 업계에 발을 들일 사람이라면 데이터가 사업을 위해 존재한다는 사실을 빨리 깨달을수록 좋다고 강조합니다. 기업이 빅 데이터 이니셔티브에 투자하는 이유는 더 많은 제품을 판매하고, 더 많은 고객을 유인하고, 일을 더 쉽게 처리하기 위함입니다. 만약 이러한 사업 목표를 가슴에 새기지 않는다면 실패하는 것이 당연하겠죠.


능동 학습(Active Learning)의 선구자 되기


머신러닝 모델은 전통적으로 지도 학습을 통해 구축되어 왔습니다. 확보한 데이터셋에 어노테이션을 추가해 내 모델을 위해 사용하는 것이죠. 능동 학습은 간단히 말하면 준지도 학습을 실행하는 특별한 방법입니다. 준지도 학습은 어노테이션이 추가된 데이터와 추가되지 않은 데이터를 모두 필요로 합니다. 또한 하지만 능동 학습은 전략적인 데이터를 우선시하여 훈련과 인퍼런스를 계속 반복합니다. 적은 양의 데이터셋에 어노테이션을 추가해 모델을 훈련시킨 후 모델이 얼마나 좋은 성능을 내는지 확인한 뒤에 다음에 집중할 데이터는 무엇인지 고민하는 것입니다.

모델의 불확실성을 측정하는 것은 능동 학습의 인기 있는 방법 중 하나입니다. 소량의 데이터로 모델을 훈련시킨 후 아직 라벨링되지 않은 나머지 데이터셋에 인퍼런스를 실행하는 것입니다. 그 후, “모델이 상대적으로 이 데이터 클래스들에는 정확한 예측을 하는 것처럼 보이니, 이 데이터 셋은 넘어가도 되겠다”고 판단하는 것이죠.

노트: 2018년 런던에서 열린 ODSC에서 제니퍼가 소개한 능동 학습에 관한 내용을 확인해보세요.

제니퍼는 쥐꼬리만한 라벨링 예산을 가지고 월마트 랩스에서 능동 학습을 적용해보기 시작했고, 능동 학습에 조정이 반드시 필요하다는 큰 문제가 있다는 것을 깨달았습니다. 능동 학습은 태스크를 배치(batch)나 룹(loop) 단위로 처리하는데, 실무자들이 어떤 사이즈의 배치가 적합한지 판단하는 것을 모른다는 것이었습니다.

제니퍼는 지금의 능동 학습과 10년 전의 딥러닝이 비슷하다고 느꼈습니다.

제니퍼가 커리어를 시작했을 무렵은 딥러닝이 인기를 얻기 시작했지만 아직 그 정점이 오기 전이었습니다. 많은 사람들이 딥러닝 활용을 시도했지만 제대로 되지는 않았죠. 적합한 숫자의 에포크와 뉴런의 수, 배치 사이즈 등을 찾는 것에는 많은 전문 지식이 필요했습니다. 제대로 하지 않으면 처참한 실패를 맛보게 되는 상황이었습니다.

능동 학습도 마찬가지입니다. 만약 다음 배치를 선택하는 쿼리 전략을 잘못 짜면 아무것도 하지 않고 그냥 뒀을 때 보다 더 최악의 결과를 전체 데이터셋에 적용하는 결과를 낳습니다.

능동 학습의 또다른 난관은 과도한 컴퓨팅이 필요하다는 것입니다. 컴퓨팅을 많이 활용할수록 라벨링에 드는 비용은 줄여들 수 있겠지만, 주기적인 모델의 재훈련이 필요합니다. 매번 새로 시작해야 하는데다, 데이터의 양과 컴퓨팅의 수요는 제곱의 관계입니다. 이런 것을 고려했을 때 기존 라벨의 보존을 위해서  컴퓨팅을 낭비하는 것이 맞을지 판단해봐야 합니다.


데이터 프렙 옵스에 거는 기대


기업이 머신러닝의 활용에 성공하려면 무엇이 필요한가라는 질문에 대해 제니퍼는 기술, 기업, 운영이라는 세가지 측면으로 대답합니다. 오늘날의 기업은 기술은 충분히 갖추고 있습니다. 하지만 제니퍼가 거쳐온 모든 곳에서 기업과 운영 측면이 현저하게 부족한다는 것은 자명합니다. 제니퍼가 지금까지 조언했던 수많은 크고 작은 기업 중 제대로 하는 곳이 한 곳도 없었으니 말입니다.

기업은 머신러닝 인력이 다른 인력들과 상호작용하는 방법에 대해 이해하고 데이터 기반 문화를 만들어야 합니다. 불행히도 우리가 살고 있는 세상의 임원들은 축적된 데이터를 어떻게 다루고 뭘 해야하는지 전혀 모릅니다.

운영 측면의 문제는 어디에나 적용되는 만능 솔루션을 사용하려고 하는 데에 있습니다. 만능, 멋진 말이죠. 하지만 대부분의 경우에는 시험삼아 써보기에는 너무 비효율적이고 비쌉니다. 제니퍼는 제대로 된 ML옵스가 없다면 머신러닝도 실패할 수 밖에 없다고 말합니다. 하지만 한가지 희소식이 있다면, 지난 18개월 동안 실무자들이 마주한 다양한 머신러닝 라이프사이클 개발 작업을 돕는 기업들이 많이 생겨났다는 점입니다.

Source: https://jameskle.com/writes/twiml2021

머신러닝 라이프사이클에 대해 생각해보면, 데이터를 적합한 형태로 만드는 데이터 준비 단계, 흔히 머신러닝이라고 하면 사람들이 떠올리는 모델 개발 단계, 그리고 모델을 실제로 적용하는 모델 적용 단계가 있습니다. 지금까지 모델 개발과 모델 적용 도구에는 VC 커뮤니티의 많은 투자가 있었습니다.

“아직까지도 제대로 구체화되고 수치화되지 않은 단 하나의 단계가 바로 데이터 준비 단계입니다.”

지나가는 데이터 사이언티스트를 아무나 붙잡고 어떻게 시간을 사용하는지에 대해 물어보면, 모두 75~80%의 시간은 엔지니어링, 데이터 라벨링, 데이터 클리닝 등에 사용한다고 대답할겁니다. 제니퍼는 데이터 준비에 드는 비효율을 감지하고 여기에 투자하는 기업이 너무 적다고 생각합니다. 또한 데이터 준비가 단순히 데이터 라벨링과 데이터 스토리지만을 의미하지 않는다는 것도 명심해야 합니다.


알렉티오를 설립하다

제니퍼는 자신을 머뭇거리는 기업가라고 생각했습니다. 그녀의 원래 주장은 빅데이터가 더 나은 ML 시스템을 구축하기 위한 유일한 솔루션이라는 생각을 버려야 한다는 것입니다. 제니퍼는 과거 상사들에게 이 아이디어를 전파하려고 노력했지만, 끝내 아무도 이 큰 문제를 해결할 생각이 없다는 것을 깨달았습니다. "적을수록 더 낫다”는 개념은 현대 사회의 인기 있는 개념이지만, 빅데이터에서는 아닙니다. 빅데이터가 머신러닝에 있어서는 훨씬 큰 가능성을 열어준다는 것은 의심할 여지가 없습니다.

그러나 현재 우리는 그 반대의 문제에 직면해 있습니다. 즉, 방대한 양의 데이터를 처리하기 위해 더 큰 데이터 센터와 더 빠른 시스템을 구축하고 있다는 것입니다. 하지만 이것은 현명한 접근이 아닙니다. 경제적 관점에서 보면, 일부 대기업들이 빅데이터가 필요하다고 믿는 이유를 쉽게 찾을 수 있습니다.데이터가 많을수록 더 많은 돈을 벌 수 있기 때문입니다.

Source: https://alectio.com/product/

제니퍼는 머신러닝이 지속 가능하려면해 (1) 더 적은 데이터 센터와 서버에 드는 전기를 절약하는 등의 지속 가능한 환경, 그리고 (2) 대기업의 지속 가능한 이니셔티브가 필요하다고 말합니다다. 대부분의 문제는 우리가 다뤄야하는 데이터의 양에 기인합니다. 모든 데이터 세트는 유용한 데이터, 쓸모없는 데이터, 그리고 유해한 데이터로 구성됩니다.

유용한 데이터는 우리가 원하는 데이터입니다. 모델에 도움이 되는 정보를 포함합니다. 불필요한 데이터는 좋은 것도 나쁜 것도 아닙니다. 데이터셋의 대부분을 차지하며 시간과 돈을 낭비하게 합니다.

유해한 데이터가 가장 나쁩니다. 이 데이터를 저장해 모델을 훈련시키면 모델의 성능이 점점 악화됩니다.

“내게 머신러닝 2.0은 더 고품질의 데이터를 요구하는 것입니다.”

그러나 데이터의 품질과 데이터의 가치는 구별해야 합니다. 가치는 유즈 케이스에 따라 달라집니다. A 모델에는 유용한 데이터라도 B 모델에도 반드시 유용한 것은 아닙니다. 따라서 모델을 통해 달성하고자 하는 목표라는 맥락에서 데이터를 관리해야 합니다. 하지만 이러한 것을 고려하는 데이터 관리 기업은 없습니다.

알렉티오의 미션은 사람들이 데이터를 입맛에 맞게 길들이고, 조금 더 상식적인 수준에서 생각하도록 만드는 것입니다.


책임감 있는 AI


제니퍼는 좋은 AI를 제공한다는 것은 모든 사람들이 동일한 기술을 활용할 수 있게 하고 그 기술이 주는 혜택을 동일하게 누릴 수 있는 것이라고 생각합니다.

“우리가 살고 있는 불공평한 사회에 대한 해결책이 AI라고 생각합니다.”

AI의 발전으로 제니퍼가 두려워하는 것 중 하나는 블루컬러 직종의 소멸입니다. 물론 이것이 무조건 나쁜 것만은 아닙니다. 사람들이 위험하지 않은 직업을 선택하기를 원하니까요. 하지만 지금과 같은 길로 나아간다면, 부자는 더 부자가 되고 가난한 자는 더 가난해질 뿐입니다.

데이터 라벨링이 이러한 우려를 명확하게 증명하는 예시입니다. 실리콘 밸리의 부자 스타트업이나 대기업이 머신러닝 모델을 개발하고자 하면 데이터 라벨링이 필요할거고, 데이터 라벨링 기업에  라벨링 작업을 맡길겁니다.

그리고 데이터 라벨링 기업들은 실제로 데이터 라벨링을 하는 사람들에 의존하겠죠. 대부분의 라벨러들은 케냐, 마다가스카르, 인도네시아, 필리핀과 같은 제3세계 국가에 있습니다. 어떤 기업들은 막대한 비용을 가져가면서도 라벨러들을 정당하게 대우하지 않는 경우가 있습니다. 어떤 경우에는 정당한 임금 없이 강제로 라벨링을 하는 노예나 다름없는 대우를 받기도 합니다.

이러한 국가의 가난한 사람들에게 데이터 라벨링이 불러온 AI 경제는 분명 큰 기회입니다. 그러나 우리는 AI가 사회의 불평등을 증가시키지 않는지 확인해야하고, 이러한 의미에서 임금에 대한 규제가 필요할 것 같습니다.

참고: 2019년에 열린 “분석 속의 여성 컨퍼런스(Women in Analytics Conference)”에서 제니퍼가 연사로 선 “데이터 사이언스에 있어서의 윤리의 중요성(The Importance of Ethics in Data Science)”이라는 키노트 강연을 확인하세요.

제니퍼가 제시하는 더 많은 인사이트를 확인하려면 데이터캐스트의 풀 에피소드를 확인하세요. 제니퍼의 물리학 전공 이야기, 데이터 사이언스 팀에 애자일을 적용하는 법, 업계에 진입하려는 여성들에게 주는 조언 등 다양한 내용을 확인하실 수 있습니다.