인공지능 승부예측기는 어떻게 경기결과를 예측할까?: 데이터는 정답을 알고있다
축구 팬들이라면 최근 방송사 축구 중계 화면 하단에 있는 ‘AI 승부예측기’라는 것을 한 번쯤 본 적이 있을 것이다. ‘AI 승부예측기’는 양 팀의 경기 결과를 승과 패 그리고 무승부 세가지 카테고리로 나눈 뒤 예측하여 ‘분류(Classification)’해주는 간단한 기계학습(Machine Learning) 모델이다. 이처럼 데이터의 증가와 기술의 발전으로 인간의 전유물로 여겨졌던 승부 예측의 영역에서도 이제는 어렵지 않게 인공지능을 찾아볼 수 있다.
그렇다면 인공지능은 어떠한 메커니즘을 통해 아직 일어나지 않은 미래의 일을 예측할 수 있는 것일까? 또한 그것은 인간의 예측과 어떻게 다를까? 그리고 우리는 인간과는 다른 기계의 예측 결과를 어떻게 잘 활용할 수 있을까?
1. 인공지능과 인간의 차이점 : AI는 눈치가 없다
- 숙명의 한일전
작년 여름 축구 동아시안컵 결승 한일전이 한창이던 어느 날, 전반 스코어 0대 0으로 양 팀은 치열한 공방전을 펼치고 있었다. 쉽게 양 팀의 우열을 가리기 힘들어 보였다. 일본팀은 특유의 조직력을 바탕으로 한 견고한 축구를 구사했으며, 한국팀은 날카롭고 빠른 공격이 인상적이었다. 사실 어느팀이 이겨도 이상할 것이 없는 것이 한일전이었지만, 한국팀의 승리를 점치는 한국 축구팬들의 비율이 80%로 압도적으로 높았다.
그러나 AI의 생각은 조금 달랐나 보다. AI는 일본의 승리 가능성을 40%, 무승부 확률을 40%, 그리고 한국의 승리 가능성을 고작 20%로 점치고 있었다. 축구 해설가와 캐스터는 한국의 승리 가능성을 상당히 낮게 점치는 AI 승부 예측기를 보며 'AI는 눈치가 없어요!'라고 불평을 늘어놓았다. 그렇게 AI 승부 예측기는 자존심이 걸린 한일전에서 눈치 없는 예측을 하는 애물단지 취급을 받고 있었다.
팽팽한 긴장감이 감도는 경기가 이어졌다. 일본의 홈경기였고, 슈팅수와 코너킥수에서 일본이 근소한 우위를 점하고 있긴 했지만, 한국의 유기적인 플레이도 나쁘지 않았다. 무엇보다 역대전적이 모든것을 말해주는 것만 같았다. 한국팀의 일본팀에 대한 역대전적 42승 23무 15패. 한국 축구 대표팀은 일본팀에게 그렇게 쉽게 지는 팀이 아니었다. 그렇게 양 팀은 팽팽한 긴장감 속에 전반전을 0대 0으로 마무리했다.
그러나 후반전 시작과 동시에 예상치 못한 일이 벌어지기 시작했다. 후반전 킥오프와 함께 일본 대표팀은 강한 압박과 스피드로 한국 대표팀을 거세게 몰아붙였고, 한국은 일본의 강한 압박과 지능적인 플레이에 맥없이 무너지기 시작했다. 후반 초반 한 골을 내준 한국 대표팀은 영혼이 탈탈 털린 듯 수준 이하의 경기를 펼쳤다. 1:0에서 2:0 또 3:0... 골은 멈출 줄 몰랐다. 일본 선수들은 여유를 가지고 물만난 고기처럼 마음껏 한국 선수들을 가지고 놀았다.
경기 결과는 정확하게 AI 승부예측기의 예상대로였다. 한국팀의 승리를 점쳤던 우리 '눈치 있는' 인간들의 예측은 보기 좋게 빗나갔다. 그렇다면 경기 양상이 비교적 팽팽했던 전반부터 눈치 없는 AI는 어떻게 사람들이 놓치고 있던 부분을 간파하고 정확하게 승부를 예측할 수 있었던 것일까?
- 편향과 애착
증권가에는 ‘편향과 애착이 투자를 망친다’라는 말이 있다. 자신이 선택한 투자 종목에 대한 애착이 편향을 만들어내고, 그 편향은 투자자의 판단에 직간접적으로 개입한다. 객관성을 잃은 투자자는 결국 주식을 팔거나 사지 말아야 할 타이밍에 과도한 리스크를 떠안게 되고, 그 판단은 손해로 이어진다.
축구 승부예측도 마찬가지다. 캐스터들이 말하는 눈치란 결국 ‘한국인으로서 한국팀이 승리하기를 바라는 마음’ 즉 애착과 편향에 다르지 않다. 마찬가지로 ‘라이벌 의식’과 ‘집단 의식’과 같이 눈에 보이지 않는 여러 복잡한 감정들이 뒤얽히면서 감정은 인간의 판단력을 잠식하고 객관적이고 정확한 판단에서 멀어져간다.
인공지능은 인간과 다르게 애착과 편향에서 비교적 자유롭다. 오로지 역대전적, 슈팅수, 홈/어웨이, 선수들의 평균연봉 등 데이터에 의거한 판단을 내리기 때문이다. 물론 인공지능 모델이 학습하는 데이터를 라벨링하는 과정에서 데이터 자체에 인간의 주관이 들어갈 수는 있지만, 개인의 주관에서 자유로운 ‘정량적 데이터’를 변수로 하는 인공지능은 편향에서 자유롭다. 그래서 인공지능은 눈치가 없다. 하지만 역설적으로 눈치가 없기 때문에 인간보다 좋은 판단을 내릴 수 있는 것이다.
2. 인공지능은 어떻게 학습할까?
그렇다면 AI 승부예측기와 같은 인공지능은 어떻게 사람보다 정확한 예측이 가능한 것일까?
머신러닝에 자주 사용되는 로지스틱 회귀 분류(Logistic Regression Classifier) 알고리즘 모델을 예로들어 알아보자. 로지스틱 회귀 분류 모델의 뼈대가 되는 회귀 분류 모델은 통계학 이론에 근거하여 주어진 x값(독립변수)에 대한 y값(종속변수)을 찾는 방식으로 주어진 데이터를 학습한다. 여기서 y값은 x값의 영향을 받기 때문에 ‘종속변수’로 표현한다.
로지스틱 회귀는 일반 선형 회귀로 얻은 연속적인 결과를 시그모이드 함수로 표준화시켜서 특정값을 기준으로 나누어서 분류한다. 즉 로지스틱 회귀 알고리즘이란 x값(Feature 라고도 한다)과 y값(Label이라고도 한다) 사이의 상관관계를 찾아내어 카테고리별로 결과값을 분류하는 모델인 것이다.
‘AI 승부예측기’를 예로들어보자. x값은 점유율, 공격 횟수, 선수들의 평균연봉, 홈/어웨이, 역대전적 등의 변수(variable)이며, y값은 경기 결과(승/패/무승부)에 해당한다. 이러한 회귀모델은 주로 데이터의 양이 많고 정확하며 클린하고(결측치나 오류값이 없어야 함) 종속변수(Label) 예측을 위한 적절한 독립변수(Feature)가 존재할 때 정확도가 올라간다.
AI 승부예측기가 어떤 데이터와 변수를 학습하였는지 정확히 알지는 못하지만 추측컨데 한일전 뿐만 아니라 전 세계 여러 축구팀의 수십만 건에 달하는 과거 경기 데이터를 학습하여 한일전의 경기 결과를 예측했을 것이다. 이처럼 인공지능 승부예측기는 사전에 프로그래밍된 간단한 '알고리즘'에 따라 인간이 쌓아놓은 방대한 양의 '데이터'를 학습한다.
학습을 마친 AI 승부예측기는 학습한 데이터의 양에 비례하여 똑똑하고 정확해진다. 인공지능이 얼마나 똑똑한지를 알고싶다면 혼동행렬(confusion matrix)를 통해 정확도(Accuracy)와 정밀도(Precision) 그리고 재현율(Recall) 등 예측 결과값이 실제 경기 결과와 얼마나 비슷한지 혹은 차이가 있는지 그 결과값을 해석할 수 있다.
3. 인공지능의 예측결과는 어떻게 활용될 수 있을까?
앞에서 살펴보았듯이 개인적인 감정에 의한 애착과 편향의 배제와 객관적인 사실에 근거한 판단이 중요한 승부예측이나 주식투자와 같은 분야에서 인공지능은 인간보다 일관성 있고 정확한 판단을 내릴 수 있다. 자동화와 분류같이 단순 반복업무와 같이 수량화(quantify) 및 패턴화(patterned) 할 수 있는 분야에서 인공지능은 인간보다 편향되지 않고 객관적인 판단을 일관적으로 내릴 수 있다.
그러나 공은 둥글다는 말 처럼 축구에서는 꽤나 많은 경우에 예측과 다른 결과가 나오기도 한다. 주식투자에서 역시 인공지능은 단순 자동화 매매를 뛰어넘은 투자 판단의 영역에서는 만족스러운 결과를 보여주지 못할 때도 많다. 이는 여전히 비이성적인 인간의 심리상태와 감정이 결과에 영향을 미치는 경우가 대부분이기 때문이다.
이처럼 세상에는 여전히 완벽히 패턴화 및 코드화 할 수 없는 영역이 존재한다. 기술의 발전과 함께 인공지능이 인간을 대체할 수 있는 영역은 점점 더 늘어나겠지만, 수천년의 역사속에서 인간이 짜놓은 판에서 인공지능이 할 수 있는 역할에는 아직 한계가 있는 것이 사실이다. 지금 당장 기계가 더 잘 할 수 있는 일은 기계에게 위임하고 인간은 인공지능과 공존할 미래를 현명하게 대비해야 할 것이다.
문과 출신으로 AI 스타트업에서 데이터 사이언티스트로 일하고 있습니다. |
* 슈퍼브 블로그의 외부 기고 콘텐츠는 외부 전문가가 작성한 글로 운영 가이드라인에 따라 작성됩니다. 슈퍼브 블로그에서는 독자분들이 AI에 대한 소식을 더 쉽고 간편하게 이해하실 수 있도록 유용한 팁과 정보를 제공하고 있습니다.