인공지능을 어디까지 믿어야 할까?: 블랙박스 모델과 데이터 편향

인공지능을 어디까지 믿어야 할까?: 블랙박스 모델과 데이터 편향


우리 생활 속의 인공지능

인공지능은 여지껏 본 적 없는 방식으로 전 세계 60억 인구의 삶을 연결시키고 있다. 예를들어 오늘 본 유튜브 추천 영상은 나 한 사람만의 취향이 반영된 것이 아닐 가능성이 크다. 유튜브의 영상 추천 시스템은 나 자신의 개인정보와 검색이력 뿐만 아니라 전 세계에서 나와 비슷한 연령, 성별, 직업군의 사람들이 어떤 영상에 관심이 있을지 확률적으로 면밀히 분석한 뒤, 내가 가장 좋아할만한 영상을 추천해주는 방식으로 작동한다. 우리는 인공지능 모델이라는 커다란 시스템에 데이터를 공급하는 일부가 되어, 알지 못하는 사이에 서로가 서로의 취향을 공유하고 있는 것이다.

이처럼 인식하고 있든 그렇지 않든, 다양한 인공지능 모델은 우리 삶 속에 깊이 침투해 있다. 그리고 인공지능 모델이 전 세계 수억명 사용자들의 취향을 더욱 잘 이해함으로써 우리는 보다 합리적이고 효율적으로 서비스를 이용할 수 있다. 이 때 인공지능이 개개인의 취향을 정확하게 파악하지 못했다고 해서 우리 삶에 치명적인 문제가 발생하는 것은 아니다. 최악의 경우, 유저 성향 파악에 실패한 서비스 플랫폼의 사용자가 이탈하고 해당 플랫폼이 경쟁에서 밀려나는 정도일 것이다.

인공지능을 어디까지 믿어야 할까?

그러나 의료, 법률, 정치 등 다수의 삶에 중대한 영향을 끼칠 수 있는 분야에까지 인공지능이 침투했을 때, 이야기는 전혀 달라진다. 예를들어 인종, 성별, 거주지, 과거 범죄이력 등 특정 조건을 바탕으로 어떤 사람이 범죄를 저지를 것인지 예측하는 인공지능 모델이 있다고 가정해보자. 사용자인 우리는 인공지능 모델이 어떠한 데이터와 근거를 바탕으로 잠재적 범죄자를 예측했는지 알 수 없다. 이는 무죄추정의 원칙을 통해 단 한사람의 억울한 사람도 발생하게 하지 않게 하자는 법의 취지에 어긋날 뿐더러, 인간의 알 권리에 정면으로 도전하는 일이 될 수 있다.

출처: Shutterstock

위와같이 윤리, 도덕적인 이슈에 대한 사회적 합의가 중요한 법률이나 정치와 같은 영역에서 인공지능 도입수준은 타 영역에 비해 아직 미미한 수준이다. 그러나 국가와 정부의 역할이 모호해지고 합리성과 편의성의 측면에서 인간의 역할과 대체가능성에 대한 의문이 제기되기 시작한다면, 공공이나 정치분야에서 인공지능 보급은 시간문제일 뿐일지 모른다.

유발 하라리는 그의 저서 호모데우스에서 모든 것이 철저히 통제된 인공지능 기반 사회에 대해 이야기 한다. 그의 주장대로라면 개개인의 인권과 알권리를 중시하는 민주주의에는 인공지능이 적합하지 않을지 모른다. 오히려 그가 상상하는 인공지능이 주도하는 사회는 철저한 통제와 감독이 지배하는 독재주의 사회와 닮아있다. 인간이 개발한 인공지능이 인간의 삶을 옥죄는 무기가 되느냐 여부에는 ‘인간이 인공지능을 통제할 수 있는가’여부가 중요하게 작용한다.

따라서 우리는 더 늦기전에 인공지능에 대한 잠재적인 위협을 인식하고 통제권을 가져오기위한 노력을 시작해야한다. 무엇보다 사회 구성원 개개인의 따라서 국민 한 사람 한 사람의 인권과 참정권 보장이 핵심인 민주주의 체제에서 살아가고 있는 우리에게 인공지능과의 공존에 대해 생각하고 논의하는 것은 생각보다 시급하고 중요한 일인지도 모른다. 그 첫걸음으로 인공지능이 어떻게 민주주의와 우리의 삶을 위험에 빠뜨릴 수 있는지 그 잠재적인 위협 요소에 대해 살펴보도록 하겠다.

인공지능의 발전과정

많은 사람들이 간과하고 있는 사실이지만, 인공지능은 믿을 수 있는 기관의 감독하에 뚜렷한 목적과 방향성을 가지고 발전해 온 것이 아니다. 1956년 다트머스회의에서 존 메커시 교수에 의해 인간처럼 추론하고 문제를 풀 수 있는 인공지능의 개념이 처음으로 등장한 이후, 인공지능은 통계학과 컴퓨터과학의 힘을 빌려 발전해왔다.


이후 인공지능은 1970년대 기술적 한계에 부딪혀 빙하기를 맞게 되었다가, 은닉층(Hidden Layer)으로 XOR 문제를 해결한 딥러닝(Deep Learning)이 등장하면서 제2의 전성기를 맞게된다. 최근에 이르러서는 클라우드 컴퓨팅 기술과 GPU의 발전으로 어마어마한 양의 데이터를 저장하고 분석하는 것이 가능하게 되면서 이미지, 텍스트, 음성뿐 아니라 생성AI에 이르기까지 다방면에서 활용되게 된다.

이러한 발전과정에서 훈련 데이터를 활용한 지도학습(Supervised Learning)뿐 아니라 대량의 빅데이터(Big Data) 속에서 인간이 발견해 내지 못한 특성과 패턴을 찾아내는 비지도 학습(Unsupervised Learning)과 보상을 통해 스스로 패턴을 찾아내게 유도하는 강화학습(Reinforece Learning)에 이르기까지 다양한 테크닉이 등장한다. 문제는 이러한 인공지능 기술의 발전이 ‘스스로 학습하고 판단하는 기계’를 만들고 활용하고자 하는 인간의 욕망을 반영할 뿐, 작동 프로세스와 그것이 초래할 영향력에 대한 충분한 숙고 없이 이루어져왔다는 점이다. 이러한 인공지능의 발전과정은 다음에 살펴볼 ‘블랙박스 모델’이라는 문제를 만들어냈다.

블랙박스 모델과 설명가능한 AI(Explainable AI)

인공지능은 인간과는 비교가 되지 않는 방대한 양의 데이터를 학습하고 그 속에서 스스로 패턴을 찾아낸다. 생물학계에서 수십년에 걸쳐 연구해온 난제인 단백질 분자구조에 대해서도 인공지능은 분석과 예측이 가능하다.

다만, 우리는 그러한 결과가 어떠한 프로세스를 걸쳐서 도출되었는지 알 방법이 없다. 인공지능이 수억개의 매개변수와 인공신경망(ANN)을 거쳐서 만들어낸 프로세스는 인간의 이해범위를 넘어서기 때문이다.

이처럼 프로세스가 철저히 베일에 쌓인 인공지능 모델을 블랙박스 모델(Blackbox Model)이라고 한다. 블랙박스 모델의 계산 프로세스를 이해하려는 시도는 마치 황금알을 낳는 거위의 뱃속에 무엇이 들었는지 알아보기 위해 거위의 배를 가르는 것과 같다. 데이터가 기하급수적으로 늘어나고 컴퓨팅 파워가 과거와 비교도 되지 않게 발전한 요즘, 우리가 일상에서 마주하는 모델은 대부분 이 블랙박스 모델에 해당한다.

이에 대비되는 개념으로 입력값으로 들어간 변수가 분석과정과 결과에 어떻게 영향을 미치는지 유추해볼 수 있는 모델을 설명가능한 AI(Explainable AI)모델이라고 한다. 정치, 법률, 의료 등 민감하고 중요한 분야에 인공지능을 도입하고 활용하기 전에 우리는 일부라도 ‘설명가능한’ 인공지능 모델을 활용하려는 노력을 할 필요가 있다.

데이터의 편향

대부분의 인공지능 모델 개발은 훈련과 검증 그리고 테스트라는 과정을 거친다. 방대한 데이터 속에서 인간의 개입없이 인공지능이 스스로 패턴과 유사성을 찾아내는 비지도학습(Unsupervised Learning) 모델도 존재하지만, 지도학습(Supervised Learning)과 강화학습(Reinforcement Learning)에는 여전히 인간의 개입이 필요하다. 이는 훈련 데이터의 레이블링(Labeling)과 선정이라는 면에서 ‘인간의 편향(Human Bias)가 인공지능에 반영될 위험이 여전히 존재함을 뜻한다.

예를들어 미국과 같은 다인종, 다문화 국가에서는 필연적으로 한 사회의 대다수를 차지하는 주류인종(Majority) 에 대한 데이터가 소수인종(Minority)에 대한 데이터보다 많을 수밖에 없다. 이러한 편향은 고스란히 인공지능의 학습결과에 반영되어, 주류인종에 유리한 결과만을 도출하게 될 수 있다. 즉 우리는 또다른 인공지능 인종차별자(AI Racist)를 탄생시킬 수 있는 위험을 가지게 되는 것이다.






문과 출신으로 AI 스타트업에서 데이터 사이언티스트로 일하고 있습니다.