초거대 언어모델(LLM)과 인간의 두뇌: 딥러닝과 인간의 뇌 그리고 튜링테스트

초거대 언어모델(LLM)과 인간의 두뇌: 딥러닝과 인간의 뇌 그리고 튜링테스트

클라우드 컴퓨팅 기술의 발전과 데이터의 증가로 초거대 언어모델(Large Language Model)이 가용할 수 있는 학습 데이터가 기하급수적으로 늘어나면서 성능이 점점 정교해지고 있다. 이러한 트렌드를 반영하듯 인공지능 업계에서는 ChatGPT는 거대한 변화의 서막일 뿐이라고 보는 견해가 많다.

올해 OpenAI가 공개한 GPT 시리즈의 최신버전 GPT-4.0에는 이전 버전의 1750억개를 아득히 뛰어넘는 약 1조개의 매개변수(파라미터)를 가지고있는 것으로 추정되고 있으며 이 매개변수의 수는 앞으로도 늘어날 가능성이 있다.
* 매개변수(파라미터)란 언어모델이 학습 중에 신경망에서 조정되는 값으로, 보통 매개변수가 많으면 AI의 성능이 좋아진다.

초거대 언어모델의 눈부신 발전은 인간의 상상력을 자극하기에 좋은 주제다. 사람들은 ‘인간같은 인공지능’이라는 화두에 깊은 끌림을 느낀다. 인간의 두뇌를 모사한 초거대 언어모델(LLM)은 사람처럼 사고하고 세상을 인식할 수 있을까? 이 질문에 대한 답을 찾기위해 우선 딥러닝과 인간의 뇌가 작동하는 방식에 대해 알아보자.


인간의 두뇌와 딥러닝(Deep Learning) 모델이 작동하는 방식

출처 : 성균관대학교

딥러닝(Deep Learning)의 인공신경망(Artificial Neural Network)와 순전파(Feedforward)와 역전파(Backpropagation)의 개념은 인간의 두뇌의 작동 원리에서 차용된 것이기 때문에 인공지능의 작동 원리를 더욱 세밀하게 이해하기 위해서는 우선 우리 인간의 뇌를 살펴보는 것이 도움이 된다.

출처 : 한겨례

우리 두뇌는 뉴런이 시넵스를 통해 전기 신호를 주고받는 구조로 되어있다. 뉴런이란 인간의 뇌 속에서 신경전달물질을 통해 신호를 전달하고 정보를 받아들이며 처리하는 역할을 하는 물질로, 인간은 약 600억개에서 1000억개의 뉴런(Neuron)을 가지고 태어난다고 한다. 또한 이러한 뉴런에는 자극을 세포 밖으로 전도시키는 돌기인 축삭이라는 부분이 있는데, 축삭의 끝부분과 신경전달물질이 오가는 다음 뉴런 사이의 틈을 시냅스(Synaps)라고 한다. (출처:서울아산병원)

인공신경망을 순전파와 역전파를 통해 연결하여 신호를 주고받게 하며 정답에 가까워지게 하는 딥러닝의 학습 방식은 우리 뇌가 뉴런을 시넵스를 통해 연결하여 신호를 주고받으며 학습하는 방식과 매우 유사하다. 그렇다면 초거대 언어모델의 성능이 극적으로 고도화되면 과연 인공지능이 인간처럼 생각을 하게될 수 있을까? 라는 궁금증이 자연스럽게 생기게 된다.

LLM(초거대 언어모델)이 작동하는 방식


딥러닝에 대해 알아보았으니 이제 초거대 언어모델에 대해 조금 더 자세히 살펴보자. 초거대 언어모델(LLM)이 언어를 학습하는데는 위에서 살펴본 딥러닝의 원리가 활용된다. LLM은 딥러닝 방식으로 방대한 양을 사전학습(pre-trained)한 전이학습(transfer) 모델이다.

따라서 인간의 두뇌가 학습하는 방식과 닮은 구석이 있다. LLM은 문장에서 가장 자연스러운 단어 시퀀스를 찾아내는 딥러닝 모델이며, 문장 속에서 이전 단어들이 주어졌을 때 다음 단어를 예측하거나, 주어진 양쪽의 단어들 사이에서 가운데 단어를 예측하도록 하는 등의 방식으로 작동한다.

Google이 발표한 언어모델 Transformer의 Decoder(우측) 부분만 사용하는 GPT


이러한 인공 신경망 기반의 언어 모델들은 방대한 양의 데이터를 학습하여 인간과 같은 자연스러운 문장을 생성한다. 정교해진 GPT는 보다 더욱 세밀하게 사람의 의도를 이해하고, 적절한 답을 할 줄 알며, 심지어는 사람처럼 말하는 법까지 배우고 있다.

그렇다면 사람의 뇌와 비슷한 방식으로 작동하는 딥러닝 모델은 사람처럼 생각할 수 있을까? 이에 대한 나름의 답을 찾기 위해 고심했던 학자들이 있다. 바로 튜링 테스트로 유명한 엘런 튜링과 중국어 방 사고실험을 제안했던 존 설이다.

튜링 테스트 : 인공지능은 이미 임계점을 넘은 것일까?


튜링 테스트는 1950년 인공지능의 아버지로 불리는 컴퓨터 과학자 앨런 튜링에 의해 고안된 테스트로, 인간의 것과 동등하거나 구별할 수 없는 지능적인 행동을 보여주는 기계의 능력에 대한 테스트이다.(출처:wikipedia) 즉 인간처럼 말하거나 행동해 인간과 구분할 수 없는 기계를 가려내기 위한 테스트다.

튜링 테스트(출처 : wikipedia)

튜링 테스트는 러시아의 연구진이 개발한 인공지능 모델 '유진 구스트만(Eugene Goostman)'의 일화로도 유명하다. 우크라이나 출신의 13세 소년을 상정하고 만든 '유진 구스트만'은 실제로 영어를 모국어로 하지 않는 외국 출신의 소년이 말할법한 영어 문장들을 완벽히 재현해 심사위원들을 완벽히 속이고 튜링 테스트를 통과한 것으로 알려져 있다. 최근 GPT-4.0이 이 튜링 테스트를 통과했다는 설이있다.

그러나 유진 구스트만 에게도 한계점은 있었다. 자신을 우크라이나 출신 소년이라고 소개한 그는 테스트가 끝난 뒤 '우크라이나에 가본 적이 있니?'라는 질문에 '아니요'라는 황당한 대답을 내놓았다. 이를 두고 게리 마커스 뉴욕대 인지과학과 교수는 “튜링 테스트를 통과했다는 건 거짓말을 주고받는 데 성공했다는 의미”라고 비난했다. (출처 : 동아사이언스)

한편 튜링 테스트 자체에 대한 비판도 많다. 우선 앞의 유진 구스트만의 예에서 처럼 인공지능이 단순히 인간처럼 보이도록 '속이는 것'일뿐 실제로 인간과 비슷한 프로세스를 거쳐 사고를 하는지에 대해서는 알 방법이 없다는 한계점 때문이다. 이는 ChatGPT를 비롯해 최신 딥러닝 모델이 답을 도출해 내는 과정은 블랙박스(blackbox)로 베일에 쌓여있기 때문이다. 또한 비슷한 한계점으로 튜링 테스트에서 '인간을 기계로 오판하는 경우'도 있다.

인공지능을 이해하기 위해서는 인간을 이해해야 한다


방대한 언어 데이터를 학습하여 인간만큼 자연스러운 문장을 구사하는 ChatGPT는 인간의 관점에서 결국 우리 인간을 단순히 '모방'하는 것에 지나지 않을 수 있다. 또한 앞에서 살펴보았듯 인간의 뇌구조를 모사한 딥러닝 언어모델의 특성상 ChatGPT의 사고 프로세스는 블랙박스(Blackbox)로 완전히 베일에 가려져 있다.

따라서 ChatGPT가 정확히 어떠한 프로세스를 거쳐서 답을 도출해 내는지는 우리가 알아낼 방법이 없다. 인간의 두뇌와 인공지능 모델은 분명 매우 닮은 구석이 있지만, ‘인공지능이 자의식을 가지고 인간처럼 세상을 의식하고 있는가?’에 대한 질문에 답하기 위해서는 아직 우리가 규명해야할 질문들이 너무 많다.

가령 ‘의식이란 무엇인가?’ ‘관념론과 유물론의 관점에서 인간은 어떻게 세상을 인식하는가?’ 등 수많은 철학적인 질문에 대한 답을 내려야 한다. 나아가 ‘영혼의 존재’와 ‘사후세계와 윤회’ 등 종교적이고 근본적인 부분에 대한 나름의 결론을 내리고 난 뒤에야 우리는 우리가 만들어낸 인공지능의 정체를 비로소 이해할 수 있을 것이다. 그리고 이러한 과정은 인간 스스로에 대한 내적 탐구의 과정이다. 우리 스스로에 대한 올바른 이해 없이는 인공지능과의 공존은 불가능하기 때문이다.






문과 출신으로 AI 스타트업에서 데이터 사이언티스트로 일하고 있습니다. 



* 슈퍼브 블로그의 외부 기고 콘텐츠는 외부 전문가가 작성한 글로 운영 가이드라인에 따라 작성됩니다. 슈퍼브 블로그에서는 독자분들이 AI에 대한 소식을 더 쉽고 간편하게 이해하실 수 있도록 유용한 팁과 정보를 제공하고 있습니다.