인공지능 주권과 소버린(Sovereign) AI
소버린 AI는 데이터 주권, 문화적 맥락 및 기술적 독립성을 우선시하는 인공지능 개발의 국가적 전략입니다. GPT-3와 같은 글로벌 AI 모델에서 한국어 데이터가 0.015% 미만인 반면, 국내 기업들은 한국어에 특화된 AI 모델을 개발하여 언어 성능뿐만 아니라 국가 데이터 주권을 강화하고 있습니다. 소버린 AI는 자체 컴퓨팅 자원과 데이터센터를 필요로 하지만, 글로벌 데이터와의 상호작용 제한이라는 한계도 가지고 있습니다. 이 글에서는 AI 주권의 중요성과 소버린 AI의 조건 및 한계점을 탐구합니다.

생성형 AI 모델은 성능 향상을 위해 방대한 양의 데이터를 학습하는 사전학습(pre-training) 이라는 과정을 거친다. 이 때 웹사이트, 책, 뉴스, 과학 논문, 위키백과, 소셜 미디어 게시물, 코드 등 다양한 출처에서 수집한 데이터셋이 활용되는데, 이 과정에는 영어 이외에도 세계 각국의 언어로 된 데이터셋이 활용된다.
OpenAI에서 공개한 테크니컬 리포트에 따르면 GPT-3 모델의 사전학습 과정에 사용된 전체 언어 데이터셋 중 한국어 데이터셋이 차지하는 비율은 0.01459%에 불과했다. 영어의 비율이 약 92.09864%로 압도적인 것과 비교하면 매우 미미한 수준이라고 할 수 있다. 사전학습에 활용된 데이터의 양이 많으면 많을수록 생성형 AI 모델은 매끄럽고 자연스러우며 정확한 답변을 생성해내는 것이 당연하다. 따라서 상대적으로 훈련 데이터의 양이 적은 GPT-3의 한국어 구사 능력은 낮을 수밖에 없다.
GPT-4 이후로 한국어 성능이 많이 개선된 것으로 평가받고 있지만, 여전히 챗GPT가 제공하는 정보는 질과 양 모두 영어가 한국어보다 훨씬 더 뛰어난 것으로 평가받고 있다. OpenAI에서 GPT-4 이후 모델의 사전학습 훈련 데이터에 대한 구체적인 수치는 공개하지 않고 있지만 사전학습에 활용된 각 국 언어의 비율은 GPT-3와 크게 달라지지 않았을 것으로 예상된다.
이러한 해외 생성형 AI 서비스의 문제점을 해결하고 생성형 AI 모델의 한국어 성능 개선을 위해 네이버와 카카오 등 국내 스타트업들은 ‘한국어 특화형’ 생성형 AI 모델 개발에 열을 올리고 있다. 풍부한 한국어 데이터셋이라는 강점을 내세워 한국어 데이터를 훨씬 더 많이 학습한 모델로 해외 생성형 AI 서비스의 부족한 한국어 실력을 보완하고자 하는 시도이다.
소버린(sovereign) AI란?
그러나 국내 스타트업들이 단순히 성능 개선만을 목적으로 ‘한국어 특화형’ 모델을 만들고 있는 것은 아니다. 그들은 AI 기술의 독립성과 자주성을 보장하고 고유의 문화적 다양성을 유지하고자 하는 더 큰 목표를 가지고 있다. 여기서 살펴봐야 할 중요할 개념이 바로 ‘소버린(sovereign) AI’다.
‘주권있는 AI’ 혹은 ‘자주적인 AI’로 해석할 수 있는 소버린 AI는 국가나 특정 지역의 언어와 문화 그리고 정치와 사회 등에 특화된 AI 모델을 개발하고, 이를 통해 해당 지역의 데이터와 요구사항을 반영한 맞춤형 AI 솔루션을 제공하고자 하는 움직임이다. 이러한 모델은 주로 국가적 차원에서 AI 기술의 자율성과 안전성을 확보하려는 목적을 가지고 있는데, 주로 데이터 주권(data sovereignty)을 지키기 위한 측면이 강하다.
이처럼 소버린 AI의 핵심은 데이터의 보호와 관리에 있다고 해도 과언이 아니다. 생성형 AI 모델의 학습에 사용되는 데이터는 대부분 WWW(World Wide Web) 즉 글로벌 인터넷에서 수집된 정보인데, 그 안에는 각국의 개인정보 및 민감한 정보가 포함될 수 있다. 따라서 특정 국가에서는 이러한 데이터를 외국 기업이 사용하고 관리하는 것을 우려할 수 있다.
소버린 AI는 이러한 우려를 해결하고, 각국의 법과 규제를 준수하는 방식으로 AI 기술을 개발하려는 시도이다. 특히, 한국어 특화형 AI 모델을 개발하는 데 있어서, 한국의 문화와 사회적 맥락을 고려한 정밀한 데이터 학습을 통해 국가적 차원의 기술 주권을 강화하려는 것이다.
물론 소버린 AI는 단순히 언어 성능 향상에 그치지 않는다. 특정 국가의 정치, 경제, 사회적 특성을 반영한 AI 시스템을 구축하는 것은 해당 국가의 기술적 자립성을 높이고, 외부의 기술적 종속성을 줄이는 중요한 과정이다. 예를 들어, 한국어 특화형 소버린 AI 모델은 한국의 고유한 정치 구조와 사회 문화를 이해하고, 국내 기업과 사용자들의 요구를 더 정확하게 반영하여 적절하고 유용한 답변을 생성해 낼 수 있게 되는 것이다.
이와 같은 움직임은 단지 언어 처리 성능에만 국한되지 않고, 다양한 분야에서 국가별 AI 기술의 경쟁력을 높이는 중요한 요소로 작용할 수 있다. AI 기술이 발전함에 따라, 각국은 자신들의 고유한 데이터와 정보를 보호하면서도 글로벌 AI 기술 경쟁에서 뒤쳐지지 않기 위해 소버린 AI 모델을 개발하는 데 집중하고 있다. 이는 단순히 기술 발전에 그치는 것이 아니라, 데이터 주권, 보안, 그리고 국가의 경제적 이익을 위한 전략적인 차원의 도전이라고 볼 수 있다.
소버린(sovereign) AI 구현을 위한 조건들
이러한 소버린 AI를 실현하기 위해서는 여러 조건들이 충족되어야 한다. 그 중 가장 중요한 것이 대규모 컴퓨팅 자원 확보와 자체 데이터센터 구축이다. 생성형 AI 모델이 효과적으로 작동하려면, 방대한 양의 데이터를 처리하고 학습하는 능력이 필수적이다. 이를 위해서는 고성능 컴퓨팅 자원과 효율적인 알고리즘이 필요하다.
특히, 생성형 AI 모델은 매우 대규모의 데이터셋을 처리하고 학습하는 과정에서 막대한 연산 자원을 요구하는데, 이때 중요한 역할을 하는 것이 바로 GPU(Graphics Processing Unit)와 같은 고성능 하드웨어이다.
GPU는 AI 모델의 학습 속도와 효율성을 극대화하는 데 필수적인 기술이다. 특히, 생성형 AI 모델은 수억 개의 파라미터를 포함한 대규모 모델을 학습시키기 때문에, 전통적인 CPU보다 훨씬 더 빠르고 병렬적으로 연산을 처리할 수 있는 GPU의 능력이 절대적이다. 또한, GPU는 대규모 데이터셋을 효율적으로 처리할 수 있도록 설계되어 있기 때문에, AI 모델의 성능을 높이고 훈련 시간을 단축시키는 데 중요한 역할을 한다. 이러한 하드웨어 요건은 특히 소버린 AI 모델을 개발할 때 매우 중요한 요소로 작용한다.
하지만, 소버린 AI 구현을 위한 GPU와 같은 고급 기술 자원의 확보는 여러 국가에서 큰 도전 과제가 될 수 있다. 최신 GPU는 상당히 높은 비용이 들며, 이를 국내에서 자체적으로 생산하거나 충분히 확보하기란 매우 어려운 상황일 수 있다. 또한, AI 모델 학습을 위한 데이터셋을 국내에서 전면적으로 수집하고 가공하는 데에도 상당한 시간과 비용이 소모된다.
더 나아가, 소버린 AI를 실현하려면 데이터 인프라의 구축도 필수적이다. 국내 데이터셋을 효과적으로 수집하고 처리할 수 있는 시스템을 구축해야 하며, 이러한 과정에서 발생할 수 있는 법적, 윤리적 문제들을 해결하는 것도 큰 도전이다. 예를 들어, 개인정보 보호와 같은 민감한 데이터의 처리에 있어 국가 간의 규제 차이를 고려해야 하며, 이는 기술적 문제를 넘어선 사회적, 정치적 문제로도 확장될 수 있다.
또한, AI 모델을 단순히 훈련시키는 것 외에도, 생성형 AI가 해당 국가의 문화, 정치, 사회적 특성을 정확히 반영하는 방식으로 데이터를 학습하고 동작할 수 있도록 하는 정교한 모델 설계와 조정 역시 중요한 기술적 요건이다. 이를 위해서는 AI 전문가들이 모델을 꾸준히 튜닝하고, 해당 국가의 특수한 데이터를 반영하여 최적화하는 작업이 필요하다.
결국, 소버린 AI 모델은 단순히 고성능 하드웨어와 데이터를 확보한다고 해서 쉽게 구현될 수 있는 것이 아니다. 이는 국가적 차원의 기술적 역량과 자원, 그리고 AI 기술의 자립성을 높이기 위한 종합적인 노력이 필요한 과제이다. 각국은 소버린 AI 구현을 위한 인프라와 기술적 기반을 강화하는 동시에, 글로벌 AI 기술 경쟁에서 뒤처지지 않기 위해 다양한 방안을 모색하고 있다. 이를 통해 각국의 데이터 주권을 강화하고, 독립적인 AI 생태계를 구축할 수 있는 가능성을 열어갈 수 있을 것이다.
소버린(sovereign) AI의 한계점
소버린 AI는 데이터 주권과 문화적 다양성을 보호할 수 있다는 장점에도 불구하고 몇 가지 중요한 한계점도 가지고있다. 우선, 소버린 AI는 글로벌 데이터와의 상호작용에 있어 제약을 받을 수 있다.
AI 모델이 다른 국가나 지역의 데이터와 교류하고, 이를 통해 글로벌한 관점에서 학습하는 것이 중요한 만큼, 각 국가에서 독립적으로 운영되는 소버린 AI는 세계화라는 시대적 흐름에 반하는 움직임이 된다고 보는 시각도 있다. 예를 들어, 해외에서 발생하는 새로운 기술적 발전이나 중요한 데이터를 학습하기 어려워지면, 그 AI는 점차적으로 글로벌 트렌드와의 동기화가 어려워질 수 있는 것이다.
다음으로 국가별 데이터 보호 규제와 정책의 차이로 인한 기술적 격차를 초래할 수 있다. 각국의 데이터 보호 규제와 법률이 다르기 때문에, 이를 준수하려는 과정에서 AI 모델의 개발이 지연되거나 제한될 수 있다. 뿐만 아니라 데이터 주권을 강조하는 과정에서 자국의 데이터만을 수집하고 학습하는 데 집중할 경우, AI 모델이 편향된 정보만을 바탕으로 학습될 위험이 커질 수 있다는 점도 고려해야 할 필요가 있다. 이는 AI의 정확성과 공정성에 부정적인 영향을 미칠 수 있다.
소버린 AI 모델의 개발에는 막대한 자원이 필요하다는 점 역시 간과해서는 안된다. AI 모델을 국가 단위로 특화시키는 작업은 데이터 수집, 정제, 학습 과정에 많은 시간과 비용을 들여야 하며, 이는 기업이나 정부 차원에서 큰 투자를 요구한다. 또한, 이러한 기술적 자립을 추구하는 과정에서 자원의 낭비가 발생할 수 있으며, 글로벌 협력보다 더 많은 경쟁을 불러올 수도 있다. 예를 들어, 국가 간의 AI 경쟁이 심화되면서 기술 개발에 필요한 자원이 과도하게 집중될 수 있다.
마지막으로, 소버린 AI가 강조하는 자국의 문화와 언어에 맞춘 모델은 다른 국가의 문화나 언어를 충분히 반영하지 못할 수 있다. 글로벌한 AI 모델은 다양한 문화적 배경과 언어적 특성을 포함해 더욱 포용적이고 균형 잡힌 성능을 제공할 수 있는 반면, 소버린 AI는 특정 국가나 문화에 집중함으로써 국제적인 협업이나 상호 이해를 제한할 수 있다.
결론적으로, 소버린 AI는 국가 주도의 기술 자립을 추구하는 중요한 전략이지만, 그 실행에는 여러 가지 기술적, 경제적, 정치적 도전이 따를 수 있다. 이러한 한계를 극복하고 효율적인 AI 모델을 개발하기 위해서는 각국의 협력과 글로벌 규제의 조화가 필요할 것이다.
문과 출신으로 AI 스타트업에서 데이터 사이언티스트로 일하고 있습니다. |
* 슈퍼브 블로그의 외부 기고 콘텐츠는 외부 전문가가 작성한 글로 운영 가이드라인에 따라 작성됩니다. 슈퍼브 블로그에서는 독자분들이 AI에 대한 소식을 더 쉽고 간편하게 이해하실 수 있도록 유용한 팁과 정보를 제공하고 있습니다.