효과적인 생성형 AI 운영을 위한 클라우드 컴퓨팅 (엣지 컴퓨팅과 서버리스 컴퓨팅이란?)

효과적인 생성형 AI 운영을 위한 클라우드 컴퓨팅 (엣지 컴퓨팅과 서버리스 컴퓨팅이란?)

생성형 AI 시대가 도래하면서 데이터 소스가 다양화되고 빠른 응답과 실시간 처리가 중요해지고 있다. 예를 들어 초거대언어모델(LLM)에 기반한 서비스를 제공하는 회사의 경우 사용자 트래픽에 따른 효율적인 계산 리소스 분배와 유연한 대응이 필수적이다. 마찬가지로 자율주행 자동차나 IoT(Internet of Things, 사물인터넷) 등 방대한 양의 데이터에 대한 실시간 접근이 필요한 기술의 경우 끊김 없는 데이터 수집 및 처리가 중요하다.

이러한 최신 기술 트렌드를 고려했을 때 기존의 중앙 집권화된 클라우드 컴퓨팅 방식으로는 명확한 한계가 있다. 방대한 양의 데이터 막힘없이 수집 및 가공하고 끊김 없이 양질의 생성형 AI 서비스를 제공하는 것이 중요한 요즘 관련, 기술의 중요성은 아무리 강조해도 지나치지 않다. 최근에는 기존 클라우드 컴퓨팅의 단점을 보완하기 위해 엣지 컴퓨팅(Edge Computing)과 서버리스 컴퓨팅(Serverless Computing) 기술이 주목받고 있다. 

1. 엣지 컴퓨팅이란?

온디바이스(On-device)  AI 혹은 엣지 AI는 머신러닝/딥러닝 모델이 기기에서 생성한 데이터를 사용하여 별도의 인터넷이나 클라우드와 같은 중앙 집중형 서버에 연결할 필요없이 기기에서 직접 실행되는 분산형 컴퓨팅 패러다임이다. 데이터 소스와 가까운 곳에서 직접 연산을 수행할 수 있어 지연 시간을 줄이고, 실시간 처리를 할 수 있다는 장점이 있다.

(출처 : Samsung Display Newsroom)

예를 들어 자율주행 차량이나 사물 인터넷의 센서 등을 통해 수집되는 방대한 양의 데이터는 생성형 AI와 같은 딥러닝 기반 모델의 학습 및 커스터마이즈에 실시간으로 반영되어 직접적으로 성능을 향상시킬 수 있다. 이러한 방식을 통해 실시간으로 생성되는 데이터에 대한 빠른 응답을 유지하면서 데이터의 중앙 집중식 처리량을 줄일 수 있다. 

생성형 AI 모델은 엣지 디바이스에서 실행되어 지능적인 의사결정을 내릴 수 있을 뿐만 아니라 클라우드 컴퓨팅 시스템과 통합되어 유기적으로 작동할 수 있다. 클라우드 컴퓨팅이 이러한 엣지 장치와의 연결성을 향상시키고, 모델의 업데이트 및 관리를 지원하는 형태로 작동하는 것이다.

2. 서버리스 클라우드 컴퓨팅

생성형 AI가 확산되고 대화형 인터페이스를 중심으로 한 소규모 이벤트 중심의 어플리케이션 서비스가 늘어나면서, 인프라 유지 및 관리에 대한 걱정 없이 저렴한 비용으로 소규모 서비스 개발 및 배포가 가능한 서버리스 컴퓨팅 기술이 주목받고 있다.

서버리스 컴퓨팅 방식은 CSP(Cloud Service Provider)가 서버를 직접 관리 및 실행하며 요청이나 특정 이벤트가 있을 때에만 필요한 자원을 할당받아 클라우드의 서버를 이용하거나 서비스할 어플리케이션을 동작시키는 방식으로 작동한다.

BaaS의 작동원리 (출처 : Inpa Dev)

서비스형 기능(FaaS) 혹은 서비스형 백엔드(BaaS)라고도 하는 서버리스 컴퓨팅은 기업이 서버 인프라를 직접 관리해야 하는 부담 역시 덜어준다. 기존 클라우드 컴퓨팅 서버의 경우 하루 종일 서버가 켜져 있어야 했으며, 요청이 없을 때에도 계속해서 서버의 자원이 할당되고 구동되고 있어야 했다.

이러한 기존의 클라우드 컴퓨팅 방식은 기업이 서버 인프라 관리에서 자유로워질 수 없다는 단점이 있었지만, 서버리스 방식을 활용하게 되면 클라우드 사용자(개발자)는 서버 관리에서 완전히 자유로워지며 실제 구현해야 할 기능에 더 집중할 수 있게 된다.

3. 생성형 AI와 서버리스

적게는 2B(20억 개)에서 많게는 수 조개에 달하는 매개변수(Parameter)를 가진 거대한 생성형 AI 모델의 성능을 유지하고 운용하기 위해서 다양한 방식의 모델 압축 기술에 대한 연구가 진행되어 왔다. 이러한 기술들은 정확도를 유지하면서 모델의 크기를 줄이는 것을 목표로 하는데, 모델의 크기가 거대한 만큼 막대한 계산 리소스가 필요로 했기 때문이다.

그러나 이러한 모델 압축 기술들은 모델의 성능을 유지하기 어렵다는 점에서 명확한 한계점을 노출해 왔다. 모델 압축을 보완할 수 있는 기술로서 서버리스 기술이 주목받고 있다. 생성형 AI에 서버리스 아키텍처를 활용하면 초거대언어모델이 공유 GPU 클러스터에서 호스팅 되며, 사용자의 수요에 따라 자원이 동적으로 할당된다. 따라서 LLM 사용을 위한 체크포인트 다운로드 및 로딩에 들어가는 비용을 획기적으로 줄일 수 있게 된 것이다.

Serverless LLM 아키텍쳐 (출처 : unite.ai)







문과 출신으로 AI 스타트업에서 데이터 사이언티스트로 일하고 있습니다. 


* 슈퍼브 블로그의 외부 기고 콘텐츠는 외부 전문가가 작성한 글로 운영 가이드라인에 따라 작성됩니다. 슈퍼브 블로그에서는 독자분들이 AI에 대한 소식을 더 쉽고 간편하게 이해하실 수 있도록 유용한 팁과 정보를 제공하고 있습니다.