스프레드시트LLM이란 무엇인가?

스프레드시트LLM이란 무엇인가?

엑셀도 AI 시대! 스프레드시트LLM이란?

오늘날 데이터 분석 및 관리에서 스프레드시트는 필수적인 도구로 자리 잡고 있습니다. 엑셀이나 구글 시트와 같은 스프레드시트 프로그램은 간단한 데이터 입력에서부터 복잡한 재무 모델링까지 다양한 작업에 활용됩니다. 하지만 이러한 스프레드시트 데이터를 효과적으로 분석하고 처리하는 것은 여전히 어려운 과제였습니다. 이를 해결하기 위해 마이크로소프트(MS)는 2024년 7월 15일(현지시간)에 새로운 혁신적인 인공지능 모델인 "스프레드시트LLM(SpreadsheetLLM)"을 공개했습니다. 이번 블로그 글에서는 스프레드시트LLM의 개념, 필요성, 핵심 기술, 장점과 가능성, 그리고 미래 전망에 대해 살펴보겠습니다.

스프레드시트LLM(SpreadsheetLLM)은 대형 언어 모델(Large Language Models, LLMs)을 이용하여 스프레드시트 데이터를 이해하고 추론할 수 있도록 특별히 설계된 프레임워크입니다. 일반적으로 스프레드시트는 복잡한 2차원 그리드 구조와 다양한 서식 옵션을 가지고 있어 LLMs에게 도전적인 과제입니다. 스프레드시트LLM은 이러한 도전을 극복하기 위해 특화된 인코딩 방법과 압축 기법을 도입하여, LLMs이 스프레드시트 데이터를 효과적으로 처리하고 이해할 수 있도록 지원합니다.

왜 스프레드시트LLM이 필요한가?

1. 스프레드시트의 복잡성

스프레드시트는 2차원 그리드 구조를 가지고 있으며, 유연한 레이아웃과 다양한 서식 옵션을 제공합니다. 이는 데이터를 시각화하고 분석하는 데 매우 유용하지만, AI 모델이 이러한 복잡한 구조를 이해하고 처리하는 것은 매우 어려운 일입니다.

2. LLM의 한계

최근 LLM의 발전으로 자연어 처리 분야에서 많은 성과를 거두었지만, 스프레드시트의 특성상 LLM의 토큰 제한을 쉽게 초과하는 문제가 발생합니다. 또한, 스프레드시트 특유의 셀 주소, 수식, 서식 등은 AI 모델이 데이터를 파싱하고 활용하는 데 큰 장애물이 됩니다.

3. 스프레드시트 특유의 기능

스프레드시트는 단순한 데이터 입력 및 분석뿐만 아니라 복잡한 재무 모델링 및 의사결정에도 사용됩니다. 따라서 이러한 기능을 효과적으로 활용하기 위해서는 AI 모델이 스프레드시트 데이터를 정확하게 이해하고 처리할 수 있어야 합니다.

스프레드시트LLM 파이프라인 (사진=아카이브)

스프레드시트LLM의 핵심 기술

복잡한 스프레드시트 데이터를 AI가 효과적으로 이해하고 처리할 수 있도록 사용되는 몇 가지 핵심 기술은 다음과 같습니다. 

1. SheetCompressor

이는 SpreadsheetLLM의 핵심 인코딩 프레임워크입니다. SheetCompressor는 대규모 스프레드시트를 AI 모델이 처리할 수 있는 형태로 압축합니다. 놀랍게도 이 기술은 데이터를 평균 25배까지 압축할 수 있으며, 토큰 사용량을 최대 96%까지 줄일 수 있습니다. 이를 통해 대용량 스프레드시트도 LLM의 토큰 제한 내에서 효율적으로 처리할 수 있게 됩니다.

2. 구조적 앵커 기반 압축

이 기술은 스프레드시트의 레이아웃을 이해하는 데 중요한 역할을 합니다. 스프레드시트 내의 이질적인 행과 열을 '구조적 앵커'로 식별합니다. 이 앵커들은 주로 테이블의 경계에 있는 행과 열로, 전체 레이아웃에 대한 중요한 정보를 제공합니다. 그 다음, 반복적이고 동질적인 행과 열을 제거하여 스프레드시트의 '골격' 버전을 만듭니다. 이 과정을 통해 데이터의 구조를 유지하면서도 크기를 대폭 줄일 수 있습니다.

3. 역 인덱스 변환

이 방법은 특히 빈 셀이 많거나 반복되는 값이 많은 스프레드시트를 처리할 때 효과적입니다. 전통적인 행별, 열별 직렬화 대신 JSON 형식의 손실 없는 역 인덱스 변환을 사용합니다. 구체적으로, 비어 있지 않은 셀 텍스트를 인덱싱하는 사전을 만들고, 동일한 텍스트를 가진 주소들을 병합합니다. 이 방식은 데이터의 무결성을 유지하면서도 토큰 사용을 최적화합니다.

4. 데이터 형식 인식 집계

이 기술은 인접한 숫자 셀들이 유사한 숫자 형식을 공유하는 경우가 많다는 점을 활용합니다. 스프레드시트의 구조를 이해하는 데 있어 정확한 숫자 값보다는 전체적인 데이터 분포가 더 중요하다는 점에 착안했습니다. 따라서 이 방법은 셀들에서 숫자 형식 문자열과 데이터 유형을 추출한 후, 동일한 형식이나 유형을 가진 인접 셀들을 클러스터링합니다. 이를 통해 과도한 토큰 사용 없이도 수치 데이터의 분포를 효과적으로 이해할 수 있게 됩니다.

5. Chain of Spreadsheet (CoS)

이는 Chain of Thought (CoT) 방법론에서 영감을 받아 개발된 기술입니다. CoS는 스프레드시트 추론을 테이블 감지, 매칭, 추론의 파이프라인으로 분해합니다. 이 방법을 통해 SpreadsheetLLM은 복잡한 스프레드시트 관련 질문에 답하는 능력을 크게 향상시켰습니다.

스프레드시트LLM의 장점과 가능성

스프레드시트LLM은 다양한 장점과 가능성을 제공합니다.

1. 효율적인 데이터 처리

스프레드시트LLM은 기존 방식보다 스프레드시트 테이블 감지 작업에서 25.6% 더 뛰어난 성능을 보입니다. 이를 통해 더 정확하고 신속하게 데이터를 분석할 수 있습니다.

2. 다양한 응용 가능성

스프레드시트LLM은 일상적인 데이터 분석에서 복잡한 재무 모델링, 예측, 평가 등 다양한 분야에 적용될 수 있습니다. 이는 기업의 생산성을 높이고 비즈니스에 실질적인 도움을 줄 수 있습니다.

3. 사용자 친화적 인터페이스

복잡한 수식이나 프로그래밍 언어 대신 자연어를 사용하여 데이터를 조작하고 분석할 수 있어, 비전문가도 쉽게 사용할 수 있습니다. 이는 데이터 인사이트에 대한 접근을 민주화하고 조직 내 더 많은 사람들이 데이터 기반 의사결정을 내릴 수 있게 합니다.

4. 데이터 기반 의사결정 강화

스프레드시트LLM을 통해 조직 내 더 많은 사람들이 데이터를 이해하고 활용할 수 있게 되어, 데이터 기반 의사결정이 더욱 활성화될 것입니다. 이는 기업의 경쟁력을 높이는 데 중요한 역할을 할 것입니다.

스프레드시트LLM의 현재와 미래

현재 스프레드시트LLM은 연구 프로젝트 단계에 있으며, 아직 상용화되지 않았습니다. 하지만 이 기술은 GPT-3.5나 GPT-4와 같은 기존의 강력한 AI 모델들의 스프레드시트 이해 능력을 크게 향상시켰습니다. 예를 들어, GPT-4는 스프레드시트LLM의 도움을 받아 약 79%의 테이블 감지 정확도를 달성했습니다.

물론 아직 해결해야 할 과제도 있습니다. 복잡한 서식이 적용된 스프레드시트나 자연어가 포함된 셀 처리에는 여전히 어려움이 있습니다. 또한 AI의 확률적 특성이 스프레드시트의 정확성 요구와 항상 일치하지 않을 수 있다는 점도 고려해야 합니다.

그럼에도 불구하고, 스프레드시트LLM은 우리가 데이터를 다루는 방식에 혁명을 일으킬 잠재력을 가지고 있습니다. 이는 단순히 스프레드시트 작업의 효율성을 높이는 것을 넘어, 데이터 분석과 의사결정 과정 전반에 걸쳐 AI의 역할을 확대하는 계기가 될 것입니다.

결론

스프레드시트LLM은 AI와 데이터 분석의 융합이 가져올 미래를 보여주는 훌륭한 예시입니다. 이 기술은 복잡한 스프레드시트 데이터를 효율적으로 처리하고, 데이터를 기반으로 한 새로운 인사이트를 제공하며, 데이터 기반 의사결정을 강화할 수 있습니다. 스프레드시트LLM이 상용화된다면, 이는 기업의 생산성과 경쟁력을 크게 향상시킬 수 있을 것입니다. AI와 스프레드시트의 만남이 우리의 업무 방식을 어떻게 변화시킬지 기대가 됩니다.







미래를 향한 디지털 여정을 기록하는 작가입니다.


* 슈퍼브 블로그의 외부 기고 콘텐츠는 외부 전문가가 작성한 글로 운영 가이드라인에 따라 작성됩니다. 슈퍼브 블로그에서는 독자분들이 AI에 대한 소식을 더 쉽고 간편하게 이해하실 수 있도록 유용한 팁과 정보를 제공하고 있습니다.