좋은 데이터에서 탁월한 LLM이 나온다

좋은 데이터에서 탁월한 LLM이 나온다

지난달 21일 한국을 방문한 스탠포트 대학교의 앤드류 응(Andrew Ng) 겸임교수는 "우수한 데이터 관리와 가공은 인공지능 구축 과정에서 약 80%의 핵심 작업을 차지한다.”고 강조했다. 응 교수는 데이터 중심 인공지능(Data-centric AI)의 필수성에 대해 강조하면서, AI 개발자들에게 코드의 수정을 통한 하이퍼파라미터 조절에 지나치게 의존하기보다는 고품질의 데이터 확보 및 관리에 주력할 것을 촉구하였다. 또한, 그는 이러한 접근 방식이 어떻게 성능 향상을 가져다주는지 구체적인 성능개선 수치를 제시하며 증명해 보였다.

데이터는 초거대언어모델(LLM)과 생성형 AI를 움직이는 원유다

이처럼 다량의 데이터는 생성형 AI와 초거대언어모델(LLM)을 포함한 최신 인공지능 모델의 성능 최적화에 있어 결정적인 변수로 작용한다. 인간의 신경 구조를 반영한 인공신경망(Artificial Neural Network, ANN) 기반의 딥러닝 방법론은 다양한 매개변수와 사전 학습된 텍스트 데이터의 볼륨에 따라 사용자의 언어를 정밀하게 이해하며, 이를 통해 인간 같은 자연스러운 대화 능력을 확보하게 설계되어있기 때문이다.

그러나 단순한 데이터 양의 증가만으로는 인공지능 모델의 최적화를 달성하기 어렵다. 따라서 우리는 데이터의 질이 그 양만큼이나 중요하다는 점을 간과해서는 안 된다. 'Garbage in, garbage out(쓰레기가 들어가면, 쓰레기가 나온다)'는 원칙에 따르면, 품질이 저하된 데이터는 그 규모가 어마어마하더라도 원하는 성과를 가져오기 어렵다. 그렇다면 품질 높은 데이터란 어떤 특징을 갖추고 있어야 하는가? 그리고 기업체는 방대한 데이터 자원을 효과적으로 획득하고, 그 품질을 지속적으로 관리하여 시장에서 우위를 차지하려면 어떠한 전략을 택해야 할까?

좋은 데이터의 기준은?

때로는 양질의 데이터를 수집하는 것이 많은 양의 데이터를 수집하는 것 보다 중요하다. 클라우드 컴퓨팅의 발전 및 컴퓨팅 리소스 확장으로 인해 방대한 정형 및 비정형 데이터의 접근성이 증가하며, LLM 및 기타 언어 모델, 생성형 AI의 규모는 계속 확대되고 있다. 앤드류 응 박사의 주장대로, 데이터 중심의 인공지능 접근법은 현재 AI 분야의 주요한 트렌드가 되었기 때문이다. 그렇다면 좋은 데이터의 정의는 무엇일까?

앤드류 교수의 정의에 따르면, 우수한 데이터는 일관성을 유지하고, 모든 예상되는 시나리오를 포함하며, 실제 환경의 데이터로부터 적절한 피드백을 통해 지속적으로 업데이트된다. 여기서 '일관성 있는 데이터'는 통일된 표현법과 단위를 갖는 데이터를 의미하며, 이를 통해 유의미한 통찰력을 얻을 수 있다.

'포괄적 데이터'는 AI 모델의 미확인 영역을 최소화하기 위한 다양한 데이터를 포함한다. 예를 들면, 음성 인식을 위한 데이터셋은 신조어나 유행어 같은 변동성이 큰 요소를 정기적으로 업데이트하여, 언어의 동적 특성을 반영해야 한다. 모델의 실제 활용 상황을 고려하여 데이터 커버리지를 확장하는 것이 성능 최적화의 핵심이다.

데이터는 한 번만 사용되는 것이 아니며, 지속적인 모니터링, 피드백 및 재학습 과정을 통해 지속적으로 최적화될 필요가 있다. 이러한 접근을 통해 AI 모델은 편향의 위험 없이 강화된다. 그 외에도, 중복이 없는 독창적이며 정확하고 균형 잡힌 데이터를 '우수한 데이터'로 볼 수 있다. 특히, 학습 데이터의 균형은 중요한데, 편향된 데이터셋으로 학습된 모델은 잘못된 예측을 생성할 위험이 있다.

좋은 데이터를 확보하려면?

우선, 모든 데이터 중심 프로젝트에서 핵심적인 것은 데이터 수집에 앞서 깊이 있는 목적 및 전략 설정이다. 이에 따라, 데이터 수집은 체계적, 계획적으로 진행되어야 하며, 그 목적과 활용 범위는 사전에 명확하게 정의되어야 한다.

다음으로, 인공지능 모델과 연관된 데이터는 지속적인 변화의 특성을 지닌다. 그러므로 데이터 수집은 한 번의 과정이 아니라 계속적인 과정이어야 하며, 주기적인 업데이트를 통해 최신의 트렌드와 패턴을 포착해야 한다.

또한, 데이터의 신뢰성을 확보하기 위한 정제 및 검증 과정은 불가피하다. 원본 데이터 내의 불필요한 또는 중복된 정보들은 데이터의 품질 저하의 원인이 되므로, 철저한 전처리 및 검증 절차를 거쳐야 한다. 이 과정은 실제 AI 모델 개발에서 중요한 비중을 차지하며, 데이터의 가공 및 정제는 모델의 성능에 결정적인 영향을 미친다.

더불어, 데이터의 균형과 다양성을 위해 여러 소스에서의 수집이 필요하다. 단일 소스에서만의 수집은 데이터 내 편향을 초래할 수 있다. 이러한 접근 방식은 OpenAI의 ChatGPT와 같은 복잡한 모델에서도 적용되며, 다양한 웹사이트로부터의 매대 데이터 수집을 통해 다양한 문제에 대한 반응이 가능해진다.

마지막으로, AI 모델을 통한 피드백 메커니즘이 중요하다. 모델 학습 결과를 통한 데이터 품질 개선 전략의 반영은 모델의 성능 향상과 동시에 데이터의 질을 상승시킨다. 현대의 AI 플랫폼들은 이러한 데이터의 변화와 모델의 성능 평가를 위한 다양한 도구를 제공하여, 지속적인 향상을 도모하도록 지원한다.






문과 출신으로 AI 스타트업에서 데이터 사이언티스트로 일하고 있습니다. 



* 슈퍼브 블로그의 외부 기고 콘텐츠는 외부 전문가가 작성한 글로 운영 가이드라인에 따라 작성됩니다. 슈퍼브 블로그에서는 독자분들이 AI에 대한 소식을 더 쉽고 간편하게 이해하실 수 있도록 유용한 팁과 정보를 제공하고 있습니다.