RAG 성능평가의 비밀: Ragas 스코어 완벽 가이드
LLM 파인튜닝의 높은 비용과 기술적 장벽에 대한 대안으로 RAG(검색증강생성) 기법이 주목받고 있습니다. RAG는 구글링하듯 외부 정보를 활용해 생성형 AI의 성능을 크게 개선하는 방법론이지만, 기존의 BLEU나 ROUGE 같은 평가 지표로는 그 성능을 제대로 측정할 수 없습니다. 이 글에서는 RAG의 핵심 개념과 검색(retrieval)과 생성(generation) 두 측면을 동시에 평가할 수 있는 새로운 지표인 Ragas에 대해 상세히 알아봅니다.

생성형 AI의 발전과 함께 초거대언어모델(LLM)의 성능 개선을 위한 모델의 파인튜닝 기법이 주목받고 있지만, 이 과정은 여전히 높은 비용과 기술적 난이도 때문에 일반 사용자들이 쉽게 접근할 수 없는 영역으로 남아있습니다. 최근 메타의 LLaMA-3.1과 같은 성능좋은 오픈소스 모델이 등장하면서 파인튜닝을 통해 쉽게 성능을 향상시킬 수 있는 방법들이 제시되고 있지만, 파인튜닝을 위해서는 여전히 고가의 GPU와 데이터셋 준비, 호환성 문제 등과 같은 여러 도전 과제가 존재하는 것이 사실이기 때문입니다.
이에 대한 대안으로 생성형 AI 성능 개선을 위해 검색증강생성(RAG, Retrieval Augmented Generation) 기법이 떠오르고 있습니다. RAG는 데이터셋 구축 없이도 LLM의 성능을 개선할 수 있는 일종의 지식검색 시스템입니다. 또한 RAG는 다양한 기술을 활용해 효율적인 지식 파이프라인을 구축하여, 일반 사용자도 접근 가능하도록 돕는 방법론으로 주목받고 있습니다.
이처럼 LLM 개발에 있어서 RAG 파이프라인 방식이 점점 더 보편화됨에 따라, 그 성능을 평가하기 위한 적절한 지표의 필요성이 대두되고 있습니다. 기존의 BLEU, ROUGE와 같은 지표는 주로 기계 번역이나 요약과 같은 특정 태스크에서 사용되며, 주어진 텍스트와 모델이 생성한 텍스트 간의 유사성을 측정합니다. 그러나 RAG는 정보 검색과 생성이 결합된 복합적인 과정이기 때문에, 단순한 텍스트 유사성 지표로는 그 성능을 충분히 평가하기 어렵습니다.
이번 시간에는 RAG의 간단한 개념과, RAG의 결과물을 생성(generation)과 검색(retrieval) 두가지 측면에서 정량적으로 평가할 수 있는 지표인 ragas(Retrieval-Augmented Generation Assessment Score)에 대해서 소개하도록 하겠습니다.
1. RAG는 어떻게 생성형 AI의 성능을 개선할까?
RAG란 Retrieve (검색하다)라는 단어에서 알 수 있듯이 '검색'을 통해 생성형 AI를 더욱 똑똑하게 해주는 일종의 검색 시스템이라고 말할 수 있습니다. 생성형 AI 모델도 RAG 파이프라인에 연동하기만 하면 우리가 인터넷에서 필요한 정보를 구글링 하듯이 API를 통해 실시간으로 필요한 정보를 제공받거나 pdf, json, csv와 같은 외부 소스에서 검색을 하여 답변에 참고할 수 있습니다.
프로그래밍(개발)의 대부분은 결국 '구글링' 실력이라는 말이 있습니다. 원하는 프로그램을 구현해 내기 위해 필요한 정보를 구글링 해서 적재적소에 배치할 줄 아는 사람은 단순히 자기가 아는 지식 범위 내에서만 프로그래밍을 하는 개발자보다 훨씬 탁월한 실력을 보여줍니다. 사실 개발뿐만 아니라 세상의 모든 분야에서 구글링 능력은 매우 중요합니다. 모르는 것 자체는 부끄러운 것이 아니지만, 지식을 얻기 위한 최소한의 노력도 하지 않고 모른다고 말하는 것만큼 부끄러운 것은 없습니다.
생성형 AI 모델도 사람과 마찬가지로 검색할 줄 알면 훨씬 더 똑똑해집니다. 최신 논문이나 신빙성 있는 기사와 같은 양질의 정보 소스를 제공받은 생성형 AI 모델과 자신이 아는 범위 내에서만 앵무새처럼 답변하는 생성형 AI 모델의 쓸모는 하늘과 땅만큼이나 큰 차이가 난다고 할 수 있습니다.
2. 기존의 LLM 성능평가 지표와 RAG 파이프라인의 성능평가 방법의 다른 점
기존 LLM의 성능 평가 지표와 RAG 파이프라인의 성능 평가 방법은 여러 면에서 차이를 보입니다. 기존 LLM의 평가 지표는 주로 생성된 텍스트의 품질을 측정하는 데 집중하며, BLEU나 ROUGE와 같은 지표들은 정량적으로 생성된 결과물과 참조 텍스트 간의 유사성을 계산합니다. 이러한 방식은 주로 특정한 태스크, 예를 들어 기계 번역이나 텍스트 요약 등에서 효과적입니다.
반면, RAG 파이프라인은 검색(retrieval)과 생성(generation)의 두 가지 과정을 통합하므로, 성능 평가가 더 복잡해집니다. RAG에서는 단순히 생성된 텍스트의 품질뿐만 아니라, 모델이 검색한 정보의 관련성과 유용성, 그리고 그 정보가 생성된 답변에 얼마나 잘 반영 되었는지를 평가해야 합니다. 즉, RAG의 성능 평가는 정보 검색의 정확성과 생성된 텍스트의 질을 함께 고려해야 하는 것입니다.
따라서 RAG의 성능 평가에는 검색된 정보의 적합성, 생성된 답변의 일관성, 그리고 두 과정 간의 시너지 효과를 반영할 수 있는 새로운 지표들이 필요합니다. 이러한 점에서 RAG는 LLM의 평가와는 다른 접근 방식이 요구되며, 실제로 사용자의 요구를 충족시키는 데 중점을 두고 있습니다.
3. 결론
RAG(검색증강생성) 파이프라인은 비용과 성능 측면에서 생성형 AI의 성능을 획기적으로 향상시킬 수 있는 방법론이라고 할 수 있습니다. 정보 검색과 생성의 결합은 모델이 보다 신뢰성 있고 유용한 정보를 제공할 수 있게 하여, 사용자 경험을 크게 개선합니다. 그러나 이러한 복합적인 프로세스를 효과적으로 평가하기 위해서는 기존의 텍스트 유사성 지표만으로는 부족하며, 검색된 정보의 질과 생성된 응답의 적합성을 동시에 반영할 수 있는 새로운 평가 지표가 필요합니다.
ragas와 같은 지표를 도입하면 이러한 요구를 충족시킬 수 있습니다. 앞으로의 연구와 발전을 통해 RAG 파이프라인이 보다 널리 활용되고, 그 성능 평가 방법론이 정립되면, 생성형 AI는 더 많은 분야에서 효율적이고 혁신적인 솔루션을 제공할 수 있을 것입니다. 이러한 진전을 통해 AI 기술의 접근성이 높아지고, 다양한 사용자들이 손쉽게 활용할 수 있는 환경이 조성될 것으로 기대됩니다.
문과 출신으로 AI 스타트업에서 데이터 사이언티스트로 일하고 있습니다. |
* 슈퍼브 블로그의 외부 기고 콘텐츠는 외부 전문가가 작성한 글로 운영 가이드라인에 따라 작성됩니다. 슈퍼브 블로그에서는 독자분들이 AI에 대한 소식을 더 쉽고 간편하게 이해하실 수 있도록 유용한 팁과 정보를 제공하고 있습니다.