슈퍼브에이아이 “합성 데이터 활용 핵심은 ‘큐레이션’”

적절한 합성 데이터 활용과 데이터 취약점 파악이 중요
다양한 분야에 AI를 적용하려는 움직임이 이어지는 상황이다. 이와 함께 합성 데이터 개념이 등장했으며 학습 데이터가 부족한 영역에서 효과적인 것으로 나타났다. 하지만 실존 데이터가 아니라 인공적으로 만든 데이터인 만큼 편향성 확대, 모델 성능 저하 등의 문제가 발생할 수 있다는 우려가 제기된다.
슈퍼브에이아이 차문수 CTO는 “합성 데이터를 활용하는 과정에서 중요한 것은 ‘큐레이션’이다. 데이터 취약점 즉 엣지 케이스를 발견하고 이 부분을 보완하는 것이 중요하다”고 말했다.

거대언어모델(LLM)과 같은 AI 솔루션들은 데이터를 학습하는 것이 중요하다. 하지만 분야별로 확보할 수 있는 데이터의 양이 달라 특정 분야에서 충분한 학습 데이터를 확보하지 못하는 경우가 종종 발생했다. 이에 합성 데이터가 해결책으로 떠올랐다.
차문수 CTO는 “합성 데이터를 아무런 데이터가 없는 곳에서 만드는 것은 어려우며 일부라도 데이터가 존재하는 경우 만들 수 있다”며 “AI가 특정 분야에서 문제를 해결하지 못할 때 데이터를 추가할 필요가 있다. 이때 합성 데이터가 해결책이 될 수 있다. 합성 데이터를 실제 데이터와 혼합해서 사용하면 모델의 성능을 향상할 수 있다”고 밝혔다.
이어 그는 “만약 도둑을 탐지하는 모델을 만들고자 하면 도둑과 관련된 영상 데이터를 충분히 수집하기 어려울 수 있다. 그렇다고 그 상황을 재현해 촬영하는 등의 방식을 활용하는 것은 비용적인 부담이 크다”며 “합성 데이터를 활용하면 효율적으로 이러한 문제를 해결할 수 있다. 충분한 데이터가 없을 때 적합하다”고 덧붙였다.
차문수 CTO 설명에 따르면, 합성 데이터는 실제 데이터 대비 10배까지만 효과적으로 적용된다. 예를 들어 실제 데이터 100개가 있는 경우, 합성 데이터 1,000개까지 성능 향상의 효과를 볼 수 있다. 10배 이상을 넘어가면 모델의 성능이 오히려 저하되는 것으로 나타났다.
또한 2~3배의 합성 데이터를 적용할 때 최대 효율성을 얻을 수 있다고 설명했다. 차문수 CTO는 “내부적으로 파악하고 있는 수치로 솔루션이나 환경에 따라 달라질 수도 있다. 또 분야별로도 다르게 나타나며 상황에 맞게 적절하게 활용해야 할 필요가 있다”고 부연했다.
그러나 일각에서는 합성 데이터를 적용하는 것에 대해 우려를 제기하고 있다. 실제 데이터가 아니라 인공적으로 만든 데이터라 모델의 정확성을 떨어트릴 수 있으며, 실제 데이터에 편향성이 있으면 이를 확대할 수 있다는 지적이다.
차문수 CTO는 “합성 데이터에 대한 우려가 제기되는 점은 이해한다. 슈퍼브에이아이는 이 문제를 해결하기 위한 해결책이 큐레이션이라고 본다. 무작정 합성 데이터를 많이 만들어 적용하는 것이 아니라 데이터가 부족한 부분을 파악하고 이에 집중해 합성 데이터를 적용하는 것이다”라며 “슈퍼브에이아이는 자체 기술을 통해 이러한 작업을 진행하고 있다. 강조하고 싶은 점은 합성 데이터를 활용할 때 프로세스를 잘 구축하는 것이 중요하다”고 설명했다.