생성형 AI 창작물의 사회적/윤리적 평가
생성형 AI가 만든 결과물은 편향성을 띄고 있습니다. 이는 사회적, 윤리적으로 심각한 영향을 초래할 수도 있는데요. 이 글에서는 생성형 AI가 왜 편파적인지, 편향성은 어떤 방법으로 평가할 수 있는지 살펴보겠습니다.

생성형 AI 창작물의 편향성 평가는 왜 중요할까?
사람들은 데이터에 기반한 생성형 AI 모델이 인간보다 공정하고 객관적일 것이라고 믿는 경향이 있다. 그러나 생성형 AI의 창작물은 결코 중립적이지도 객관적이지도 않다. 이를 뒷받침하는 생성형 AI의 편향성에 관한 몇가지 재미있는 연구결과들이 있다.
우선 최근 워싱턴포스트의 테스트 결과에 따르면 OpenAI의 DALL-E와 미드저니 등 현재 활발히 활용되고 있는 이미지 생성 인공지능 서비스가 인종과 성별 등 특정 집단에 대해 매우 편파적인 이미지를 생성해 내며, 이는 사회적 고정관념을 강화시킬 가능성이 있다 .
대표적인 이미지 생성 플랫폼인 DALL-E와 미드저니 그리고 Stable Diffusion을 활용하여 이미지를 생성한 결과, ‘아름다운 여성’이라는 명령에 따라 생성된 150장의 이미지는 모두 마른 여성의 모습을 담고 있었다. 또한 98%의 이미지는 주름이나 흰머리 등 노화의 특징을 보이지 않았으며, 어두운 피부색을 보이는 여성 이미지 비중은 9%에 그친 것으로 집계됐다.
또한 전체 이미지의 절반 이상은 유색인종의 특징을 보이지 않는 피부의 여성으로 분류됐고 거의 모든 이미지가 긴 머리와 드레스 등 얇은 의상을 입은 여성의 모습을 담고 있었으며, ‘못생긴(ugly) 여성’의 이미지를 생성 하라는 주문에는 거의 모든 이미지가 주름진 노인의 모습을 담고 있었다. 대부분 허름한 옷을 입고 있었고 다수는 비만 체형이나 불행한 표정을 보였다고 한다.
다음으로는 어떤 초거대언어모델(Large Language Model, LLM)에게 질문하는지에 따라 정치적 성향이 달리 나타난다는 연구결과다. 미국 워싱턴 주립대와 카네기 멜론 등 대학의 복수 저자가 쓴 From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models라는 제목의 논문에서 다룬 연구 결과에 따르면, 14개 대규모 언어모델에 정치적으로 민감한 62개 문장에 대한 동의여부를 물어 정치 성향을 조사한 결과 오픈AI의 ‘챗GPT'와 'GPT-4'가 가장 좌파적인 자유주의자처럼 답변했고, 메타(Meta)의 '라마(LLaMA)’가 가장 우파적인 권위주의자처럼 반응했다고 한다.
생성형 AI 편향성의 리스크
이러한 생성형 AI의 편향성은 사회/윤리적으로 심각한 영향을 초래할 수 있는 리스크를 안고있다. 만약 불특정 다수가 사용하는 생성형 AI 서비스가 특정 주제에 대한 질문을 받았을 때, 인종차별적인 이미지를 생성해내거나 하거나 특정 이익집단에 유리한 방향으로 답변을 제공한다면? 한 발 더 나아가 이러한 생성형 AI의 편향된 창작물이 사회 전반적으로 채택 및 인용되어 마치 하나의 표준인 것처럼 여겨지게 된다면? 우리는 궁극적으로 인공지능에 의해 잘못된 가치관이 확산되는 것을 막을 통제력을 잃게될지도 모른다.
이처럼 생성형 AI가 우리 사회에 미치게 될 사회적, 윤리적 파장은 결코 가볍게 넘길 수 있는 문제가 아니다. 다행히 생성형 AI를 비롯한 생성형 AI 기술은 여전히 초기 단계에 있으며, 아직 우리 인간에게는 이를 해결할만한 시간적, 기술적 여유가 있다.
생성형 AI는 왜 편파적일까?
이러한 생성형 AI의 편향성은 왜 발생하는 것일까? 정답은 훈련 데이터에 있다. 사람이 태어나서 세상을 보고 경험하면서 받아들이는 정보 즉 ‘인풋’에 따라 동일한 사회적 현상에 대해서도 생각과 말 그리고 행동이라는 ‘아웃풋’이 달라지는 것 처럼, 생성형 AI의 창작물 역시 훈련 데이터에 따라 달라진다.
생성형 AI는 방대한 양의 텍스트 데이터를 기반으로 심층신경망(DNN, Deep Neural Network)을 이루는 수 조개에 달하는 노드에 퍼져있는 가설식(h(x)=wx+b)의 가중치와 편향을 조정하며 최적의 답을 찾아가는 방식으로 훈련을 진행한다. 이 과정에서 생성형 AI 모델은 입력된 텍스트를 일종의 정답처럼 인식하게 되어 데이터 속의 다양한 사회적, 문화적 편향이 그대로 반영되게 되는 것이다.
훈련 데이터에 포함된 편향은 모델의 성격과 답변 스타일을 형성하는 핵심 요소가 된다. 이는 생성형 AI 모델이 단순히 주어진 데이터를 바탕으로 결과물을 제공하는 것이 아니라, 그 데이터에 내재된 가치관과 선호를 자연스럽게 반영하는 방식으로 훈련되기 때문이다. 결국, 생성형 AI의 창작물이 "공정"하거나 "객관적"이라는 기대는 훈련 데이터의 편향성을 어떻게 다루느냐에 달려 있으며, 이를 제어하지 않으면 원하는 결과를 얻기 어려운 상황이 발생할 수 있다.
생성형 AI의 편향성을 어떻게 평가할 수 있을까?
그렇다면 우리는 어떻게 생성형 AI의 평향성을 평가할 수 있을까? DALL-E나 미드저니와 같은 이미지 생성 모델 뿐 아니라 GPT-4o나 Claude-3.5와 같은 LLM의 답변이 편향되어 있는지 아닌지 우리는 어떻게 평가할 수 있을까?
1) 이미지 생성 AI의 편향성 평가 방법
우선 이미지 생성 AI의 편향성 평가를 위해 몇 가지 방법론을 소개하겠다. 첫째, 다양성 지표(Diversity Metrics)를 활용하여 다양한 인구집단을 공평하게 반영하는지 확인하는 것이다. 예를 들어, 이미지 생성 시 각기 다른 인종, 성별, 연령대의 특성을 공정하게 반영하고 있는지 평가할 수 있다.
다음으로, 비교 분석을 통해 생성된 콘텐츠를 실제 사회적, 문화적 맥락과 비교하고, 그 결과가 사회적 고정관념을 강화하는지, 아니면 새로운 시각을 제시하는지를 분석하는 방법도 고려해 볼 수 있다. 마지막으로 테스트 데이터와 검증을 통해 AI 모델이 훈련된 데이터의 편향성을 추적하고, 특정 그룹이나 의견에 대한 불공정한 가중치를 부여하고 있는지 점검할 수 있다.
중요한 것은 이와 같은 평가 작업은 AI의 개발자뿐만 아니라 다양한 사회적 이해관계를 가진 전문가들이 참여하여 진행해야 한다는 점이다. 예를 들어, 사회학자, 윤리학자, 법률 전문가 등은 AI의 편향성을 평가할 때 중요한 역할을 할 수 있다. 이는 AI가 사회적 책임을 다하도록 만들고, 특정 집단에 대한 차별적 영향이 최소화되도록 하기 위한 중요한 과정이다.
2) LLM의 답변 편향성 평가 방법
기존에는 사람이 직접 LLM의 답변을 일일히 비교하며 편향성을 판단하는 평가방식이 주를 이루었다. 그러나 이러한 경우 대규모 데이터셋 평가에 시간과 비용이 많이 든다는 치명적인 단점이 있었다. 뿐만 아니라 평가자의 문화적 배경과 성향 차이에 따라서도 답변 결과가 천차만별로 달라질 수 있으며, 일관된 평가역시 불가능하다는 한계점이 있었다.
이러한 한계점을 극복하기 위해 BLEU, ROUGE, BERTScore 등 벡터 유사도에 기반한 정량적 평가지표가 제시되어 왔지만, 이 역시 궁극적인 해결책은 될 수 없었다. 우선 이러한 정량적 평가지표는 단순 구문 일치율을 기반으로 하기 때문에 의미적 유사성을 반영할 수 없다는 단점이 있다. 마찬가지로 동의어나 표현의 다양성과 같은 언어의 특성을 반영하지 못한다는 것 역시 정량적 평가지표의 단점이다.
최근에는 이러한 기존 평가방식의 한계점을 극복하기 위해 GPT-4 등 최신 LLM을 답변 편향성 평가에 활용하는 방법이 주목받고 있다. 즉 LLM 답변 편향성 평가를 위해 LLM을 심사위원으로 활용하는 것이다. 이러한 기법을 활용하게 되면 다른 모델을 고도의 언어 이해 능력을 통해 정확하게 평가할 수 있다는 장점이 있다.
문과 출신으로 AI 스타트업에서 데이터 사이언티스트로 일하고 있습니다. |
* 슈퍼브 블로그의 외부 기고 콘텐츠는 외부 전문가가 작성한 글로 운영 가이드라인에 따라 작성됩니다. 슈퍼브 블로그에서는 독자분들이 AI에 대한 소식을 더 쉽고 간편하게 이해하실 수 있도록 유용한 팁과 정보를 제공하고 있습니다.