프롬프트 엔지니어링의 변천사

챗GPT 출시 초기에는 상세하고 구체적인 프롬프트 작성이 LLM의 성능을 크게 좌우하며 프롬프트 엔지니어링이 각광받았습니다. 그러나 최신 생성형 AI 모델이 발전하면서 프롬프트의 중요성이 점점 줄어드는 듯 보이는데요. 긴 프롬프트가 오히려 성능을 저하시킬 수 있다는 연구도 등장했습니다. 한때 높은 수요를 자랑했던 프롬프트 엔지니어링이 앞으로 어떻게 변화할지 그 흐름을 살펴봅니다.

프롬프트 엔지니어링의 변천사

프롬프트 엔지니어링의 역할은 어떻게 변화하고 있을까?

2022년 11월, 챗GPT가 처음 출시되었을 때에만 해도 분명 초거대언어모델(이하 LLM)이 알아듣기 쉽게 프롬프트를 상세하고 구체적으로 작성하는 것은 LLM 답변의 성능을 크게 좌우했다. 이때 프롬프트 엔지니어링 붐을 타고 국내외 여러 기업에서 고액 연봉을 제시하며 프롬프트 엔지니어를 채용하기도 했다. 대중들의 관심도 높아지면서 관련된 책과 강의들도 우후죽순처럼 쏟아져 나왔던 것이 사실이다.

그런데 24년 9월 OpenAI에서 출시한 o1 모델의 성능지표가 공개되면서 프롬프트 무용론이 또다시 고개를 들고 있다. 대표적인 SoTA 모델 중 하나인 Claude-3.5처럼 새로 출시되는 생성형 AI의 크기가 커지고 점점 더 성능이 발전하면서 일각에서는 이제 프롬프트는 과거의 유물이 되어버릴 것이라고 전망하는 사람들도 늘어나고 있는 것이다.

생성형 AI의 지능에서 인간의 뉴런과도 같은 역할을 하는 매개변수(parameter)의 갯수가 조 단위(1000b)로 늘어나기 시작하면서 모델은 일정 수준의 추론 및 사고 능력을 갖추게 되었기 때문이다. 더 많은 매개변수로 무장한 LLM은 이전 시리즈 모델들과 비교하여 LLM의 고질적인 문제였던 환각현상(Hallucination)도 적어졌다. 이 때부터 똑똑해진 생성형 AI에게 너무 길고 상세한 프롬프트를 제공하면 오히려 답변 품질을 저하된다는 연구결과마저 나오기 시작했다.

LLM은 이제 질문자의 의도를 너무나도 쉽게 파악하며, 그에 따른 답변 퀄리티 또한 예전과는 비교할 수 없게 좋아졌다. 이제 프롬프트는 오히려 LLM의 추론에 방해만 되는 애물단지 취급을 받으며 프롬프트 엔지니어의 설자리는 점점 없어지고 있는 것처럼 보인다. 프롬프트 엔지니어를 한 때 반짝 등장했다 사라진 '정보 검색사'에 비교하며 곧 사라질 직업이라고 말하는 사람들도 늘어나고 있다. 이번 시간에는 LLM 활용에 있어서 프롬프트 엔지니어링의 변천사에 대해 알아보자.

기술의 발전에 따라 프롬프트의 역할은 변화한다

과연 프롬프트 엔지니어링은 구시대의 유물이 되어가고 있는 것일까? 결론부터 말하자면 프롬프트 엔지니어링의 역할이 기술의 발전에 따라 바뀌고 있을 뿐 프롬프트 엔지니어링 자체는 여전히 중요하다. 프롬프트 엔지니어링의 변천사를 돌아보면 그 역할은 단순히 LLM의 정확도 및 신뢰도를 올리는 것에서 답변의 효율성 및 최적화를 지향하는 방향으로, 그리고 최근에는 LLM의 사고방식을 이해하고 사용자 경험을 강화하는 방향으로 점점 더 확대되고 있다.

1) 환각현상을 방지하고 답변의 품질을 올리는 초기 프롬프트 엔지니어링

LLM이 등장한 지 얼마 되지 않았던 초기에는 LLM이 질문에 대해 그럴듯한 답변을 짜깁기해서 말하거나 거짓을 말하는 환각현상(Hallucination)이 두드러졌다. 이에 따라 자연스럽게 프롬프트 엔지니어링 역시 답변의 정확도와 신뢰도를 올리는 방향으로 발전해왔다. 초기 프롬프트 엔지니어링에는 GPT 논문에도 종종 등장했던 zeroshot이나 fewshot 기법이 많이 사용되었다. 이 때까지만 해도 프롬프트 엔지니어링은 단순히 생성형 AI의 답변 품질을 올리기 위한 하나의 도구쯤으로 여겨졌었던 것이 사실이다.

zeroshot prompt의 예시(출처 : https://www.promptingguide.ai)

2) 답변을 커스터마이즈 해주는 성숙기의 프롬프트 엔지니어링

2023년을 지나면서 생성형 AI 모델의 매개변수가 폭발적으로 늘어나고 관련 기술이 발전하면서 이제 LLM은 제법 똑똑해졌다. 물론 확률에 기반한 예측으로 문장을 생성해 내는 생성형 AI 기술의 특성상 여전히 다소간의 환각현상은 존재할 수밖에 없지만, 이제 더 이상 챗GPT나 구글 Gemini는 터무니없는 질문에 대해 사실인 양 대답하지는 않게 되었다.

더욱 똑똑해진 구글 Gemini에 ‘세종대왕 맥북 던짐 사건’에 관해 물어보았다(출처 : 저자)

이 때부터 프롬프트 엔지니어링의 역할은 단순히 할루시네이션을 방지하고 답변 신뢰도를 올리는 것에서 답변 생성 과정을 효율화하고 사용자의 용도에 맞게 최적화하는 것으로 확대되게 된다. 이때부터 생성형 AI 모델이 복잡한 문제를 해결하는 과정에서 중간 단계의 추론을 포함하도록 유도하는 ‘Chain-of-Thought Prompting (CoT)’ 기법이나 역할지정(persona) 기법 등 다양한 프롬프트 기법이 융합되어 활용 되기 시작했다.

CoT와 fewshot prompt의 결합 예시(출처 : https://www.promptingguide.ai)

3) LLM의 사고방식 이해하는 최신 프롬프트 엔지니어링

마지막으로 최근의 프롬프트 엔지니어링은 향상된 생성형 AI 모델의 사고방식을 진정으로 이해하고 활용하고자 하는 방향으로 발전하고 있다. 가장 성능이 좋은 모델 중 하나로 알려진 claude-3.5를 개발한 앤트로픽(Anthropic) 사에서는 'LLM은 더 이상 블랙박스 모델이 아니다'라고 선언한 바 있다. 복잡한 연산 과정과 결과를 도출하는 로직이 철저히 베일에 가려져 있던 생성형 AI의 머릿속을 드디어 들여다볼 수 있게 되고 있다. 그리고 프롬프트 엔지니어링은 그 안에서 핵심적인 역할을 하고 있다.

요즘의 프롬프트는 예전처럼 상세하고 복잡할 필요가 없다. OpenAI의 조언에 따르면 새로 공개된 o1 모델들은 간단한 프롬프트에서 가장 잘 작동하며, 복잡한 프롬프트는 오히려 o1이 추론 및 답변을 하는데에 있어서 방해가 될 수 있다고 하는 연구결과들도 나오고 있다.  몇 가지 프롬프트 엔지니어링 기법, 예를 들어, few-shot 프롬프트 작성이나 모델에게 "단계별로 생각하기(step by step이나 Chain of Thought)"를 지시하는 등의 방법은 성능을 향상하기보다는 오히려 방해가 될 수 있다고 합니다.

프롬프트 엔지니어링은 여전히 중요하다

이처럼 프롬프트 엔지니어링에 따라 생성형 AI 답변이 유의미하게 달라질 수 있다는 사실은 여러 연구결과와 논문을 통해서 증명되고 있다. 프롬프트 엔지니어링은 답변 품질을 향상시키고 할루시네이션을 방지하는 것에서 답변을 커스터마이즈 하는 것으로 발전해왔다. 최근에는 LLM의 사고 프로세스를 이해하기 위한 중요한 실마리를 마련해주고 있다. 또한 프롬프트 엔지니어링은 우리 인간과 가장 가까운 자연어를 통해 인간의 언어를 구사하는 LLM이 생각하는 방식을 엿볼 수 있다는 점에서 여전히 매우 흥미로운 분야이기도 하다.

프롬프트 엔지니어링을 통한 LLM의 Feature 분석 (출처 : Anthropic)

Claude-3.5-Sonnet을 개발한 Anthropic에서는 Mapping the Mind of a Large Language Model라는 논문을 통해서 LLM이 더 이상 블랙박스 모델이 아니라고 선언했다. 엔트로픽은 현재 배포 중인 LLM인 클로드 소넷(Claude Sonnet) 내부에서 수백만 개의 개념이 어떻게 표현되는지 식별했다고 밝혔는데, 여전히 많은 개발자들은 AI 모델을 블랙박스로 취급하고 있다. 특정 값이 입력되면 응답이 나오지만, 그 모델이 어떤 로직을 통해 특정 응답을 선택했는지는 명확하지 않기 때문이다.

그러나 추후 LLM의 성능을 개선하고 나아가 안전하고 신뢰할 수 있는 모델을 구축하려면 그 내부의 프로세스를 이해하는 것이 필수적다. 이때 프롬프트가 핵심적인 역할을 할 수 있다.






문과 출신으로 AI 스타트업에서 데이터 사이언티스트로 일하고 있습니다. 


* 슈퍼브 블로그의 외부 기고 콘텐츠는 외부 전문가가 작성한 글로 운영 가이드라인에 따라 작성됩니다. 슈퍼브 블로그에서는 독자분들이 AI에 대한 소식을 더 쉽고 간편하게 이해하실 수 있도록 유용한 팁과 정보를 제공하고 있습니다.