OpenAI o3·o4-mini: 도구 활용 AI와 프롬프트의 종말

OpenAI의 최신 o3 및 o4-mini 모델이 AI 세계를 뒤흔들고 있습니다. 웹 브라우징, Python 실행, 이미지 분석 등 다양한 도구를 추론 과정에서 자유롭게 활용하는 이 모델들은 복잡한 수학, 코딩, 과학 문제를 해결하며 전문가 수준의 능력을 보여줍니다. 더 놀라운 것은 "단계별로 생각하세요"와 같은 복잡한 프롬프트가 오히려 성능을 저하시킨다는 사실! 이 글에서는 o-시리즈의 혁신적 추론 능력, 프롬프트 무용론의 등장, 그리고 이것이 AGI로 가는 길인지 심층 분석합니다.

OpenAI o3·o4-mini: 도구 활용 AI와 프롬프트의 종말

얼마전 OpenAI에서 공개한 o3 및 o4-mini 모델에 대한 관심이 집중되고 있습니다. 이는 2024년 o1 모델에 이어 출시된 더욱 발전된 추론형 모델로, 웹 브라우징, Python 실행, 이미지 분석, 이미지 생성 등 다양한 도구 기능을 갖추고 있습니다.

OpenAI에서 개발한 이러한 추론형 멀티모달 모델들은 이전 시리즈에 비해 수리적 사고와 추론 능력이 대폭 향상되었으며, 화학이나 물리학 혹은 엔지니어링 등 고도의 수리적 사고와 추론 능력이 필요한 테스크에 뛰어난 성능을 자랑하고 있는 것으로 평가받고 있습니다. 특히 o-시리즈 모델들은 사고 과정(chain of thought) 중에 도구를 활용하여 이미지 편집, 웹 검색, 데이터 분석 등을 수행하며 자신의 능력을 확장합니다.

o-시리즈 모델의 출현을 두고 프롬프트 무용론 역시 고개를 들고 있습니다. 이 모델들은 기존의 GPT 시리즈와는 다르게 스스로 사고하고 추론하여 문제를 해결하는 능력이 뛰어난 만큼 CoT(Chain of Thought) 등 생성형 AI가 단계적 사고를 하도록 유도하고 보다 정확한 답변을 하도록 유도하는 기존의 프롬프트 방식이 오히려 모델의 답변 생성에 방해가 된다는 연구결과가 있기 때문입니다.

이를 두고 일각에서는 스스로 사고하고 생각할 수 있는 AGI(일반인공지능)이 도래한 것이 아니냐는 기대와 우려가 뒤섞인 반응이 등장하고 있습니다. 폭발적으로 증가하는 생성형 AI 모델의 매개변수(parameter) 양과 함께 o-시리즈 모델은 과연 AGI의 서막일까요?

1. o-시리즈 모델의 추론능력과 일반인공지능(AGI)

챗GPT(GPT-3.5)가 등장한 이후로 생성형 AI 모델은 줄곧 사람의 말을 그럴듯하게 짜깁기하는 앵무새 정도로 여겨져 왔습니다. 그러나 o-시리즈 모델의 등장은 이러한 생성형 AI 회의론을 완전히 잠재울 만한 충분한 잠재력을 가지고 있는 것으로 평가받고 있습니다. 단순히 다음 단어를 예측하여 말을 짜깁기하는 언어모델을 넘어 이제는 o3과 o4-mini 모델은 고도의 추론 능력을 요구하는 문제해결을 넘어 도구 활용 능력까지 갖추게 되었기 때문입니다.

OpenAI에서 밝힌 o1의 성능지표

o-시리즈 모델들은 물리학, 화학, 생물학 등 까다로운 벤치마크 과제에서 전문가 수준의 성적을 거두고 있습니다. o1 모델이 국제 수학 올림피아드(IMO) 예선 시험에서 83%의 성적을 받아 GPT-4o의 13%에 비해 압도적인 성능을 보여주었는데, 최신 o3와 o4-mini 모델은 이를 더욱 발전시켜 복잡한 수학, 코딩, 과학적 문제를 해결하는 능력이 크게 향상되었습니다.

특히 주목할 만한 특징은 이러한 모델들이 사고 과정 중에 도구를 활용한다는 점입니다. 예를 들어, 이미지를 자르거나 변형하고, 웹을 검색하거나, Python을 사용하여 데이터를 분석하는 등의 작업을 추론 과정 중에 수행합니다. 이는 인간이 복잡한 문제를 해결할 때 다양한 도구를 활용하는 방식과 유사하며, 단순한 텍스트 생성을 넘어선 진정한 문제 해결 능력의 발전을 보여줍니다.

또한 OpenAI의 준비태세 프레임워크(Preparedness Framework) 버전 2에 따른 최초의 출시 및 시스템 카드에서는 o3와 o4-mini 모델이 생물학적 및 화학적 능력, 사이버보안, AI 자기 개선의 세 가지 추적 카테고리에서 '높음(High)' 임계값에 도달하지 않았다고 판단했습니다. 이는 안전성 평가에 있어 중요한 이정표를 제시합니다.

이를 두고 스스로 사고하고 인간과 같은 지적활동이 가능한 AGI(일반인공지능)이 출현한 것 아니냐는 흥분 섞인 목소리를 내는 사람들이 늘어나고 있습니다. 분명 o-시리즈 모델의 문제해결 능력은 매우 고무적이며, AGI를 향한 의미있는 과정 중 하나일 것입니다. 그러나 이 모델들은 여전히 특정 테스크에 최적화되어 있다는 점에서 스스로 생각하고 의도를 가진 AGI(일반인공지능)의 정의에 완전히 부합하지는 않습니다.

2. o-시리즈 모델과 프롬프트 엔지니어링 

재미있는 사실은 o-시리즈의 고도화된 추론 능력 덕분에 이제 더 이상 복잡한 프롬프트 엔지니어링이 필요하지 않게 될지도 모른다는 점입니다. OpenAI의 개발자 플랫폼 공식문서에서는 o-시리즈 모델에 프롬프트를 적용하는 방식에 대해 다음과 같은 조언을 하고 있습니다.

OpenAI의 조언에 따르면 o-시리즈 모델들은 간단한 프롬프트에서 가장 잘 작동하며, 복잡한 프롬프트는 오히려 모델이 추론 및 답변을 하는 데 방해가 될 수 있다고 합니다. 몇 가지 프롬프트 엔지니어링 기법, 예를 들어, few-shot 프롬프트 작성이나 모델에게 "단계별로 생각하기(step by step이나 Chain of Thought)"를 지시하는 등의 방법은 성능을 향상시키기보다는 오히려 방해가 될 수 있다고 합니다.

OpenAI의 o1 프롬프트에 관한 조언

다음은 몇 OpenAI에서 발표한 가지 권장 사항입니다.

1. 프롬프트를 간결하고 직관적으로 유지하세요: 모델은 장황한 설명 없이 짧고 명확한 지시를 이해하고 응답하는 데 탁월합니다.

2. 연쇄적 사고 프롬프트는 피하세요: 모델은 내부적으로 추론을 수행하므로, "단계별로 생각해보라"거나 "추론 과정을 설명하라"고 지시하는 것은 불필요합니다.

3. 명확성을 위해 구분자를 사용하세요: 세 개의 큰따옴표, XML 태그 또는 섹션 제목과 같은 구분자를 사용하여 입력의 서로 다른 부분을 명확히 표시하면 모델이 각 섹션을 적절하게 해석하는 데 도움이 됩니다.

4. 검색 증강 생성(RAG)에서 추가 컨텍스트를 제한하세요: 추가적인 컨텍스트나 문서를 제공할 때는 모델이 응답을 지나치게 복잡하게 만들지 않도록 가장 관련성이 높은 정보만 포함하세요.

3. 결론

결론적으로, OpenAI o-시리즈 모델의 발전은 생성형 AI의 진화에서 중요한 이정표가 되고 있습니다. o3 및 o4-mini 모델은 그동안의 회의론을 뒤엎고, 고도의 추론 능력과 도구 활용을 통한 문제 해결 능력으로 AI의 가능성을 새롭게 보여주고 있습니다. 대규모 강화학습을 통한 사고 과정 훈련은 안전성과 견고성을 향상시키는 새로운 방향을 제시하며, 특히 잠재적으로 안전하지 않은 프롬프트에 응답할 때 컨텍스트 내에서 안전 정책에 대해 추론할 수 있습니다.

하지만, AGI의 정의에 부합하는 진정한 의미의 자율적 사고를 구현하기까지는 여전히 갈 길이 멀다는 점을 염두에 둘 필요가 있습니다. OpenAI의 안전 자문 그룹(Safety Advisory Group)이 준비태세 평가 결과를 검토한 것처럼, 이러한 발전된 모델들의 안전성과 윤리적 측면에 대한 지속적인 평가와 개선이 필요합니다.

프롬프트 엔지니어링의 변화는 이러한 모델들이 인간의 입력에 대한 의존도를 줄이며, 더 직관적이고 자연스러운 상호작용을 가능하게 할 것으로 기대됩니다. AGI의 도래를 기대하는 목소리가 커지는 가운데, o-시리즈 모델이 과연 그 출발점이 될 것인지, 아니면 한 단계 더 나아가는 과정이 될 것인지 지켜보는 일이 중요할 것입니다. 앞으로의 연구와 발전이 어떤 방향으로 나아갈지, 그리고 o-시리즈 모델이 인간과 AI 간의 새로운 대화의 장을 열어줄지 기대해봅시다.






문과 출신으로 AI 스타트업에서 데이터 사이언티스트로 일하고 있습니다. 


* 슈퍼브 블로그의 외부 기고 콘텐츠는 외부 전문가가 작성한 글로 운영 가이드라인에 따라 작성됩니다. 슈퍼브 블로그에서는 독자분들이 AI에 대한 소식을 더 쉽고 간편하게 이해하실 수 있도록 유용한 팁과 정보를 제공하고 있습니다.