요즘 난리난 ChatGPT 팩트 체크
2022년 연말, IT 업계를 뜨겁게 달구었고 2023년 연초까지 계속 핫 이슈가 되고 있는 chatGPT에 대해 재미있고 흥미로운 팩트 체크를 해볼까 합니다. chatGPT에 대한 일반인들의 이해를 넓히기 위해서 몇가지 제한된 주제를 파헤치는 형식을 빌어 작성되었습니다.
우선 미디어에서 언급된 chatGPT 기사를 몇 가지 발췌해 보면 다음과 같습니다.
- 대화형 AI chatGPT, 구글천하 끝장낼까?
- chatGPT는 지능이 어느정도 될까?
- 뉴욕시는 부정행위 방지 등의 이유로 공립고등학교에서 chatGPT 접속하는 것을 차단했다.
- chatGPT는 교육에 해악이 될까?
- 인공지능은 과학논문 저자 자격이 있을까?
- 인공지능, 논문 저자 못된다. 네이처 및 사이언스의 교통정리
- chatGPT에 대한 기대와 우려
- Demis Hassabis : Urging Caution on AI
기사들이 꽤나 자극적인 문구들로 꾸며져 있고, 제목만 보더라도 우려되는 인공지능의 부작용들이 많이 발견 됩니다. 일자리는 지킬 수 있을지, 교육 체계가 무너지는건 아닌지, 인공지능에 의해 지배 당하는 것은 아닌지 같은 걱정거리들이 많이 생기실 텐데요. 우려하시는 만큼 위협적인 것인지 한번 팩트 체크로 살펴 보려고 합니다. 위의 기사들로부터 4개의 주제를 뽑아볼 수 있습니다.
- 1. chatGPT는 과연 구글을 끝장낼 수 있을까?
- 2. chatGPT는 지능이 어느정도 될까?
- 3. chatGPT는 교육에 해악이 될까?
- 4. chatGPT는 어떤 지식을 알고 있을까?
[Fact Check 1. 과연 chatGPT는 구글을 끝장낼 수 있을까요?]
chatGPT가 서비스로 등장하자마자 “chatGPT가 구글을 끝장낼 것!” 이라는 자극적인 제목의 기사들이 미디어에 노출되기 시작 했습니다. 제목 장사 덕분일까요? 의도적으로 어그로(aggravation)를 끌었는지는 확인되지 않았지만, 구글의 대항마는 과연 어떤 서비스일까 궁금해하는 사람들이 많았고 흥행에 성공했습니다. 전 세계 IT 전문가, IT 종사자들의 흥미를 끌었고 가입자 수가 폭발적으로 증가 했으며, 2023년 1월 기준으로 일 사용자가 천만명을 넘어섰습니다.
IT 서비스 중 100만 이용자를 만드는데 소요된 시간
- chatGPT 5일
- 인스타그램 60일
- 스포티파이 150일
- 유튜브 240일
- 스냅챗 300일
- 트위터 730일
- 넷플릭스 1790일
먼저, chatGPT가 어떤 서비스인지, 어떤 결과물을 제공해 주는지 살펴 볼 필요가 있습니다. 아래의 링크를 접속해 보면 가입 버튼이 나타납니다. 간단하게 가입 절차를 거치고 나면 아래와 같은 화면이 나타납니다.
chatGPT는 질문을 하면 답변을 제공하는 단순하고 깔끔한 채팅 인터페이스를 갖추고 있습니다.
답변은, 타이핑 하듯이 단어 하나씩 출력되며 문장이 완성되는데, Retro한 느낌이 좋습니다. 답변생성 시간이 많이 필요한 상황에서, 사용자 경험을 개선하기 위한 방안으로 보여집니다.
어떤 질문이 좋을까 고민하다가 몇가지 전문적인 질문을 해 보기로 했습니다.
첫번째로, chatGPT에게 챗봇 기술의 방향성을 질문해 보았습니다. 상상했던 것 보다 꽤나 짜임새 있고 현실적인 답변을 해 줍니다. 해당 전문 분야의 게시글 의견을 참조한 것으로 추정됩니다. 뒷부분에서 설명 드리겠지만, 아래의 작문이 가능한 이유는 명확합니다. 질문과 관련된 기사나 게시글 데이터가 일반 상식의 형태로 학습되어 있기 때문입니다.
두번째로, MBA 교육과정 설계에 대한 질문을 했습니다. 답변을 읽어 보시면 느끼시겠지만, 꽤 짜임새 있게 Boring Content, Interesting Content, Informative Content의 세 파트로 나눠서 토픽을 정리해서 답변하는데, 꽤나 인상적입니다.
바로 이런 점이 상업적 가치를 발견할 수 있는 대목 입니다. 사람에게 업무가 할당 되었을 때, 익숙하지 않은 업무에 대한 초기 준비과정을 획기적으로 줄인다면 꽤나 혁신적인 것 같습니다. 구글링으로 자료를 찾거나 문서를 만드는데 소비하는 시간이 1 - 2시간에서 5 - 10분 내외로 단축된다면 수많은 사람들이 환호성을 지를 것이 예상 됩니다.
그러면, chatGPT가 구글을 넘어설 수 있을 것이라는 대중들의 확신은 과연 어디에서 오는 걸까요?
제가 찾아낸 근본적인 이유는 사용자 경험 이었습니다. 많은 뉴스 기사에서 언급됐던 내용이기도 하지만, 수백만 개의 검색 결과가 아닌 단 하나의 답변만을 제공하고, 답변의 내용도 질문자의 의도에 맞게 짜임새 있고 최적화된 형태로 구성해 주기 때문입니다.
“chatGPT를 활용하면 정말 귀찮은 일이 줄어들겠구나!” 하는 대목입니다.
지식 노동자들에겐 구글링과 자료정리에 쏟는 에너지와 시간이 꽤나 크다는 것 정도는 공감하실 겁니다. chatGPT 사용자는 검색 사이트로부터 데이터를 수집하고 발췌해서 적절한 문장으로 다듬어 내는 과정을 확실하게 줄이게 됩니다.
그럼에도 불구하고, chatGPT의 큰 아킬레스건은 있습니다. chatGPT에서는 최신 데이터나 지식은 답변하기 어려워 합니다. 실시간 데이터에 대해 실시간 학습을 지원하는 트랜스포머 기술은 아직 존재하지 않기 때문입니다. 현재 chatGPT에 학습된 데이터의 시점은 2021년도이며, 2022년이나 2023년의 최신 데이터를 빨리 학습 시키려 해도, 시간과 비용이 꽤 많이 걸리게 됩니다. 아직 풀어야 할 숙제들이 많아 보입니다. 비용이나 시간에 대한 정보도 글의 후반부에 나옵니다.
객관적으로, 지금의 기술 수준이나 연구인력, 자금력 등으로 봤을 때, 구글은 openAI보다 강력한 모델(PaLM, 5400억 매개변수로 chatGPT의 3배 크기)기술을 보유하고 있고, 유사한 서비스들을 금방 만들어 낼 수 있습니다.
만약, 구글이나 딥마인드, 메타 등에서 동일한 인공지능 챗봇 서비스가 나오게 된다면 구글은 검색엔진의 지위를 계속 유지할 수 있을까요? 구글의 검색엔진이 수집하는 막대한 양의 데이터는 한동안은 다른 회사들이 구글을 넘볼 수 없는 회사로 지켜내기에 충분해 보입니다. 왜냐면 거대 언어 지능의 핵심은 데이터의 품질과 규모이기 때문입니다. 다만, 적은 데이터로도 더 뛰어난 품질의 인공지능은 곧 나오게 될 겁니다. 실시간 학습을 반영하는 알고리즘도 나오게 될 것입니다.
“구글, 넌 아직까지는 괜찮아! 하지만 chatGPT가 타깃 광고를 챗봇 답변에 문장으로 녹여 내거나, 답변 뒤에 멋진 문장과 함께 광고를 붙여서 보여준다면 구글의 광고매출은 확 줄어들 꺼야.” 라고 말 할 수는 있을 것 같습니다. 이런 방식을 많은 회사들이 따라할 것입니다.
[Fact Check 2. chatGPT는 지능이 어느정도 될까?]
인공지능은 지능지수가 어느정도 수준인지 매우 궁금해 집니다. 자연스런 궁금증 입니다.
자신보다 똑똑하면 위협요소가 될 수도 있고, 또는 똑똑한 지적 능력을 잘 활용만 한다면 자신의 삶이 업그레이드 될 것이라는 기대감 때문일 수도 있습니다.
몇몇 사람들이 실제 지능 테스트 시도한 결과를 보여 드리겠습니다. 한쪽은 IQ 83, 한쪽은 IQ 147 입니다.
결과가 극명하게 갈리는데, IQ가 우수한 쪽이 신뢰성이 높다는 것을 미루어 짐작 할 수 있습니다.
문제의 정답을 대부분 틀리는 것은 쉽지만, 대부분 맞추기는 것은 상대적으로 매우 어렵기 때문입니다. 점수가 낮은 결과를 얻은 실험에서는 테스트 방법이나 출제된 문제가 테스트하기에 적합하지 않았을 가능성이 있습니다.
IQ 점수가 높게 나온 실험에서는, 인공지능에게 유리한 테스트 항목이었을 수는 있겠지만, 실제 사람 대상의 테스트 문항이기 때문에 충분히 신뢰할 만 합니다. chatGPT가 테스트 항목과 관련된 공개정보들을 사전에 모두 학습했을 가능성도 있습니다. 그렇다 하더라도, chatGPT는 이미 지식을 보유한 것이 되므로 지능 테스트에는 전혀 문제가 되지 않습니다.
지능지수 147를 보유하고 470 GB의 텍스트 데이터를 학습한 chatGPT(GPT-3.5 version)는 여지없이 다른 시험 분야에서도 존재감을 드러냈습니다.
- 미국 변호사 시험 (BAR in US) , 50.3% 정답율로 합격 수준 (2022/12/29)
(https://arxiv.org/abs/2212.14402) - 미국 의료면허 시험, 모든 과목에서 60% 정답율로 합격 수준 (2022/12/20)
(https://www.medrxiv.org/content/10.1101/2022.12.19.22283643v1) - AWS 자격증 시험, 최종 스코어 800/1000으로 합격. 커트라인은 720점 (2022/12/8)
(https://mobile.twitter.com/StephaneMaarek/status/1600864604220964871) - Wharton(UPenn) MBA 학위 시험, B/B-로 합격 수준 (2023/1/22)
(https://mackinstitute.wharton.upenn.edu/wp-content/uploads/2023/01/Christian-Terwiesch-Chat-GTP.pdf)
전문적인 직무/직능 측면에서 chatGPT의 지능수준은 인간의 능력치를 뛰어 넘었다고 생각됩니다. 밀도가 높고 디테일한 전문 지식과 데이터를 기반으로 하는 업무들은 인공지능으로 대체될 것으로 보입니다.
[Fact Check 3. chatGPT는 교육에 해악이 될까?]
새로운 미디어가 등장 할 때 마다 사람들은 새로운 기술이 미칠 영향에 대한 부정적 시각을 날카롭게 드러내 왔습니다. 바보상자라고 놀려 댔던 TV가 있었고, 사람을 바보로 만드는 스마트폰이 있었습니다. 이제, 사람들이 공부를 멀리하게 만들 chatGPT가 등장 했습니다.
이에 대해 미국 와튼스쿨 이선 몰릭(Ethan Mallic) 교수의 생각은 이렇습니다.
- 사람들은 전자계산기가 있는 세계에서 수학을 가르쳐 왔다.
- 세상이 또 다시 변화 했을 때 그 변화에 어떻게 적응할 수 있을 지를 가르치는 것이 교육자들에게 주어진 과제다
(https://www.businessinsider.com/wharton-mba-professor-requires-students-to-use-chatgpt-ai-cheating-2023-1)
노엄 촘스키 교수는 교육 시스템이 재미 없고 실패했기 때문에, 학생들은 그 끔찍한 과제를 chatGPT에게 맡기려는 것이고, chatGPT에 대응하는 교육자들의 방식 또한 실패한 교육시스템과 비슷하다는 것입니다. (https://www.youtube.com/watch?v=-NMR5JXp37k)
암산을 대체했던 주판, 주판을 대체했던 계산기, 계산기를 대체했던 스마트폰. 이제는 스마트폰을 대체하는 인공지능이 나타났지만 사람들은 여전히 수학을 통해서 인공지능을 더 개선하려고 합니다. 인공지능은 인간에게 근본적이고 본질적인 문제에 대해 더 많이 생각해 보고 해답을 찾아 볼 수 있는 기회를 주고 있는 것이 아닐까요?
종이로 만들어진 어학사전에서 단어를 찾느라 수백 페이지를 넘기며 허비했던 수많은 시간을 생각한다면, 지금은 유튜브와 앱 덕분에 소통의 도구로써, 언어에 대한 경험과 학습에 좀 더 집중할 수 있게 된 세상입니다.
chatGPT는 지식을 효율적으로 구조화 해서 텍스트로 보여주기 때문에, 우리의 시간을 좀 더 지식의 본질적인 측면에 할애할 수 있도록 해 줍니다. AI 덕분에 인간들은 지식을 더 많이 고찰하고 탐구하고 즐길 시간을 벌었다고 생각 합니다.
개인적으로, 개발자 입장에서는 코딩 기술보다 논리력과 문해력이 더 중요해 졌다고 생각 됩니다. 이제 인문학적 능력과 공학적 능력을 모두 키워야 하는 시대 입니다. 인공지능에 지배당하지 않으려면 말이죠.
[Fact Check 4. chatGPT는 어떤 지식을 알고 있을까요?]
chatGPT는 방대한 양의 데이터를 사용 합니다. Common Crawl 기관 (https://commoncrawl.org/)이 수집하고 정제한 데이터, 추가 웹 텍스트 데이터, 출처가 미공개 된 전자서적, 공개된 위키 백과사전 데이터를 사용하고 있습니다. Common Crawl의 데이터는 570GB 정도의 용량을 가집니다.
서적의 경우 구글이 세상 모든 책을 디지털화 하겠다고 추진한 구텐버그 프로젝트의 전자책들과 Smashwords 회사의 데이터가 사용되었을 것으로 추정됩니다. 그 밖에 Arxiv나 구글특허 사이트에 등록된 특허문건들도 활용되었을 가능성이 높습니다. Common Crawl의 경우 2008년부터 웹페이지를 크롤링을 시작했기 때문에 데이터가 방대하게 축적되어 있고 영어 이외의 언어들도 수집되고 있습니다. 그 밖에 레딧이나 깃허브, stackoverflow, stackExchange 같은 사이트들의 질의응답 대화들도 수집되었을 것으로 추정됩니다. Common Crawl과 관련된 논문으로부터 알 수 있는 것은, 인터넷 신문사, 뉴스미디어, 컨설팅 회사들이 게시한 글들이 많이 포함되었다는 점 입니다.
전문가의 컬럼이나 연재 기사들이 상당 분량 포함되어 있고, 산업 도메인 영역이 넓기 때문에 우리가 뉴스 미디어나 인터넷 검색을 통해서 얻을 수 있는 전문가적 의견들이 대다수 포함되었을 가능성이 높습니다. GPT-2 모델의 구체적인 웹 데이터 출처는 공개되어 있기 때문에 GPT-3에서도 상당부분 겹치지 않을까 예상해 봅니다. (https://github.com/openai/gpt-2/blob/master/domains.txt)
LLM(Large Language Model)에서 사용되는 방대한 데이터 규모를 토대로 재미있는 계산을 해 봤습니다. 각계 각층의 전문가 가운데 100명의 전문가 집단을 뽑았다고 해 봅시다. chatGPT의 학습 정보량은 이들이 평생 읽어내는 책의 정보량 보다 앞서는 규모 입니다.
- 300페이지 책 한권의 텍스트 용량 : 350kB로 가정
- 570GB분량의 책들을 100명의 전문가가 매일 한 권씩 읽었을 때 소요시간 : 44년
chatGPT에 사용된 데이터는 완벽하게 고유한 정보로만 이루어지지는 않았기 때문에 중복된 내용을 고려 하더라도 한 사람의 개인이 감당할 수 없을 만큼의 지식을 다루고 있다고 미루어 짐작이 가능합니다.
그리고 핵심적인 사실 가운데 하나는, 자연어 모델이 학습을 할 때는 입력된 데이터를 액면가 그대로 사용하지 않고 단어나 문장의 통계적 특성을 확률로 학습한다는 것 입니다. 다시 말해서, 학습용으로 입력된 데이터는 절대로 그대로 출력되는 법이 없습니다. 입력된 지식들은 상당히 작은 규모로 압축되어 저장되고, 압축된 지식으로부터 재 생성된 지식이 출력 됩니다. 흩어져 있는 낱개의 지식들은 동일하거나 유사한 것들끼리 묶이고 압축되기 때문에, chatGPT가 학습하고 기억하는 내용은 common knowledge라고 보시면 됩니다. 매우 특이한 내용들의 경우 확률적 특성 때문에 학습되지 않고 사라질 가능성이 높습니다.
[그 밖의 것들]
그 밖에 몇가지 흥미로운 점들을 정리해 보면 다음과 같습니다.
질문) chatGPT는 믿을 만 한가?
답변) 그다지 신뢰할 만 하지는 않습니다. 학습된 정보에 대한 신뢰성을 검증하지 않았고, 데이터를 수집한 소스의 대체적인 평판에만 의존했기 때문에 오류들이나 가짜 정보들이 숨어 있습니다. 2023/1/30 업데이트 버전에서는 사실성(factuality)가 개선되었다고 하는데 지켜볼 일입니다.
(https://help.openai.com/en/articles/6825453-chatgpt-release-notes)
질문) chatGPT를 만들려면 어느정도 비용이 들어갈까?
답변) 학습을 시킬 때 1만개의 GPU가 장착된 수퍼 컴퓨터가 사용되었다고 합니다. 시중에서 개인용으로 구매 가능한 가장 좋은 GPU 가격은 260만원, 전문가용은 1-2천만원이니까 대략 추산이 될 것으로 보입니다. (https://news.microsoft.com/source/features/ai/openai-azure-supercomputer/)
OpenAI는 120명 정도의 S급(글로벌 인재) 개발자들이 포진해 있습니다. 2016년 한해 인건비만 2천억원이 넘었을 것이라고 추정합니다. 2016년 CSO(Chief Science Officer) 연봉이 190만달러였다고 합니다.
질문) 학습용 데이터는 쉽게 얻을 수 있을까?
답변) 대용량의 데이터를 정제하고 학습을 위해 준비 하는데 만 1년에서 1년 반이 걸렸다고 합니다. 여러차례 반복해서 실험해야 하는 작업이고, 학습과정은 한번 실행하는데 대략 9 ~ 12개월 정도 소요 되었다고 합니다. (https://arxiv.org/abs/2005.14165)
질문) chatGPT는 어떤 인공지능 기술이 사용 되었나요?
답변) GPT(Generative Pre-trained Transformer) 3.5 기반으로 하고 Instruct GPT 기술이 사용되었습니다. Instruct GPT에는 RLHF(Reinforcement Learning with Human Feedback) 기술이 추가로 사용 되었습니다. 사용자의 피드백 학습을 기반으로 액션 전략을 정교화 하는 과정을 거치게 됩니다. 알파고가 사람의 수를 보고 다음 바둑 수를 계산하는 경우와 동일하다고 보면 됩니다. 사람의 피드백으로부터 다음의 질문에 대한 답변 전략을 수립하기 때문에 맥락대화가 매끄럽게 동작하고 복잡한 요구사항까지 처리가 가능합니다. 인공지능이 체스와 바둑에 이어, 언어 영역에서도 인간을 압도할 날이 다가오고 있습니다.
하지만, 추론이나 추측(직감) 같은 정신활동, 비-언어적인 맥락의 이해(분위기 파악) 같은 인간으로서는 별로 어렵지 않게 발현되는 능력들까지 나오려면 한참을 기다려야 할거 같습니다. 그리고 그 사이에 수많은 관련 직업들이 생겨나고 없어질 것입니다.
더 궁금하신 점은 chatGPT에게 직접 질문해 보시는 것이 어떨까 싶습니다. 친절하게 개념 설명도 해 주고 참고 할 만한 사이트도 알려주기 때문에 한번 이용해 보시기를 강력하게 추천 드립니다.
철학적, 미디어적, 사용자 경험적 관점에서 AI를 해석하고 |
* 슈퍼브 블로그의 외부 기고 콘텐츠는 외부 전문가가 작성한 글로 운영 가이드라인에 따라 작성됩니다. 슈퍼브 블로그에서는 독자분들이 AI에 대한 소식을 더 쉽고 간편하게 이해하실 수 있도록 유용한 팁과 정보를 제공하고 있습니다.