▲ 생성형 인공지능(AI) 시대를 맞아 다양한 AI 모델이 쏟아지는 가운데 비즈니스포스트는 성능에 대한 궁금증을 해소하기 위해 챗GPT, 클로드, 코파일럿, 퍼플렉시티, 딥시크 등 대표적인 5가지 AI 모델에 대한 성능을 비교 분석했다. <그래픽 비즈니스포스트> |
[비즈니스포스트] 생성형 인공지능(AI) 모델이 봇물처럼 쏟아져 나오는 시대다.
오픈AI의 ‘챗GPT’가 생성형 AI 시대의 시작을 알렸다면 중국 스타트업의 ‘딥시크’는 경쟁 구도를 형성하며 판을 키웠다.
최근 챗GPT가 이미지 생성 기능을 강화하면서 세계적으로 사진을 일본 지브리 스튜디오 스타일로 바꾸는 유행이 번지며, 생성형 AI는 대중 속으로 빠르게 확산하고 있다.
하지만 정작 생성형 AI 모델을 활용하려 하면 워낙 다양한 종류와 기능 때문에 어디서부터 어떻게 써야 할지 막막한 게 현실이다.
20일 웹에서 무료로 이용 가능한 챗GPT(오픈AI), 클로드(앤트로픽), 코파일럿(마이크로소프트), 퍼플렉시티, 딥시크에 같은 질문을 여러개 던져 성능을 비교 분석해봤다.
◆ 한국어 실력은 모두 ‘양호’, 최신 국내 정보 묻자 ‘딥시크’와 ‘클로드’ 오답
생성형 AI 모두 전반적으로 한국어 구사 능력은 양호한 모습을 보였다.
“개념없다가 무슨 뜻이야?”라는 질문에 대해 5가지 AI 모델은 모두 해당 표현이 누군가의 말이나 행동이 상황에 맞지 않거나 기본적 예의나 상식을 벗어났을 때 사용된다는 점을 정확히 설명하고, 적절한 예시 문장도 함께 제시했다.
특히 챗GPT는 이 표현을 어떤 상황에서 들었는지를 되묻는 방식으로 맥락을 파악하려는 시도를 보였고, 딥시크는 친한 사이라도 무례하게 들릴 수 있으니 사용을 삼가는 것이 좋다는 조언을 덧붙여 눈길을 끌었다.
다만 신조어에 대한 이해력에서는 차이를 보였다. ‘느낌 좋다’의 준말인 ‘느좋’의 의미를 묻는 질문에 코파일럿과 퍼플렉시티는 정확한 의미를 제시한 반면, 챗GPT는 이를 표준 한국어가 아닌 오타 혹은 인터넷 은어로 추정했다. 딥시크는 “너 좋아해”, 클로드는 “느린 좋아요”라는 엉뚱한 답변을 내놨다.
국내 관련 정보를 묻는 질문에서 딥시크와 클로드는 가장 아쉬운 성능을 보였다.
서울 서초구 방배동의 주민등록 인구를 묻는 질문에 대해 챗GPT, 코파일럿, 퍼플렉시티는 2025년 2월 기준 서초구청 자료를 바탕으로 정확한 수치를 제시했다.
반면 딥시크는 2024년 기준 자료를 바탕으로 수치를 알려줬고, 클로드는 관련 통계를 확인할 수 있는 사이트만 안내하는 데 그쳤다.
현직 대통령을 묻는 질문에서도 딥시크와 클로드는 업데이트가 이루어지지 않았는지,
윤석열 전 대통령을 여전히 재임 중인 대통령으로 소개하며 오류를 드러냈다.
◆ 상위 추론과 전략적 사고, 창의성 모두 뛰어나
생성형 AI의 추론 능력을 확인하고자 "AI가 기자를 대체할 수 있을까?"라는 질문을 던졌다.
모든 모델이 AI가 기자를 완전히 대체하기는 어렵다는 취지의 답변을 내놨지만, 딥시크와 퍼플렉시티의 답변은 인상적이었다.
챗GPT, 클로드, 코파일럿은 비교적 간결한 응답을 제공한 반면, 딥시크는 AI의 강점과 한계, 미래 전망까지 구체적 예시를 들어가며 상세히 설명했다.
퍼플렉시티 역시 AI가 대체할 수 있는 영역과 인간의 역할이 여전히 필요한 영역, 미래 가능성 등을 딥시크처럼 체계적으로 설명했다. 딥시크와의 차별점은 문장마다 출처를 링크로 제공해 자료의 신뢰성을 직접 확인할 수 있도록 했다는 점이다.
전략적 사고 능력을 판단해 보기 위해 제시한 ‘한국 반도체 산업의 미래’를 묻는 질문에서도 추론 능력 결과와 비슷하게 딥시크와 퍼플렉시티의 분석력이 돋보였다.
생성형 AI의 창의성을 살펴보기 위해 ‘봄’과 ‘고양이’를 주제로 시를 지어달라고 요청하자, 모든 모델이 확연한 차이 없이 뛰어난 글쓰기 실력을 보였다.
▲ 딥시크가 세종대왕이 '거중기'를 제작했다고 답변하는 모습. <비즈니스포스트> |
◆ 오답을 사실처럼, 한계도 분명
5종의 AI 모델 가운데 챗GPT는 문서 작성과 다양한 작업에서 우수한 성능을 보였다. 딥시크는 다양한 주제에 창의적 답변을 제공하는 점이 인상적이었다. 퍼플렉시티는 실시간으로 웹 정보를 검색해 제공하면서도 답변에 명확한 출처를 제시해 다른 AI 모델 대비 높은 신뢰도를 보였다.
다만 생성형 AI가 상당한 추론 능력과 정보 탐색, 창의력을 보여줬지만 아직 한계도 분명했다.
3.11과 3.9 가운데 어떤 수가 더 큰 수냐는 질문에 퍼플렉시티 외 나머지 AI 모델들은 소수점 아래 수를 비교해 3.11이 3.9보다 더 큰 수라는 오답을 내놓았다가 다시 정정하는 모습을 보였다.
정약용이 만든 ‘거중기’를 세종대왕이 언제 제작했느냐는 질문에 딥시크는 거중기 개발 시점을 ‘1430년대’로 추정된다고 답하면서 마치 역사적 사실인 것처럼 잘못된 정보를 제시하는 모습을 보였다.
이처럼 잘못된 정보를 사실인 정보인양 전달하는 '환각'의 경우가 종종 나타나 생성형 AI가 제공하는 정보를 100% 신뢰하기 위해서는 사후 검증 과정이 반드시 필요해 보였다.
결국 생성형 AI의 답변은 참고 자료일 뿐, 최종 판단은 여전히 사용자의 몫으로 해석된다. 조승리 기자