미국 레딧 콘텐츠는 AI기업에게 노다지, 구글과 협업에다 올트먼은 지분 투자

▲ 2010년 10월 미국 워싱턴 DC에 위치한 공원 내셔널 몰에서 열린 한 집회에 참가자가 레딧의 로고를 들고 서 있다. <플리커> 

[비즈니스포스트] 미국 최대 온라인 커뮤니티인 ‘레딧(Reddit)’이 구글과 제휴를 맺고 자사 콘텐츠를 구글의 인공지능(AI) 학습에 활용시킬 것이라고 발표했다. 

레딧 지분을 9% 가까이 확보해둔 샘 올트먼 오픈AI 최고경영자(CEO)와도 협업 가능성이 제기되면서 레딧 콘텐츠와 인공지능 서비스 사이 시너지 효과에 업계의 관심이 모인다. 

22일(현지시각) 레딧은 구글과 콘텐츠 공급 파트너십을 맺었다는 내용의 보도자료를 통해 “구글은 레딧의 방대한 콘텐츠를 활용해 인공지능 모델을 학습시켜 성능을 개선할 것”이라고 전했다. 

구글은 19일 거대언어모델(LLM) 기술에 기반한 인공지능 챗봇인 제미나이의 최신 버전 ‘제미나이 1.5’를 공개했다. 이 모델 성능을 향상시키는 데 레딧 자료들을 활용할 수 있을 것으로 보인다. 

오픈AI 또한 레딧 콘텐츠로 챗GPT 고도화에 나설 가능성이 있다. 샘 올트먼이 레딧에 대규모로 투자해 세 손가락 안에 드는 비율의 지분을 들고 있기 때문이다.  

블룸버그는 23일 미 증권거래소(SEC) 공시자료를 인용해 샘 올트먼이 레딧의 지분을 8.7% 보유하고 있다고 보도했다. 

샘 올트먼은 뉴하우스 가문의 어드밴스(30%)와 중국 기업 텐센트(11%)에 이어 레딧의 세 번째 대주주다. 그는 레딧에서 2014년 잠시 CEO를 맡은 적이 있으며 2016년부터 2022년까지 7년 동안 이사회에 몸담기도 했다. 

샘 올트먼과의 관계 그리고 자체적인 사업 목표를 고려하면 레딧과 오픈AI 협업 가능성을 떠올려볼 수 있다. 

오는 3월 뉴욕증시에 기업공개(IPO)를 추진하는 레딧은 향후 주력 사업 가운데 하나로 '인공지능 기업과 데이터 라이선스'를 꼽았다. 
 
미국 레딧 콘텐츠는 AI기업에게 노다지, 구글과 협업에다 올트먼은 지분 투자

▲ 레딧은 사용자들이 자신의 일상이나 관심사 관련 글을 자발적으로 올리고 이야기를 나누는 온라인 커뮤니티다. 한 사용자가 미국 샌디에이고 미션 해변에서 테슬라의 사이버트럭을 목격했다고 올린 글을 갈무리. < Reddit >

2005년 서비스를 시작한 레딧은 누적 게시물 수만 10억 개, 댓글은 160억 개로 추산되는 미국 최대 규모의 커뮤니티다. 2023년 10월 기준 월간 활성 이용자수(MAU)는 4억3천만 명에 달한다. 

레딧이 확보해 둔 콘텐츠와 사용자 규모가 상당해 구글이나 오픈AI와 같은 기업들이 이를 인공지능 학습에 활용할 가능성이 거론되는 것이다.

데이터 양이 중요한 이유는 거대언어모델 기술에 기반 인공지능 성능이 데이터의 양과 비례하는 모습을 보이기 때문이다.

챗GPT-4는 학습 데이터를 공개하지 않았지만 인공지능 업계에서는 100조 개의 매개변수(파라메터)를 활용했다고 추산하고 있다.

기존 버전인 챗GPT-3.5는 공식적으로 1750억 개의 매개변수로 학습해 상대적으로 정확도가 떨어진다는 평을 듣는다.

거대언어모델이 주어진 텍스트 데이터를 분석하고 분석 결과를 스스로 학습한 후 이를 기반으로 사용자에 답변하는 기계학습(머신러닝)으로 만들어지다 보니 데이터가 늘수록 결과값이 정교해지는 것이다. 

사용자들이 정치, 경제, 게임, 스포츠 등 사회 다양한 분야 콘텐츠들을 자발적으로 올린다는 점도 장점으로 꼽힌다. 

인공지능 모델 가운데 일부는 학습 데이터의 성격에 따라 편향성을 보이며 왜곡된 결과를 내놓곤 하는데 이러한 약점을 줄일 수 있다.  

레딧은 주제별 게시판인 ‘서브레딧’ 형태로 운영된다. 한국 종합 온라인 커뮤니티 ‘디시인사이드(dcinside)’에 분야별 게시판인 ‘갤러리’와 유사한 공간이다.  

서브레딧마다 운영 방침과 분위기가 독립적이다 보니 편향성을 줄일 필요가 있는 인공지능 모델 학습에 유리한 것으로 평가된다. 

각각의 글타래마다 대화 형식으로 댓글을 주고받는 점도 인공지능 모델 학습 데이터로 적합할 수 있는 요인으로 꼽힌다. 

인공지능 챗봇은 사람 의사소통 방식과 얼마나 유사한 대답을 내놓는지도 평가 요소 가운데 하나이다 보니 이를 학습할 필요가 있다. 

블룸버그에 따르면 스티브 허프만 레딧 공동창업자 겸 현 CEO는 기업공개 목적으로 미 증권 당국에 제출한 서류에서 “레딧에서는 말 그대로 ‘모든 주제’를 두고 시의성과 관련성이 높은 대화가 오간다”고 명시했다.

결국 레딧에서 수많은 사용자들이 다양한 주제를 두고 방대한 양의 콘텐츠를 쌓아두고 있다 보니 인공지능 기업들에게는 ‘노다지’, 즉 학습 데이터가 다량 묻힌 금광처럼 여겨지는 셈이다. 

IT전문지 테크크런치는 레딧의 기업공개 사업설명서를 인용해 “2024년 1월 기준 레딧의 데이터 라이선스 계약 규모는 모두 2억3천만 달러(약 3061억 원)”라고 보도했다. 이근호 기자