기업과산업  전자·전기·정보통신

KAIST 연구팀, 오픈AI GPT-4V 이미지 분석력 뛰어넘는 AI 모델 개발

조충희 기자 choongbiz@businesspost.co.kr 2024-06-20 14:17:44
확대 축소
공유하기
페이스북 공유하기 트위터 공유하기 네이버 공유하기 카카오톡 공유하기 카카오스토리 공유하기 유튜브 공유하기 url 공유하기 인쇄하기

[비즈니스포스트] 한국과학기술원(KAIST)은 노용만 KAIST 교수 연구팀이 오픈AI의 GPT-4V 등 상업용 거대언어모델(LLM)의 이미지 분석 성능을 뛰어넘는 '콜라보'와 '모아이' 2개 LLM을 개발했다고 20일 밝혔다.

콜라보는 이미지 안에서 배경과 물체를 구분하는 능력이 향상된 LLM이다.
 
KAIST 연구팀, 오픈AI GPT-4V 이미지 분석력 뛰어넘는 AI 모델 개발
▲ 노용만 KAIST 교수 연구팀이 인공지능 모델의 이미지 분석 성능을 향상시키는 기술을 개발했다. (왼쪽부터) 노용만 교수, 이병관 박사과정, 박범찬 석박사통합과정, 김채원 박사과정 사진. < KAIST >

연구팀은 현존하는 기존 공개형 LLM의 이미지 이해 능력이 현저하게 떨어진다는 것을 포착, 이미지 내 정보를 배경과 물체 단위로 분할하고, 각 정보를 LLM에 입력하는 식으로 구분능력을 향상시켰다고 설명했다.

모아이는 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해 등으로부터 상황을 판단하는 기능을 강화한 LLM이다.

연구팀은 기존 공개형 LLM이 상세하고 종합적으로 장면을 이해하는 능력이 부족하다고 보고, 이미지의 모든 요소를 인간이 이해할 수 있는 언어로 변환한 뒤 LLM에 입력하는 식으로 상황 판단 성능을 끌어올렸다고 설명했다.

이번 개발 성과는 단순히 모델의 크기를 키우거나 고품질 데이터 세트를 만들지 않고도 LLM의 시각 성능을 획기적으로 높인 것에 의미가 있다고 연구팀은 설명했다.

노용만 교수는 "모든 모델을 공개형 LLM으로 출시했다"며 "이 연구 모델이 멀티모달 LLM 기술 발전에 기여할 것"이라고 말했다. 조충희 기자

인기기사

테슬라 '4680 배터리' 자체 생산 중단 가능성, LG엔솔 삼성SDI 수혜 기대 이근호 기자
구글 웨이모 미국에서 자율주행 택시 전면 상용화, 누구나 이용 가능 이근호 기자
완성차업체 배터리 수직계열화 한계 봉착하나, K-배터리 입지 더 커진다 류근영 기자
메모리반도체 호황기 본격 진입, JP모간 "HBM은 역사상 최고 성장동력" 평가 김용원 기자
‘윤석열 탄핵’ 국회 국민청원 동의 15만 명 넘어서, 법사위에 회부 김대철 기자
LG엔솔 테슬라용 4680 리튬 배터리 오창서 8월 양산, 배터리업계 최초 김호현 기자
중국 HBM 상용화 고전, 삼성전자 SK하이닉스 향한 의존도 더 커진다 김용원 기자
마이크론 실적발표는 HBM·메모리 업황 가늠자, 한국 반도체주 '청신호' 될까 김용원 기자
삼성중공업, 지연됐던 4조7천억 규모 ‘시더 LNG 프로젝트’ 수주 가닥 김호현 기자
LG화학 신학철 “LG엔솔 지분 매각 계획 없다" "트럼프 당선돼도 IRA 큰 틀 변화.. 김호현 기자

댓글 (0)

  • - 200자까지 쓰실 수 있습니다. (현재 0 byte / 최대 400byte)
  • - 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 댓글은 관련 법률에 의해 제재를 받을 수 있습니다.
  • - 타인에게 불쾌감을 주는 욕설 등 비하하는 단어가 내용에 포함되거나 인신공격성 글은 관리자의 판단에 의해 삭제 합니다.