IIS 지식정보센터

Security

 

 

조선비즈

사이언스조선

테크놀로지

챗GPT 가고 GPT-4V가 온다…‘존맛탱’ 번역하고 엑스레이 영상도 분석

 

 

오픈AI, 대규모멀티모달모델 ‘GPT-4V’ 공개

텍스트만 가능했던 챗GPT에서 진화

이미지 입력하면 이해하고 유추해서 답변까지

 

이종현 기자

입력 2023.10.16 06:00

 

 

올해의 단어를 꼽으라면 ‘LLM(대규모언어모델)’을 빼놓고 이야기하기는 힘들 것 같다. 작년 말 오픈AI의 챗GPT가 공개된 이후 LLM은 정보기술(IT) 분야를 넘어서 일상 곳곳에 자리잡았다.

 

그런데 불과 1년 만에 LLM이라는 단어도 낡은 유산으로 전락할 처지다. LLM을 대신할 새로운 용어가 인공지능(AI) 업계에 등장했기 때문이다. 바로 ‘LMM(대규모멀티모달모델)’이 챗GPT 등장 1년 만에 AI 업계의 판도를 바꿀 새로운 ‘게임 체인저’로 주목받고 있다.

 

오픈AI가 최근 공개한 LMM 'GPT-4V'를 이용해 존맛탱이 들어간 이미지에 대해 설명해달라고 했더니 '맛있는 음식'을 의미한다고 정확하게 설명해준다.

오픈AI가 최근 공개한 LMM 'GPT-4V'를 이용해 존맛탱이 들어간 이미지에 대해 설명해달라고 했더니 '맛있는 음식'을 의미한다고 정확하게 설명해준다.

 

LLM와 LMM의 차이는 언어와 멀티모달에 있다. LLM이 대규모로 언어 모델을 학습했다면 LMM은 멀티모달을 학습했다고 보면 된다. 멀티모달은 텍스트 외에 이미지와 음성 같은 다양한 방식을 사용하는 AI를 말한다. 챗GPT가 텍스트에 기반해서 이용자와 질문과 대답을 주고 받는 AI였다면 LMM을 적용한 AI는 텍스트뿐만 아니라 이미지와 음성까지도 이용할 수 있게 되는 셈이다.

 

LMM은 많은 AI전문가들이 챗GPT의 다음으로 주목했던 기술이다. 하지만 이미지와 음성을 인식하고 출력하는 기술은 텍스트를 대상으로 하는 것과는 비교가 안 되게 어려움이 클 것이라는 예상이 많았다. LMM의 시대가 오기까지는 제법 시간이 걸릴 것이라는 전망이 많았다.

 

그런데 오픈AI가 다시 한 번 그 예상을 깼다. 오픈AI가 지난 9월 25일 공개한 ‘GPT-4V(ision)’는 AI 전문가들을 깜짝 놀라게 했다. GPT-4V는 이용자가 이미지를 올리고 이미지에 대한 질문을 할 수 있는 LMM으로, 사실상 전 세계에서 처음으로 대중화된 LMM 서비스다. 오픈AI는 이미 작년 말 GPT-4V를 위한 학습을 마치고, 올해에는 알파 그룹의 사용자에게 접근 권한을 부여한 뒤 테스트를 진행해 GPT-4V의 신뢰도를 높였다. 공개 직전인 9월 초에는 베타테스터 규모를 1만6000명까지 늘리기도 했다.

 

이렇게 출시된 GPT-4V는 챗GPT와는 또다른 충격을 주고 있다. 많은 사람들이 GPT-4V가 어떤 이미지까지 인식할 수 있는지 실험에 나서고 있는데, 챗GPT가 처음 나왔을 때 챗GPT에 질문을 던지는 게 일종의 ‘밈’처럼 이뤄진 것과 같은 분위기다.

 

 

지난 9월 29일에는 마이크로소프트의 연구자들이 GPT-4V를 이용해 다양한 실험을 진행한 논문이 공개되기도 했다. 단순한 이미지 해석에서부터 스도쿠 같은 게임을 이용한 추리, 인물의 표정을 통해 기분을 유추하는 것 등 다양한 실험이 망라돼 있었다.

 

특히 인상깊은 건 엑스레이 이미지를 보고 골절 부위를 지목한다거나 영어가 아닌 다른 국가의 언어가 들어간 이미지까지 제대로 해석해서 설명을 내놓는다는 점이었다. 김밥을 만드는 순서를 정확하게 나열하거나 손글씨로 제시된 이미지도 문제 없이 이해하는 모습이었다.

 

GPT-4V에 김밥을 만드는 과정을 담은 이미지 5개를 제시하고 순서대로 배치하라고 하자 정확하게 나열한 모습.

GPT-4V에 김밥을 만드는 과정을 담은 이미지 5개를 제시하고 순서대로 배치하라고 하자 정확하게 나열한 모습.

GPT-4V에 인물의 얼굴을 담은 사진을 제시하자 인물이 어떤 감정 상태인지를 묘사하고 있다.

GPT-4V에 인물의 얼굴을 담은 사진을 제시하자 인물이 어떤 감정 상태인지를 묘사하고 있다.

 

김진중 원티드랩 생성 AI팀 리더는 자신의 페이스북에 올린 글에서 “GPT-4V는 이미지 판별, 디텍팅, OCR은 물론이고 X-Ray 분석과 밈의 이해와 설명까지 한다”며 “챗GPT가 처음 나왔을 때 정도의 충격”이라고 평가했다. 그는 GPT-3로 AI 업계가 완전히 바뀐 것과 같은 상황이 다시 올 것이라고도 내다봤다.

 

논문을 작성한 연구진은 “GPT-4V 같은 시각적인 프롬프트를 이용한 방식은 인간과 컴퓨터가 상호 작용하는 새로운 길을 열 수 있다”며 “LMM은 LLM에서 한 단계 더 나아가서 다양한 감각을 갖춘 일반적인 지능을 달성하게 해줄 것”이라고 밝혔다.

 

오픈AI가 선수를 쳤다면 구글은 반격을 준비하고 있다. 구글이 이르면 다음 달 공개할 예정인 제미니 역시 LMM을 표방하고 있다. 주빈 가라마니 구글 딥마인드 부사장은 지난 5월 열린 구글 연례 개발자 회의에서 “멀티모달은 의료 서비스, 가상 비서, 자율주행 같은 다양한 분야에서 활용도가 높다”며 LMM을 차세대 AI 서비스로 지목한 바 있다.

 

참고자료

 

arxiv, DOI : https://doi.org/10.48550/arXiv.2309.17421

 

사이언스조선 배너

 

이종현 기자

이종현 기자

사이언스조선에서 과학팀장을 맡고 있습니다. 과학기술정보통신부와 정부출연연구기관을 비롯해 과학 분야 전반을 취재하고 있습니다.

 

 

 

 

 


List of Articles
번호 제목 글쓴이 날짜
173 (유튜브 에스오디 SOD) "아이폰은 삐삐 수준, 정신차려라 애플".. 진짜 열 받은 삼성과 구글 ㄷㄷㄷ ...[2023-10-18] viemysogno 2023.10.18
172 (YTN 서미량) "집 없으면 더 빨리 늙는다…흡연·비만보다 해로워" 연구 결과 ...[2023-10-17] viemysogno 2023.10.17
171 (유튜브 에스오디 SOD) 세계 1위 엔비디아 제쳤다. 국뽕 차오르는 한국 다크호스의 반란 ...[2023-10-16] viemysogno 2023.10.16
170 (세계일보 김수연) '비아그라' 복용한 30대 남성…3시간 뒤 한쪽 눈 실명 ...[2023-10-16] viemysogno 2023.10.16
169 (유튜브 AI훈련소) 챗GPT4V(ision) 챗GPT로 멀티모달이 시작됩니다. 안보면 무조건 후회 ...[2023-10-16] viemysogno 2023.10.16
» (조선비즈 이종현) 챗GPT 가고 GPT-4V가 온다…‘존맛탱’ 번역하고 엑스레이 영상도 분석 ...[2023-10-16] viemysogno 2023.10.16
167 (유튜브 에스오디 SOD) 기어코 세계 기록 돌파한 미국의 인공태양, 그런데 한국의 방식이 좀 더... ...[2023-10-12] viemysogno 2023.10.12
166 =추천= (YTN 유튜브) [과학 한스푼] 일반 차량에 기름대신 수소로!...수소엔진 기술 국산화 성공 / YTN ...[2023-10-03] viemysogno 2023.10.03
165 [IIS Opinion] 위키백과에 나온 적색편이에 관한 글과 관련한 몇 가지 개인적 단상 ...[2023-10-01] file viemysogno 2023.10.01
164 =추천= (유튜브 방구석 과학) 우리가 알고 있는 양자역학이 틀린 거라고?? 양자역학의 다양한 해석들 ...[2023-10-01] viemysogno 2023.10.01
163 (유튜브 이효석아카데미) [월간아신] 엔비디아가 주춤한 이유는 '이것' 때문!⎮IT의 신 이형수 대표 ...[2023-09-28] viemysogno 2023.09.28
162 [IIS Opinion] 항성의 거리 측정법 - 매우 많이 아쉬운 방법이군요. 우주 미션에서 경험이 중요할 수 밖에 없습니다. [2023-09-28] viemysogno 2023.09.28
161 (유튜브 IT의 신 이형수) 삼성도 반한 TEL의 차세대 식각 기술, 국내 이 업체가 수혜! ...[2023-09-27] viemysogno 2023.09.27
160 (유튜브 증시각도기TV) 삼성전자 반도체 투자, 현재 핵심은 이것입니다 | 이형수 대표 #1 [투자Insight] ...[2023-09-24] viemysogno 2023.09.24
159 (유튜브 프로파일럿) F-22에 들어가는 최신 스텔스 기술, 미국보다 먼저 특허 냈다! KF-21에 적용되면 6세대로 껑충?! I 조형희 교수 2편 ...[2023-09-22] viemysogno 2023.09.22
158 (동아일보 최지원 , 박정연) “中 과학역량, 美 넘어섰다”… 기술봉쇄의 역설 ...[2023-09-20] viemysogno 2023.09.20
157 (유튜브 닥터덕 Dr Duk) 부교감신경 기능 향상을 위한 운동 6가지!! (교감신경의 항진을 낮추고, 자율신경 부조화를 정상화 시키는데 도움이 됩니다.) ...[2023-09-19] viemysogno 2023.09.19
156 (유튜브 제레미킴 - 자동차 알려주는 형) 수소연소엔진 기술로 휘발유차를 수소차로 개조 가능할까요? ...[2023-09-10] viemysogno 2023.09.10
155 =추천= (유튜브 에스오디 SOD) “정부가 경고했다”.. 한국 세계 최초 상온 양자컴퓨터 개발, 관련주 급등의 진실 ...[2023-09-10] viemysogno 2023.09.10
154 (사이언스조선 이종현) [뉴테크] 가상공간 속 제주 도로서 1000배 연습했다...국내 최장 자율주행 코스 탄생의 비결 ...[2023-09-09] viemysogno 2023.09.09
목록
Board Pagination Prev 1 ... 4 5 6 7 8 9 10 11 12 13 ... 17 Next
/ 17