멀티모달 언어 모델을 활용한 자율 주행 기술의 동향

작성자 : 백승렬 울산과학기술원 인공지능대학원 교수 2024.05.22 게시

서론

생활 속의 간단한 질문부터 Python 코딩 등 전공 분야 관련 질문에 대한 답변까지 가능한 OpenAI의 ChatGPT는 2022년 11월 출시된 이후 어느덧 우리 생활 깊숙이 자리하고 있다. ChatGPT는 GPT (generative pre-trained transformer) 라는 언어 모델 (language model)을 채팅이 가능하도록 확장한 기술이다. 초창기의 GPT는 언어 입력만으로 입력과 출력이 가능했지만 2023년 하반기에 OpenAI사는 언어 입력 뿐 아니라 영상 입력도 분석할 수 있는 GPT-4V(ision) [1]이라는 기술을 발표했다. GPT-4V를 활용하면 영상을 입력으로 줄 수 있고 해당 영상에 대한 질문을 주어주면 그것에 대한 답변도 가능하다. 이렇게 텍스트 뿐 아니라 다른 종류의 모달리티 (modality)를 입력 또는 출력으로 활용할 수 있는 언어 모델을 멀티모달 언어 모델 (multimodal language model) 이라고 부른다. 최근 단순 언어모델을 멀티모달 언어모델로 확장하는 것이 트렌드이며, 이렇게 확장된 멀티모달 언어모델을 통해 새로운 종류의 AI 서비스를 고안하는 논문들도 눈에 띄인다. 본 고에서는 자율 주행 (autonomous driving) 분야에 멀티모달 언어모델을 적용한 사례를 살펴보고 해당 기술의 현 수준과 향후 연구 방향에 대해 고찰해보고자 한다.

멀티모달 언어 모델

사람이 다른 사람과 대화를 진행할 때도 단순히 텍스트만을 가지고 채팅을 진행하면 서로 간의 의사소통 능력은 한계가 있다. 컴퓨터와 대화를 할 때도 마찬가지다. 텍스트 외에 추가적인 의사소통 방법으로서 영상, 오디오 신호 등을 함께 제공한다면 조금 더 효율적인 의사소통이 가능해진다. 멀티모달 언어 모델은 이러한 효율적인 의사소통을 위해 기존 언어 모델로부터 좀 더 다양한 신호를 입력과 출력으로 활용하도록 확장되어지고 있다. 예를 들어, [1] 논문에 보고된 텍스트와 영상을 동시에 활용하여 언어모델에 문답을 진행한 사례는 아래와 같다. 멀티모달 언어모델 중 하나인 GPT 4V에게 그림1에처럼 배경과 테이블을 찍은 사진을 보여주며, 해당 상황을 3단어/6단어/9단어로 설명하라고 요청할 경우, 멀티모달 언어 모델은 그림을 보고 해당 상황을 요청에 맞게 설명해준다. 또한 영상에 대한 좀 더 고차원적인 질문을 했을 때도 언어 모델은 마치 생각하는 능력이 있는것처럼 그에 맞게 대답을 해준다. 그림 2와 같이 사람이나 사물의 갯수를 세어달라는 질문에도 답을 잘 하며, 그림3과 같이 사진에 대한 정보 분석 혹은 물체 분석도 어느정도 수행이 가능하다. OpenAI사 뿐 아니고 Google에서도 Gemini를 멀티모달로 확장하였으며, 글로벌 빅테크 기업들이 멀터모달 언어모델을 경쟁적으로 출시하고 있다. 국내에서는 Kakao Brain에서 2023년 12월에 Honeybee [2] 라는 멀티모달 언어모델을 개발하였다.

그림1. 멀티모달 언어 모델의 입력 출력 예시

The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision), ArXiv:2309.17421

그림2. 멀티모달 언어 모델이 영상내 물체 숫자를 세는 예시

The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision), ArXiv:2309.17421

그림3. 멀티모달 언어 모델이 영상 내 물체를 인식하는 예시

The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision), ArXiv:2309.17421

멀티모달 언어모델의 자율 주행 분야 적용

그림4는 자율주행 시나리오에서 멀티모델 언어모델인 GPT-4V가 적절한 판단을 내릴 수 있음을 보여준다. 영상으로부터 물체를 적절히 인식할 수 있음을 보여준다. 다만, 아직 차선 검출 등에서 부족함을 보여주고 있고 자율주행에 특화된 텍스트를 생성해주기 보다는 전경(scene)에 대한 대체적인 설명을 해주고 있는 것으로 보여 자율주행에 특화한 멀티모달 언어모델을 개발할 필요성을 보여준다. DriveGPT4 [4] 는 자율주행에 특화된 텍스트를 언어모델이 생성하도록 GPT4를 확장하였으며, HiLMD [5]는 자율 주행 환경에서의 위험 인식, 의도 인식 등의 좀 더 디테일까지 멀티모달 언어 모델에 추가하도록 하였다. 그림5는 DriveGPT 파이프라인을 보여주며, 전방 영상과 사람의 텍스트 질문을 받아서 멀티모달 언어모델이 텍스트 형태의 출력과 함께 핸들을 조작하는 신호를 출력함을 보여준다. 그림6은 HiLMD의 결과 예시로, 전방 영상에서 운전자가 주의해서 움직여야 하는 부분을 알려주는 것을 확인할 수 있다.

그림4. GPT4V의 자율주행 이해도 예시

A Survey on Multimodal Large Language Models for Autonomous Driving, WACV Workshop 2024.

그림5. DriveGPT4 파이프라인

DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model, ArXiv:2310.01412

그림6. 자율 주행 환경 주의 요소 검출 예시

HiLM-D: Towards High-Resolution Understanding in Multimodal Large Language Models for Autonomous Driving, ArXiv:2309.05186

결론

본 고에서는 멀티모델 언어모델에 대한 내용과 이를 자율주행 분야에서 활용하는 내용에 대해 살펴보았다. 멀티모달 언어모델을 자율주행에 적용하는 것은 분명 유망해 보이지만, 사람의 생명을 좌우할 수 있는 위험을 수반하는 응용분야이기 때문에 극한 코너 케이스에 대한 검증이 추가적으로 필요할 것으로 예상된다. 예를 들어,  [5] 논문에서는 아직 영상 내 하나의 위험 물체가 존재할 때만 해당 논문에 대한 실험이 이루어졌다고 하고, 비가 오거나 안개 끼는 등 극한 날씨 상황에 대한 데이터가 제한되어 이후 이러한 부분에 대한 검증이 더 필요하다고 보고 하고 있다. [4] 논문도 자율주행 환경에서 보다 유용한 컨텐츠를 언어모델이 제공하지만 틀린 정보를 제공하는 예시도 볼 수 있다. 이러한 부분에서 추가적인 검증과 개선이 필요할 것으로 예상된다.

핵심단어	멀티모달 언어모델 멀티모달 언어 모델 자율 주행 언어 입력 입력 출력 활용
자료출처	The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) Honeybee: Locality-enhanced Projector for Multimodal LLM A Survey on Multimodal Large Language Models for Autonomous Driving DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model HiLM-D: Towards High-Resolution Understanding in Multimodal Large Language Models for Autonomous Driving
첨부파일

집필진