Figure AI 사의 Helix VLA 기술 소개

작성자 : 백승렬 울산과학기술원 인공지능대학원 교수 2025.07.31 게시

서론

VLA (Vision-Language-Action)는 시각(Vision), 언어(Language), 그리고 행동(Action)을 통합적으로 이해하고 실행할 수 있는 멀티모달 인공지능 시스템을 의미한다. 시각 신호는 카메라 영상, 이미지 등으로 주변 환경을 촬영한 정보를 말하며 최신 시각 인지 기술을 활용한 영상 인식 정보를 통칭한다. 언어 신호는 사람이 입력한 자연어와 그에 대한 처리가 가능한 자연어 처리 기술을 통해 얻어진 정보들을 통칭하며, 행동은 이러한 시각, 언어 정보 및 그것을 처리하는 기술을 활용해 이들을 연결하고 실제 로봇 등 시스템의 행동을 제어하는 것을 말한다. VLA 기술은 로봇 등 시스템에서 사람의 말(Language)을 이해하고, 보는 것(Vision)에 반응하여 그에 맞는 적절한 행동을 수행하는 인공지능을 구현하여, 최근 화두가 된 Physical AI를 구현하는 핵심적인 기술이라 할 수 있다. 본 고에서는 최근 VLA 기술을 실제 로봇에 구현한 Figure AI (그림1 참조)사의 Helix 사례를 통해 이 기술의 수준을 알아보고 향후 전망을 소개하고자 한다.

본문

Figure AI사 소개: 창업가 브렛 애드콕(Brett Adcock)이 2022년에 설립한 미국 기업인 Figure AI는 AI 기반 인간형 로봇 분야에서 주목 받는 기업으로 빠르게 자리 잡았다. Figure AI는 자율적인 인간형 로봇(그림1 참조)을 구현하고 그것의 VLA 및 실제 환경 적용을 수행했다. 인간형 로봇이 노동 경제 문제를 해결하고 "보편적 인터페이스"가 되어 집에서는 물론이고, 물류, 제조 등 다양한 산업과 우주 탐사에 이르기까지 인류에게 다양한 도움을 줄 것이라고 예상한다. 언어 모델 개발은 OpenAI와의 파트너십을 통해 이루어졌으나, 최근 독자 모델을 개발하였으며, 연간 12,000대의 로봇을 목표로 하는 대량 생산 시설인 BotQ를 2025년 3월에 공개했다. 2029년까지 로봇 10만 대를 출하한다는 계획이며, 향후 자금 조달 라운드를 통해 15억 달러를 추가 모금할 가능성이 있고 기업 가치는 395억 달러까지 늘어날 가능성이 있다.

그림1. Figure AI의 Helix 로봇 사진

https://www.figure.ai/news/helix

개발 모델 소개: 2022년 Figure AI의 최초 프로토타입인 Figure 01은 물류 및 창고 업무를 목표로 하고 있고, 키 약 175cm, 무게는 약 59kg 수준이다. 배터리 수명은 5시간이고, 카메라, LiDAR, 촉각 센서를 장착하고 있다.

2024년 8월 출시된 Figure 02는 산업용으로 개선된 모델이며, 통합 케이블, 몸통 배터리, RGB 카메라 6개, 그리고 온보드 비전 언어 모델을 갖추고 있다. Nvidia RTX GPU 기반 모듈을 활용하여 Figure 01보다 3배정도 높은 추론 성능을 가지고 있고 마이크와 스피커를 장착하여 언어 모델을 통해 사람과 음성 대 음성 대화가 가능하다. 로봇의 손은 16자유도를 가지며 최대 25kg의 무게를 지탱할 수 있으며, 10시간 동안 작동한다.

2025년 2월에 Helix VLA 모델을 개발하였으며, 이 범용 모델은 지각, 언어, 제어를 통합하여 35자유도로 고속 연속 상체 제어를 수행한다. 2025년 OpenAI와의 파트너십 종료로 Helix VLA 구현은 자체 구현으로 진행되었다. 강화 학습(RL)을 사용하여 로봇의 이동을 훈련하고, 미세 조정 없이도 실제 로봇에 자연스럽게 적용되는 자연스러운 보행을 구현하고 있다. Helix VLA는 로봇이 자연어 프롬프트를 통해 집안 물건을 집어 올릴 수 있도록 지원하고, 70억 개의 매개변수를 가지는 모델과 8천만 개의 매개변수를 가지는 200Hz의 고속 제어를 위한 모델 두 가지로 구성되어 있으며, 500시간 분량의 원격 조작 데이터를 수집하여 이를 기반으로 모델을 훈련하였다. 
응용 분야: Figure AI는 제조를 시작으로 다양한 응용 분야를 개척하고 있다. 2024년 1월 BMW Manufacturing과 체결한 계약을 통해 BMW 자동차 공장에 로봇을 배치하였다. BMW 스파턴버그 공장에서 진행된 테스트에는 Figure 02를 이용해 판금 부품을 삽입하는 작업을 수행했고, 초기에 배치 규모에 대한 논란이 있었지만, 데이터 수집 및 추가 교육을 위한 협력이 지속되고 있다. 물류 및 창고 부문 적용을 위해 UPS와 로봇이 소포 분류 및 처리 업무를 수행하도록 협의가 진행 중이다. 가정용 작업과 가정용 애플리케이션도 중요한 목표로 삼고 있고 로봇이 식료품 저장, 가정용품 조작 및 노인 도우미 등을 수행하는 것을 주요 목표로 한다. 
향후 전망: Figure AI는 2029년까지 10만 대의 로봇을 출하하는 것을 목표로 하고 있으며, 연간 12,000대를 생산할 수 있는 능력을 확보했다. 주로 제조, 물류, 창고, 소매업의 인력 부족 문제를 해결하는 것을 목표로 하고 있고 전 세계 GDP의 상당 부분을 차지하는 수작업을 자동화할 수 있다고 판단되어 노동 경제에 미치는 잠재력이 상당하다. 또한 설거지나 세탁 같은 집안일을 로봇이 대신하거나 노인 돌봄, 우주 탐사 등에 활용하고자 하는 계획도 가지고 있다. 글로벌 로봇 시장은 2032년까지 2,868억 달러 규모로 성장할 것으로 예상되며, 이 중 인간형 로봇은 수조 달러 규모의 산업으로 성장할 잠재력을 가지고 있다.

개선 사항: BMW 공장 적용 사례는 기술의 실제 환경 적용의 복잡성을 여실히 보여준다. 특히 주택과 같은 복잡한 실제 환경에 적용하기 위해서는 로봇의 민첩성과 적응성을 확보하는 동시에 안전성과 효율성을 확보해야하는데 이에 대한 기술적 어려움이 여전히 남아있다. 또한 가정용 어플레케이션에 적용하기 위해서는 사용자가 쉽게 이해할 수 있는 보다 더 직관적인 인간-로봇 인터페이스의 개발이 중요하며, AI 훈련 및 운영에 필요한 방대한 데이터를 안전하고 효율적으로 관리하는 것도 중요한 문제다. 인간형 로봇의 보편화로 인한 잠재적 일자리 대체 가능성, 규제 필요성 등 윤리적, 사회적 고려도 필요하다. 

결론

Figure AI는 첨단 Figure 02 로봇, 혁신적인 Helix VLA 모델 등에 힘입어 인간형 로봇 분야에서 빠르게 주요 업체로 자리매김했다. 당장은 산업용 어플리케이션 개발에 초점을 맞추고 있지만, 장기적으로는 로봇을 가정에 통합하는 것을 목표로 하고 있으며, 미래의 직장과 가정생활을 점점 더 "인간형"으로 편리하게 만드는 비전을 현실화하는 데에 앞장서고 있다. 향후 인간형 로봇 분야의 성공은 지속적인 기술 발전, 효과적인 확장, 그리고 윤리적, 사회적 영향에 대한 신중한 고려에 달려 있다고 사료된다. 향후 몇 년 안에 인간형 로봇이 우리 생활 깊숙히 적용되어 인류의 삶이 보다 편리하게 개선될 것을 기대해본다. 

본 사이트(LoTIS. www.lotis.or.kr)의 콘텐츠는 무단 복제, 전송, 배포 기타 저작권법에 위반되는 방법으로 사용할 경우 저작권법 제 136조에 따라 5년 이하의 징역 또는 5천만원 이하의 벌금에 처해질 수 있습니다.

핵심단어 VLA기술FigureAIHelix로봇자율로봇응용분야
자료출처 Spotlight on humanoids: A deep dive into Figure AI (2025.07.31) Helix: A "System 1, System 2" VLA for Whole Upper Body Control (2025.07.31)
첨부파일
집필진