Qwen-RobotSuite: VLA 조작 및 내비게이션을 위한 세 가지 AI 모델 소개
Qwen 팀이 개발한 Qwen-RobotSuite는 조작, 비디오 세계 모델링, 내비게이션을 위한 세 가지 새로운 AI 모델을 소개합니다. 첫 번째 모델인 RobotManip은 Qwen3.5-4B를 기반으로 한 비전-언어-행동 모델로, 다양한 조작 작업을 수행할 수 있도록 설계되었습니다. 두 번째 모델인 RobotWorld는 60층 MMDiT를 활용한 언어 조건 비디오 세계 모델로, 비디오 데이터를 기반으로 한 이해력을 제공합니다. 마지막으로 RobotNav는 Qwen3-VL을 기반으로 하여 2B, 4B, 8B 크기로 구성된 내비게이션 모델입니다. 각 모델의 아키텍처, 데이터 파이프라인, 벤치마크 결과를 통해 이들이 어떻게 작동하는지 자세히 살펴봅니다.
출처: Mark Tech Post
요약번역: 미주투데이 김지호 기자