You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
end-to-end embodied foundation model that leverages large-scale multimodal pretraining to achieve (1) embodiment-aware vision–language understanding, (2) strong language–action association, and (3) robust manipulation capability.
기존의 VLA는 pre-trained VLM에 action model만 fine-tuning 해서 사용했는데, 이는 generalization에 취약.
Mixture-of-Experts(MoE) 아키텍처와 다단계 커리큘럼(Discrete→Continuous)으로, 각 단계별로 다른 전문가와 가중치를 활성화하여 모달리티/목표 간 간극 해소
Inspiration 단계: 사전학습된 VLM의 FFN을 재사용, 임베디드 VQA와 이산 행동 목표(FAST)를 통해 공간적 추론과 행동 인식 강화 .
Integration 단계: 연속 행동(flow matching) 학습, 시각-언어-행동 표현이 어텐션으로 상호작용, static router로 각 FFN에 분배 .
Unified Cross-Level CoT(Chain-of-Thought): 지시 추론, 서브골 계획, 연속 행동을 하나의 체인으로 통합, 고수준 추론에서 저수준 실행까지 매끄럽게 연결 .