Skip to content

2025.09.10 - #48 - WALL-OSS, ORB-SLAM-Python, Robix, TunedLens, Gemma Scope, Logit Prisms, Manim, TransformerLens, SAELens #50

@changh95

Description

@changh95

Interesting papers

ORB-SLAM-Python

WALL-OSS

  • end-to-end embodied foundation model that leverages large-scale multimodal pretraining to achieve (1) embodiment-aware vision–language understanding, (2) strong language–action association, and (3) robust manipulation capability.
  • 기존의 VLA는 pre-trained VLM에 action model만 fine-tuning 해서 사용했는데, 이는 generalization에 취약.
  • Mixture-of-Experts(MoE) 아키텍처와 다단계 커리큘럼(Discrete→Continuous)으로, 각 단계별로 다른 전문가와 가중치를 활성화하여 모달리티/목표 간 간극 해소
  • Inspiration 단계: 사전학습된 VLM의 FFN을 재사용, 임베디드 VQA와 이산 행동 목표(FAST)를 통해 공간적 추론과 행동 인식 강화 .
  • Integration 단계: 연속 행동(flow matching) 학습, 시각-언어-행동 표현이 어텐션으로 상호작용, static router로 각 FFN에 분배 .
  • Unified Cross-Level CoT(Chain-of-Thought): 지시 추론, 서브골 계획, 연속 행동을 하나의 체인으로 통합, 고수준 추론에서 저수준 실행까지 매끄럽게 연결 .
  • QwenVL2.5-3B를 backbone으로 사용
  • https://x2robot.com/en/research/68bc2cde8497d7f238dde690
Image

Robix

Image Image

Metadata

Metadata

Labels

No labels
No labels

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions