16 분 소요

0. Introduction

Paper link

Project blog

Code link

Model and data collection

MolmoAct2는 VLA model을 연구용 benchmark score에서 실제 robot deployment 조건으로 끌고 가려는 논문이다. 이 논문이 흥미로운 이유는 robot policy를 단순히 visual observation에서 action으로 매핑하는 모델로 보지 않는다는 점이다. 저자들은 real-world deployment를 위해 backbone, robot dataset, action tokenizer, continuous action expert, inference latency, accessible embodiment를 한 번에 묶어 설계한다.

“좋은 robot foundation model은 action accuracy 하나가 아니라, data, tokenizer, latency, hardware accessibility가 같이 맞아야 한다.”

한 줄 요약: MolmoAct2는 Molmo2-ER embodied reasoning backbone, OpenFAST action tokenizer, per-layer KV-cache conditioned flow-matching action expert, adaptive depth reasoning을 결합해 open VLA를 실제 robot deployment에 더 가깝게 만들려는 action reasoning model family다.

이 논문을 지금 볼 가치가 있는 이유는 다음과 같음.

  • open VLA에서 중요한 것이 model weight 공개만이 아니라 data, tokenizer, deployment recipe까지 포함한 artifact 공개임을 보여준다.
  • reasoning-based robot policy가 latency 문제를 어떻게 만나는지, 그리고 adaptive depth로 이 병목을 어떻게 줄이려 하는지 잘 드러낸다.
  • SO-100/101, DROID Franka, bimanual YAM처럼 low-to-medium cost embodiment를 중심에 두어 robotics foundation model의 접근성을 다룬다.

이 논문의 핵심은 robot policy를 하나의 model architecture로만 설명하지 않는다는 점이다.

MolmoAct2는 stronger VLM 하나를 만든 논문이라기보다, VLM이 robot control로 넘어갈 때 필요한 interface contract를 다시 설계한 논문에 가깝다. 여기서 interface contract란 perception token, state token, action token, continuous action chunk, depth token, hardware-specific setup string이 어떤 순서와 objective로 만나는지에 대한 약속이다.

1. Problem Setting

1-1. Problem definition

이 논문이 겨냥하는 문제는 VLA model을 실제 robot deployment에서 쓸 때 필요한 조건을 동시에 만족시키는 것이다.

  • 입력은 camera observation, language instruction, robot setup descriptor, control descriptor, proprioceptive state다.
  • 출력은 robot이 실행할 action trajectory다.
  • 목표는 한 가지 benchmark에서 높은 success rate를 얻는 것이 아니라, 여러 embodiment에서 fine-tuning과 out-of-the-box deployment가 가능하도록 만드는 것이다.
  • deployment target은 expensive proprietary setup이 아니라 SO-100/101, DROID Franka, bimanual YAM처럼 연구자와 builder가 접근 가능한 platform이다.

기존 VLA를 실제 환경에 적용할 때 어려운 지점은 다음과 같다.

  1. Closed frontier system
    • 많은 강한 robotics model은 weight, data, training recipe, evaluation detail이 충분히 공개되지 않는다.
    • 연구자는 model behavior를 분석하거나 자기 robot에 맞게 확장하기 어렵다.
  2. Reasoning latency
    • explicit reasoning은 interpretability와 spatial grounding에는 좋지만, 매 control step마다 긴 reasoning trace를 만들면 latency가 커진다.
    • robot은 text answer와 달리 느린 응답이 곧 control failure로 이어질 수 있다.
  3. Embodiment mismatch
    • robot마다 camera 위치, action dimension, controller frequency, gripper convention, state vector가 다르다.
    • 하나의 tokenizer와 policy가 여러 embodiment를 다루려면 action representation을 표준화해야 한다.
  4. Real-world reliability
    • benchmark success rate가 높아도, 실제 robot에서는 calibration, occlusion, object diversity, hardware safety, batch action execution 문제가 남는다.

따라서 이 논문은 VLA를 다음 질문으로 재정의한다.

“open model이 실제 robot에서 돌아가려면 어떤 data, action interface, continuous controller, inference path가 필요한가?”

1-2. Why previous approaches are insufficient

기존 접근의 한계는 크게 네 가지로 볼 수 있다.

  • 일반 VLM backbone은 spatial reasoning, metric distance, free-space reasoning, ego-exo correspondence를 충분히 학습하지 않는다.
  • discrete action token만 쓰면 language model pretraining에는 편하지만, 실제 robot control에서 필요한 continuous trajectory를 바로 내기 어렵다.
  • continuous action expert만 붙이면 VLM의 rich attention state를 충분히 활용하지 못하고, final hidden state conditioning에 갇힐 수 있다.
  • depth reasoning을 매번 full token으로 생성하면 geometric grounding은 얻지만 closed-loop latency가 과도해진다.

MolmoAct2는 이 문제를 model size 확대로 풀지 않는다. 대신 embodied reasoning backbone, action tokenization, flow-matching expert, depth-token reuse, platform-specific fine-tuning을 하나의 pipeline으로 묶는다.

이 지점이 이 논문의 실무적 가치다.

Robot foundation model은 language model처럼 API로만 평가하기 어렵다. Weight가 공개되어도 dataset, tokenizer, state/action schema, inference server, hardware setup이 없으면 실제 deployment까지 이어지지 않는다. MolmoAct2는 그 사이의 빈칸을 줄이려는 시도다.

2. Core Idea

2-1. Main contribution

MolmoAct2의 핵심 기여는 다섯 가지로 정리할 수 있다.

첫째, Molmo2-ER backbone을 만든다.

Molmo2-ER은 Molmo2를 spatial and embodied reasoning에 맞게 specialize한 VLM backbone이다. 이미지 embodied QA, pointing, detection, video embodied QA, multi-image, ego-exo reasoning, abstract reasoning을 포함한 embodied reasoning corpus를 사용한다.

둘째, deployment-oriented robot dataset을 공개한다.

논문은 MolmoAct2-BimanualYAM Dataset, MolmoAct2-SO100/101 Dataset, MolmoAct2-DROID Dataset을 중심으로 robot data mixture를 구성한다. 특히 BimanualYAM은 34.5K demonstrations와 720+ hours를 포함하며, bimanual tabletop and household task를 다룬다.

셋째, OpenFAST Tokenizer를 제공한다.

OpenFAST는 continuous robot action을 compact discrete token sequence로 바꾼다. action chunk는 one second 단위로 보고, action dimension은 32로 padding하며, 2048-token action vocabulary를 사용한다.

넷째, discrete VLM과 continuous action expert를 연결한다.

MolmoAct2는 autoregressive VLM의 per-layer KV cache를 flow-matching action expert의 cross-attention context로 사용한다. final hidden state만 쓰는 것이 아니라 layer-wise attention state를 continuous controller에 넘긴다.

다섯째, MolmoAct2-Think로 adaptive depth reasoning을 넣는다.

Depth token을 매 step 전부 다시 생성하지 않고, 이전 frame과 비교해 변한 region만 새로 예측한다. 정적인 scene region은 cached depth token을 재사용한다. 목표는 geometric grounding은 유지하면서 reasoning latency를 낮추는 것이다.

2-2. Design intuition

MolmoAct2의 설계 직관은 다음과 같다.

  • Robot control에는 language understanding보다 embodied reasoning이 더 중요할 때가 많다.
  • Action은 text token처럼 discrete하게 학습하기 쉽지만, 실제 controller에는 continuous trajectory가 필요하다.
  • Spatial reasoning은 action quality를 높이지만, 매 step 전체 reasoning을 다시 하면 latency가 커진다.
  • 따라서 pretraining에는 discrete action token을 쓰고, deployment에는 continuous action expert를 붙이며, reasoning은 변화가 있는 부분만 갱신하는 방식이 필요하다.

이 논문에서 가장 중요한 설계는 discrete interface와 continuous interface를 분리하면서도 같이 학습한다는 점이다.

Pretraining 단계에서는 robot action을 OpenFAST token으로 만들어 next-token prediction objective 안에 넣는다. 이렇게 하면 text, vision-language, state, action target을 하나의 autoregressive framework로 다룰 수 있다. 하지만 실제 deployment에서는 robot에게 discrete token sequence가 아니라 continuous action trajectory가 필요하다. 그래서 post-training에서는 flow-matching action expert를 붙여 continuous action chunk를 생성한다.

이 구조는 robotics에서 꽤 실용적이다. Pretraining stability와 data mixing은 discrete token이 맡고, control precision은 continuous expert가 맡는다. 그리고 두 interface가 완전히 분리되지 않도록 post-training에서 autoregressive action loss와 flow-matching loss를 함께 유지한다.

3. Architecture / Method

3-1. Overview

Item Description
Model family MolmoAct2, MolmoAct2-Think, MolmoAct2-Pretrain, Molmo2-ER
Target task Vision-language-action robot control
Backbone Molmo2-ER embodied reasoning VLM
Action tokenizer OpenFAST, 2048-token action vocabulary
Continuous controller Flow-matching action expert
VLM to action connection Per-layer KV-cache cross-attention conditioning
Reasoning variant Adaptive depth token prediction
Deployment targets DROID Franka, SO-100/101, bimanual YAM, LIBERO
Main difference Open artifacts plus deployment-oriented architecture and data recipe

MolmoAct2 pipeline은 크게 세 단계로 볼 수 있다.

  1. Molmo2-ER로 embodied reasoning backbone을 만든다.
  2. OpenFAST action token으로 VLA pretraining을 수행한다.
  3. Flow-matching action expert와 adaptive depth reasoning을 붙여 deployment policy로 바꾼다.

3-2. Module breakdown

1) Molmo2-ER backbone

Molmo2-ER은 MolmoAct2의 perception and reasoning backbone이다. 일반 VLM이 image QA와 captioning에 강해도, robot control에 필요한 geometric skill은 별도로 학습해야 한다.

Molmo2-ER이 강화하려는 skill은 다음과 같다.

  • object location and pointing
  • free-space and placement reasoning
  • distance, direction, size estimation
  • multi-view and ego-exo correspondence
  • video-based spatial reasoning
  • embodied QA and abstract spatial reasoning

논문에서 Molmo2-ER은 Molmo2 계열의 일반 multimodal data와 embodied reasoning data를 같이 사용한다. Table 1 기준으로 Molmo2 mixture 8.25M, Molmo2-ER mixture 3.26M, NLP 980K가 합쳐져 total 12.51M sample mixture가 된다.

Molmo2-ER은 robot policy의 hidden bottleneck을 먼저 건드리는 부분이다.

Robot action head가 좋아도, backbone이 object depth, free space, cross-view correspondence를 잘 모르면 downstream controller는 불안정해진다. MolmoAct2는 action model 이전에 embodied perception prior를 먼저 강화한다.

2) OpenFAST action tokenizer

Robot action은 continuous vector다. 또한 embodiment마다 action dimension, controller type, frequency가 다르다. 이 상태로는 language model의 next-token prediction stream에 action을 직접 넣기 어렵다.

OpenFAST는 이 문제를 다음 방식으로 푼다.

  • one-second action trajectory를 하나의 chunk로 본다.
  • raw action은 common 32-dimensional format으로 padding한다.
  • continuous dimension은 1-99 percentile statistic으로 normalize한다.
  • gripper command는 별도 처리한다.
  • frequency-domain transform, coefficient quantization, BPE를 통해 discrete action token sequence로 바꾼다.
  • vocabulary size는 2048이다.

OpenFAST tokenizer training mixture는 one million action sequences를 사용한다. 주요 deployment source인 BimanualYAM, SO-100/101, DROID가 각각 30%를 차지하고, Fractal, BC-Z, Bridge가 각각 3.33%씩 들어간다.

이 설계의 장점은 action representation을 model input-output protocol로 고정한다는 점이다. 여러 embodiment가 달라도 action chunk와 padded dimension을 맞추면 같은 tokenizer와 autoregressive objective에 넣을 수 있다.

3) MolmoAct2-Pretrain

MolmoAct2-Pretrain은 Molmo2-ER을 discrete autoregressive robot policy로 바꾸는 단계다.

입력 sequence에는 다음 요소가 들어간다.

  • visual observation token
  • language instruction
  • setup descriptor
  • control descriptor
  • state token
  • action output marker
  • OpenFAST action token target

Robot example은 current state와 future one-second motion을 함께 가진다. State value는 normalization 후 256 state token 중 하나로 discretize되어 prompt에 붙는다. Action vector는 OpenFAST token으로 변환되어 next-token target이 된다.

Pretraining mixture는 10% multimodal data와 90% robot trajectory로 구성된다. robot portion 내부에서는 YAM, SO-100/101, DROID가 각각 30% sampling weight를 받고, 나머지 10%는 BC-Z, BridgeData V2, RT-1, MolmoAct Dataset 등으로 나뉜다. 학습은 200K steps, maximum sequence length 4200 tokens로 진행된다.

중요한 점은 이 단계에서는 아직 continuous action expert를 학습하지 않는다는 것이다.

이 단계의 목적은 stable and scalable pretraining이다. 즉 action을 discrete token으로 바꾸어 text and vision-language data와 같은 next-token objective에 넣는 것이다.

4) Flow-matching action expert

실제 robot control에서는 continuous action trajectory가 필요하다. 그래서 post-training 단계에서 MolmoAct2는 flow-matching action expert를 추가한다.

Action expert는 noisy action chunk와 time embedding을 받아 velocity field를 예측한다. inference에서는 Gaussian noise에서 시작해 velocity field를 적분하면서 continuous action trajectory를 만든다.

개념적으로는 아래처럼 볼 수 있다.

\[a_t = (1 - t) * epsilon + t * a\] \[L = L_ar + lambda * L_fm\]

여기서 $L_ar$는 autoregressive next-token loss이고, $L_fm$은 flow-matching action loss다. 논문에서는 discrete action token supervision과 continuous action supervision을 같이 둔다.

MolmoAct2의 독특한 부분은 action expert가 VLM의 final hidden state만 보는 것이 아니라, VLM per-layer KV cache를 cross-attention key-value로 받는다는 점이다. 즉 action expert block이 같은 depth의 VLM attention state를 직접 참조한다.

이 connection의 의미는 크다. Robot action은 low-level control이지만, 어떤 object를 집어야 하는지, 어느 공간이 비어 있는지, instruction이 어떤 affordance를 요구하는지 같은 정보는 VLM attention state 안에 있다. MolmoAct2는 이 정보를 continuous controller가 layer-wise로 접근하게 만든다.

5) MolmoAct2-Think and adaptive depth

MolmoAct2-Think는 action 전에 depth token을 예측하는 reasoning variant다.

기본 아이디어는 다음과 같다.

  • Depth Anything V2로 RGB frame의 dense depth map을 추정한다.
  • MolmoAct 계열 depth VQ-VAE로 depth map을 discrete code로 quantize한다.
  • depth representation은 100 spatial code positions와 128 learned depth-code values로 구성된다.
  • model은 <depth_output>, <depth_start>, <depth_end> token을 사용해 depth buffer를 autoregressive하게 다룬다.
  • action expert는 depth token을 읽은 뒤의 VLM KV cache를 사용해 action을 생성한다.

MolmoAct2-Think의 핵심은 adaptive depth다. 매 control step마다 100개 depth code를 모두 새로 예측하지 않는다. 이전 RGB frame과 현재 RGB frame의 patch similarity를 비교하고, 변화가 있는 cell만 다시 예측한다. 변하지 않은 cell은 previous depth buffer에서 replay한다.

논문은 update threshold로 cosine similarity 0.996을 사용한다. 즉 visual evidence가 충분히 비슷한 patch는 static region으로 보고 depth token을 재사용한다.

이 부분은 robotics에서 reasoning cost를 줄이는 좋은 예시다.

Text reasoning에서는 매 query마다 생각을 새로 해도 된다. 하지만 robot은 30Hz control이나 closed-loop interaction을 다룬다. scene의 대부분이 정적이라면 같은 depth token을 매번 다시 생성하는 것은 낭비다. MolmoAct2-Think는 reasoning을 할지 말지를 scene change에 맞춰 조절한다.

6) Deployment and inference optimization

MolmoAct2는 deployment 측면도 꽤 구체적으로 다룬다.

  • repository는 LeRobot integration을 포함한다.
  • DROID and YAM setup을 위한 FastAPI inference server가 제공된다.
  • SO-100/101, bimanual YAM, DROID Franka setup을 deployment target으로 명시한다.
  • inference에서는 action expert의 repeated flow-matching step을 위해 reusable cross-attention state와 fixed position-dependent term을 cache한다.
  • CUDA Graph replay를 사용해 fixed-shape repeated computation의 kernel launch overhead를 줄인다.
  • adaptive depth inference에서는 static KV cache와 span-level replay를 사용한다.

GitHub README 기준으로는 model weights, fine-tuned checkpoints, datasets, LeRobot workflow, inference servers가 공개되어 있다. 다만 README에는 training, fine-tuning, deployment, evaluation full code and more details가 coming soon이라고 적혀 있다. 이 부분은 논문의 fully open claim과 artifact 상태를 구분해서 봐야 한다.

4. Training / Data / Recipe

4-1. Data

MolmoAct2의 data recipe는 이 논문에서 가장 중요한 축 중 하나다.

Data source Role Key detail
Molmo2-ER corpus embodied reasoning backbone 3.26M embodied reasoning samples
Molmo2 mixture general multimodal retention image QA, video QA, pointing, tracking, captioning
Tulu text data language competence retention NLP portion in mixture
BimanualYAM bimanual deployment data 34.5K demonstrations, 720+ hours
SO-100/101 low-cost robot diversity 38,059 episodes, 19.8M frames, 184 hours
DROID Franka in-the-wild data quality-filtered DROID subset
OXE-related data embodiment diversity BC-Z, BridgeData V2, RT-1 and related sources
MolmoAct Dataset prior ARM data household and tabletop skill carry-over

BimanualYAM은 논문에서 가장 눈에 띄는 dataset이다. 두 개의 YAM arm을 사용하는 bimanual setup에서 household, factory, coffee-shop style task를 수집한다. task 예시는 folding clothes, untangling cables, bussing tables, scanning groceries, packing medication 등이다. 논문은 전체 setup cost가 under 6000 USD라고 설명한다.

SO-100/101 dataset은 Hugging Face community의 low-cost robot dataset을 curate한다. 1,222 public LeRobot datasets와 377 users에서 나온 data를 structural validity, eval-style removal, license/codebase eligibility, TOPReward quality gate로 필터링한다.

DROID dataset은 Franka robot 기반 in-the-wild data를 quality-filtered subset으로 사용한다. 이 세 축은 각각 bimanual, low-cost, Franka real-world setting을 담당한다.

4-2. Training strategy

Training recipe는 크게 네 단계로 볼 수 있다.

  1. Molmo2-ER specialization
    • Molmo2를 embodied reasoning corpus로 further training한다.
    • 이후 general Molmo2 mixture와 embodied corpus를 섞어 joint refinement한다.
    • 목적은 spatial reasoning을 올리면서 general VLM capability를 잃지 않는 것이다.
  2. Discrete VLA pretraining
    • Molmo2-ER에서 시작한다.
    • Robot action은 OpenFAST token으로 변환한다.
    • State는 256 discrete state token으로 표현한다.
    • Multimodal data와 robot trajectory를 같은 next-token objective에 넣는다.
    • training은 200K steps, maximum sequence length 4200 tokens로 진행된다.
  3. Continuous action post-training
    • 200K-step MolmoAct2-Pretrain checkpoint에서 시작한다.
    • Flow-matching action expert를 추가한다.
    • discrete autoregressive loss와 continuous flow-matching loss를 함께 학습한다.
    • action expert는 VLM per-layer KV cache를 detached conditioning path로 받는다.
    • 논문은 100K updates, global batch size 128, 64 H100 GPUs, around 2300 GPU hours를 보고한다.
  4. Embodiment-specific fine-tuning
    • target embodiment에 맞는 checkpoint를 fine-tune한다.
    • action width 32, single resized crop, setup/control descriptors, state tokens, OpenFAST vocabulary는 유지한다.
    • YAM, DROID, SO-100/101, LIBERO 등 target별 recipe를 둔다.

이 recipe에서 중요한 점은 하나의 objective로 다 해결하지 않는다는 것이다.

Backbone은 embodied reasoning으로 specialize한다. Pretraining은 discrete action token으로 stable data mixing을 한다. Post-training은 continuous flow-matching expert로 deployment action을 만든다. Think variant는 depth token을 통해 spatial reasoning을 explicit하게 만든다.

4-3. Engineering notes

실무 관점에서 가져갈 point는 다음과 같다.

  1. Camera order randomization
    • Multi-camera robot episode에서는 input camera order를 episode level에서 randomize한다.
    • fixed camera slot에 과적합하지 않게 만드는 장치다.
  2. Common action shape
    • Continuous action은 maximum horizon 30 steps와 maximum width 32 dimensions로 padding된다.
    • horizon mask와 dimension mask가 padded step and dimension을 loss에서 제거한다.
  3. Target leakage masking
    • Continuous action expert가 discrete target action token span을 보지 못하도록 mask한다.
    • expert는 task, observation, setup/control descriptor, state, depth token을 보되, target action token 자체는 보지 않아야 한다.
  4. Knowledge insulation
    • Flow loss가 VLM backbone을 직접 흔들지 않도록 KV cache path를 detach한다.
    • action expert와 KV projection은 flow loss로 학습되고, VLM은 autoregressive objective로 업데이트된다.
  5. Inference cache
    • Flow-matching action expert의 context-dependent cross-attention state를 cache한다.
    • adaptive depth에서는 unchanged cell을 replay하고 changed cell만 decode한다.

이런 engineering detail은 논문의 contribution을 단순 architecture novelty 이상으로 만든다. Robot policy는 benchmark script 하나가 아니라 hardware, data schema, inference server, safety constraint, latency budget까지 포함하는 system이기 때문이다.

5. Evaluation

5-1. Main results

논문은 evaluation을 여섯 축으로 나눈다.

  • Molmo2-ER embodied reasoning benchmark
  • out-of-the-box deployment
  • efficient fine-tuning
  • MolmoAct2-Think adaptive depth contribution
  • trajectory quality beyond raw success rate
  • component-level ablation and inference speed

핵심 수치는 다음처럼 정리할 수 있다.

Setting Result Interpretation
Embodied reasoning Molmo2-ER overall avg 63.8 GPT-5 57.9, Gemini 2.5 Pro 57.1, Qwen3-VL-8B 61.0보다 높음
Real-world DROID zero-shot MolmoAct2-DROID avg 87.1% MolmoBot 48.4%, Pi-0.5 45.2%보다 높음
SO-100/101 zero-shot MolmoAct2-SO100/101 avg 56.7% open Pi-SO100/101 45.3%, SmolVLA 2.3%보다 높음
LIBERO fine-tuning MolmoAct2 97.2%, Think 98.1% Think는 harder suite에서 gain이 더 큼
RoboEval fine-tuning MolmoAct2 44.3% runner-up보다 3.8 point 높음
Real-world YAM fine-tuning MolmoAct2 50.1% avg 8 tasks 중 7 tasks에서 baseline보다 높음

Ai2 project blog는 inference latency 측면도 강조한다. LIBERO setup에서 single action call 기준으로 base MolmoAct2는 about 180 ms, adaptive depth reasoning variant는 about 790 ms, prior MolmoAct는 6700 ms로 보고한다. 또한 adaptive depth mechanism은 full depth-token prediction 대비 17% speedup을 낸다고 설명한다.

이 숫자를 볼 때 조심해야 할 점도 있다. Robot evaluation은 hardware, camera setup, calibration, action normalization, task distribution에 민감하다. 따라서 success rate를 model ranking만으로 읽기보다, 어떤 deployment setting에서 어떤 data and fine-tuning recipe를 썼는지 같이 봐야 한다.

5-2. What really matters in the experiments

이 논문에서 중요한 실험 포인트는 단순히 MolmoAct2가 baseline보다 높은 score를 냈다는 것이 아니다.

1) Backbone score와 policy score를 분리해서 본다

Molmo2-ER은 embodied reasoning benchmark에서 평가된다. MolmoAct2는 simulation and real-world manipulation에서 평가된다. 이 분리는 중요하다. 좋은 VLM이 바로 좋은 robot policy가 되는 것은 아니지만, robot policy가 필요한 spatial information을 backbone이 얼마나 갖고 있는지는 별도로 확인해야 한다.

2) Out-of-the-box와 fine-tuning을 모두 본다

Robot policy는 training embodiment에서만 잘 되는 model이 되기 쉽다. 논문은 DROID, SO-100/101에서 out-of-the-box deployment를 보고, LIBERO, RoboEval, YAM real-world task에서 fine-tuning 결과를 본다. 이 조합은 실사용 관점에서 중요하다. 완전 zero-shot만 보거나, full fine-tuning만 보면 deployment 난도를 제대로 볼 수 없다.

3) Latency를 reasoning model의 핵심 metric으로 본다

MolmoAct 계열은 reasoning을 action 전에 수행한다. 하지만 robot control에서는 reasoning token 수가 action latency로 직결된다. MolmoAct2-Think의 adaptive depth는 이 병목을 줄이려는 설계다. 즉 논문은 interpretability와 latency의 trade-off를 system design 문제로 다룬다.

4) Open artifact status를 같이 봐야 한다

논문 abstract는 model weights, training code, complete training data release를 말한다. 반면 GitHub README에는 full code for training, fine-tuning, deployment, evaluation and more details가 coming soon이라고 적혀 있다. 따라서 리뷰 시점에서는 paper claim과 repository artifact status를 구분해야 한다.

6. Limitations

  1. Action chunk execution의 한계
    • Ai2 blog는 MolmoAct2가 10-30 moves를 batch로 plan and execute한다고 설명한다. batch 중간에 unexpected obstacle이 생기면 즉시 다시 추론하지 못할 수 있고, batch transition이 jerky하게 보일 수 있다.
  2. Out-of-the-box embodiment가 제한적이다
    • 기본 deployment는 SO-100/101, bimanual YAM, DROID Franka처럼 강하게 학습한 setup에 가깝다. Humanoid, dexterous hand, 다른 camera geometry로 옮기려면 추가 data and fine-tuning이 필요하다.
  3. Fully open claim은 artifact status와 같이 봐야 한다
    • model, dataset, inference server, LeRobot workflow는 공개되어 있지만, GitHub README는 full training and evaluation code가 coming soon이라고 적고 있다.
  4. Physical deployment safety는 benchmark score와 다르다
    • robot speed, workspace, torque, contact force, emergency stop, human supervision이 모두 필요하다. README도 physical robot deployment 전 validation and safety checks를 강조한다.
  5. Evaluation cost와 reproducibility burden이 크다
    • real-world robot benchmark는 15 trials, 50 trials, camera randomization, task variants, hardware maintenance가 필요하다. 일반 ML benchmark처럼 쉽게 재현하기 어렵다.
  6. Adaptive depth의 threshold와 cache policy가 domain dependent일 수 있다
    • cosine threshold 0.996은 논문 setup에서 효과적이지만, lighting change, camera noise, reflective object, fast motion에서는 update mask behavior가 달라질 수 있다.
  7. Reasoning interpretability가 causal correctness를 보장하지 않는다
    • depth token이나 visual trace가 사람이 보기 좋은 intermediate를 제공하더라도, policy가 실제로 그 representation에 올바르게 의존하는지는 별도 분석이 필요하다.

7. My Take

7-1. Why this matters for my work

MolmoAct2는 robotics 논문이지만, 넓게 보면 multimodal agent system 설계에 대한 좋은 case study다.

특히 중요하게 보는 부분은 다음 세 가지다.

  1. Interface-first design
    • text, vision, state, action, depth를 어떤 token and continuous interface로 연결할지 먼저 정의한다.
  2. Reasoning cost control
    • intermediate reasoning을 무조건 늘리는 것이 아니라, scene change에 따라 depth prediction을 줄인다.
  3. Artifact-aware openness
    • open model은 weight release만으로 충분하지 않다. dataset, tokenizer, inference server, training recipe, hardware setup이 함께 있어야 한다.

MolmoAct2가 VLA 분야에서 보여주는 가장 큰 메시지는 open deployment stack이다.

Model card만 있는 VLA는 연구 재현이 어렵다. 반대로 dataset, tokenizer, action schema, inference server까지 있으면 다른 연구자가 자기 robot에서 실패를 분석하고 개선할 가능성이 커진다.

7-2. Reuse potential

재사용하고 싶은 point는 다음과 같다.

  1. Discrete-to-continuous bridge
    • Pretraining은 discrete action token으로 안정화하고, deployment는 continuous expert로 처리한다.
    • 이 아이디어는 robotics 외에도 speech, video, UI automation처럼 continuous or structured action을 다루는 model에 응용 가능하다.
  2. Per-layer cache conditioning
    • final hidden state만 쓰지 않고, backbone의 layer-wise KV state를 downstream expert에 넘긴다.
    • 이는 multimodal backbone과 specialized expert를 연결할 때 유용한 design pattern이다.
  3. Adaptive intermediate reasoning
    • reasoning output을 매번 전체 생성하지 않고, cached state와 update mask로 필요한 부분만 갱신한다.
    • long video understanding, streaming agent, embodied memory system에도 비슷한 아이디어를 쓸 수 있다.
  4. Deployment-oriented data curation
    • SO-100/101 data처럼 community data를 바로 쓰지 않고 structural validity, license, quality gate를 거친다.
    • 실제 agent system에서도 public trace나 user log를 그대로 쓰기보다, schema and quality filtering pipeline이 먼저 필요하다.

7-3. Follow-up papers

  • MolmoAct: Action Reasoning Models that can Reason in Space
  • OpenVLA: An Open-Source Vision-Language-Action Model
  • FAST: Efficient action tokenization for robotics policy learning
  • Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  • RT-1: Robotics Transformer for Real-World Control at Scale
  • DROID: A Large-Scale In-the-Wild Robot Manipulation Dataset
  • Open X-Embodiment: Robotic Learning Datasets and RT-X Models
  • Pi-0 and Pi-0.5 style VLA model reports

8. Summary

  • MolmoAct2는 open VLA를 real-world deployment 조건으로 다시 설계한 action reasoning model family다.
  • 핵심 구성은 Molmo2-ER backbone, OpenFAST tokenizer, flow-matching action expert, adaptive depth reasoning이다.
  • Pretraining은 discrete action token으로 안정화하고, post-training은 continuous action expert로 실제 control trajectory를 만든다.
  • Evaluation은 embodied reasoning, zero-shot deployment, fine-tuning, latency, trajectory quality를 함께 본다.
  • 실무 적용에서는 artifact status, hardware safety, action chunk execution, embodiment transfer limitation을 반드시 같이 봐야 한다.

댓글남기기