Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models Review

2026-04-20 15 분 소요

0. Introduction

Molmo and PixMo는 “open VLM도 꽤 강해졌다” 정도로 보면 아까운 논문이다. 이 논문의 진짜 흥미로운 지점은 closed VLM distillation 없이도 competitive한 open-data / open-weight VLM을 어떻게 만들 수 있는가를 꽤 구체적으로 보여준다는 데 있다.

최근 open VLM 생태계를 보면, weights는 공개되어도 실제 성능을 만든 데이터는 GPT-4V류의 proprietary VLM outputs인 경우가 많다. 그러면 결과는 공개되지만, community는 결국 처음부터 강한 VLM을 어떻게 만드는지 배우지 못한다. Molmo는 바로 그 지점을 겨냥한다. 저자들은 단순히 모델 체크포인트만 내놓지 않고, PixMo라는 데이터 스위트, training recipe, evaluation methodology까지 함께 묶어서 제시한다.

특히 이 논문은 architecture novelty를 전면에 내세우지 않는다. backbone은 오히려 상당히 정석적인 편이다. 대신 승부처를 dense caption data의 품질, free-form QA 수집 방식, pointing supervision, overlapping multi-crop design, benchmark-style control, human evaluation에 둔다. 그래서 이 논문은 “새로운 VLM 블록” 논문이라기보다 data-centric open VLM construction manual에 가깝다.

한 줄 요약: Molmo는 standard한 VLM 아키텍처에 PixMo라는 고품질 open multimodal data suite와 overlapping multi-crop / attention pooling / point-based supervision을 결합해, proprietary VLM synthetic data 없이도 강한 open-data / open-weight VLM family를 만든 논문이다.

이 논문을 지금 볼 가치가 있는 이유는 다음과 같음.

open VLM이 정말로 open한 방법론 위에 설 수 있는지 묻는 논문이라서, 결과보다 과정의 공개성이 중요하다.
OCR, document-like image understanding, grounding, counting, user preference까지 이어져서 실서비스형 VLM 파이프라인 관점에서 재사용 가치가 높다.
“좋은 VLM은 아키텍처보다 데이터와 인터페이스 설계가 좌우한다”는 점을 매우 설득력 있게 보여준다.

내가 보기엔 이 논문의 핵심 메시지는 단순하다. 좋은 open VLM을 만드는 문제는 모델 블록 하나를 교체하는 문제라기보다, 어떤 supervision을 어떤 인터페이스로 모으고, 그것을 어떤 training loop로 연결할 것인가의 문제다. Molmo는 그 연결 고리를 꽤 정직하게 드러낸다.

1. Problem Setting

1-1. Problem definition

이 논문이 겨냥하는 핵심 문제는 강한 VLM을 공개 가능한 방식으로 만드는 것이다.
여기서 공개 가능성은 단순히 weights 공개만 의미하지 않는다.
- training data
- data collection method
- training code
- evaluation setup
- human preference evaluation 방식 까지 최대한 따라갈 수 있어야 한다.
동시에 모델은 단순한 captioner가 아니라, 아래 능력을 함께 가져야 한다.
- natural image understanding
- fine-grained OCR / document understanding
- grounding
- counting
- user-facing QA quality
즉 문제 설정은 “open model 하나 만들기”가 아니라, 연구 커뮤니티가 재현하고 확장할 수 있는 수준으로 경쟁력 있는 VLM recipe를 만드는 것에 가깝다.

1-2. Why previous approaches are insufficient

기존 proprietary VLM들은 강하지만, weights와 data, recipe가 닫혀 있어서 어떻게 만들었는지 학습할 수 없다.
반대로 최근 강한 open-weight VLM들 중 다수는 사실상 proprietary VLM distillation에 크게 의존한다. 즉 모델은 열려 있어도, 성능을 만든 핵심 supervision은 닫혀 있는 경우가 많다.
일반적인 short caption 데이터는 세밀한 시각 이해에는 한계가 있다. 특히 OCR, counting, dense perception처럼 정말 이미지를 자세히 봐야 하는 작업에는 부족하다.
또 standard ViT는 고정 해상도의 정사각형 입력에 묶이기 쉬워서, 문서나 표, 인포그래픽처럼 aspect ratio가 길고 텍스트가 많은 이미지를 다루기 어렵다.
grounding 쪽도 마찬가지다. 기존 referring expression 데이터는 category coverage가 제한적이거나, multi-instance / not-present / explanation 같은 실제 상호작용에 중요한 경우를 충분히 담지 못한다.
마지막으로 evaluation도 문제다. 프롬프트나 preprocessing detail이 조금만 달라도 숫자가 크게 흔들릴 수 있는데, 많은 모델 리포트는 그 부분을 충분히 드러내지 않는다.
결국 기존 접근의 한계는 개별 요소 하나가 아니라, data openness / visual supervision quality / spatial interface / evaluation hygiene가 하나의 시스템으로 설계되지 않았다는 데 있다.

2. Core Idea

2-1. Main contribution

Molmo의 가장 큰 기여는 하나의 fancy한 architecture가 아니라 open VLM full-stack recipe의 설계다.
첫째, PixMo라는 데이터 스위트를 만든다. 여기에는 dense caption용 PixMo-Cap, free-form QA용 PixMo-AskModelAnything, grounding / counting / explanation용 PixMo-Points가 포함된다.
둘째, synthetic data도 목적별로 제한적으로 설계한다. PixMo-CapQA, PixMo-Docs, PixMo-Clocks, PixMo-Count는 각각 caption-derived QA, document-heavy understanding, clock reading, counting을 보강한다.
셋째, 모델 아키텍처는 일부러 standard한 형태를 유지한다. 이 덕분에 성능 향상을 data와 recipe의 효과로 더 깔끔하게 읽을 수 있다.
넷째, dense caption pre-training부터 pointing-aware fine-tuning까지를 하나의 일관된 interface로 연결한다.
다섯째, academic benchmark뿐 아니라 대규모 human preference evaluation까지 수행해서 숫자와 사용자 선호를 함께 본다.

2-2. Design intuition

이 논문의 설계 직관은 매우 실무적이다.
좋은 dense perception은 짧은 캡션으로는 잘 안 생긴다. 그래서 PixMo-Cap은 annotator가 최소 60~90초 동안 이미지를 말로 설명하게 만든다.
좋은 user-facing QA는 benchmark conversion만으로는 안 생긴다. 그래서 PixMo-AskModelAnything은 사람이 실제로 궁금한 질문을 쓰고, language-only LLM이 OCR + caption 정보를 바탕으로 답변 초안을 만들고, 사람이 그것을 reject / revise하는 루프를 둔다.
grounding과 counting은 따로 놀지 않는다. 그래서 PixMo-Points는 point를 통해 grounding을 학습시키면서, 같은 point sequence를 counting의 chain-of-thought처럼 쓰게 만든다.
가능한 한 standard backbone을 유지해야 무엇이 실제로 효과가 있었는지 보인다. 그래서 저자들은 backbone보다는 data, crop design, pooling, training recipe에 에너지를 쓴다.
full benchmark 실행은 비싸다. 그래서 pre-training 단계에서는 dense caption metric인 cap을 만들어 빠르게 iterate하고, 이것이 downstream 평균과 얼마나 연결되는지도 나중에 확인한다.

3. Architecture / Method

3-1. Overview

Item	Description
Goal	proprietary VLM synthetic data 없이 경쟁력 있는 open-data / open-weight VLM family를 만드는 것
Key module	PixMo data suite + overlapping multi-crop preprocessor + attention-pooled connector + point-based fine-tuning
Core design principle	dense perception은 long caption으로, grounding / counting은 points로, user-facing QA는 human-in-the-loop QA data로 해결
Difference from prior work	architecture novelty보다 data quality, spatial interface, evaluation openness를 전면에 둠

3-2. Module breakdown

1) Standard backbone을 유지하고 data effect를 드러낸다

Molmo의 기본 구조는 비교적 전형적이다.
- image pre-processor
- ViT image encoder
- vision-language connector
- decoder-only LLM
논문은 이 네 조각을 크게 뒤집지 않는다.
주로 사용하는 vision encoder는 CLIP ViT-L/14 336px이고, 비교 대상으로 SigLIP과 MetaCLIP도 실험한다.
LLM 쪽은 openness 수준과 scale을 달리하면서
- OLMo-7B-1024-preview
- OLMoE-1B-7B
- Qwen2 7B
- Qwen2 72B 를 사용한다.
이 선택이 중요한 이유는, 결과를 “새 backbone이 좋아서”가 아니라 recipe가 좋아서라고 해석하기 쉬워지기 때문이다.

2) Overlapping multi-crop은 OCR과 fine-grained perception의 핵심이다

fixed-resolution ViT는 문서나 작은 텍스트를 읽기에 해상도가 부족하다.
그래서 Molmo는 저해상도 full image overview + 여러 개의 high-resolution crop을 함께 사용한다.
여기서 포인트는 단순 crop이 아니라 overlap이다.
crop 경계에 걸린 텍스트나 작은 물체는 주변 문맥이 없으면 인코더가 해석하기 어렵다. 저자들은 crop을 겹치게 만들어 border patch도 이웃 문맥을 보게 한다.
중요한 건 overlap 영역의 patch feature를 그대로 다 넘기지 않는다는 점이다. 겹쳐서 인코딩하되, 최종적으로 LLM에 넘기는 patch들은 정확히 high-res image를 tile하도록 정리한다.
이 구조는 OCR / detailed captioning / fine-grained recognition에서 꽤 큰 차이를 만든다.

3) Connector는 화려하지 않지만 잘 다듬어져 있다

crop이 ViT를 통과하면, 저자들은 ViT의 두 개 intermediate layer feature를 합쳐 patch feature를 만든다.
이후 각 2×2 patch window를 하나의 벡터로 줄이는데, 여기서 simple stacking이 아니라 multi-head attention pooling을 쓴다.
query는 patch 평균을 사용하고, pooled feature는 다시 MLP를 거쳐 LLM embedding space로 projection된다.
이 connector는 논문 전체의 tone을 잘 보여준다. 새로운 대형 모듈을 만들기보다, 표현 손실을 줄이는 작은 선택들을 하나씩 쌓는 방식이다.

4) Token arrangement와 text-only dropout도 중요한 디테일이다

vision token은 low-res overview를 먼저 넣고, 뒤이어 high-res crop patch들을 row-major order로 이어 붙인다.
low-res / high-res sequence 시작과 끝, 그리고 row transition을 나타내는 special token도 둔다.
이런 배치는 단순 formatting처럼 보이지만, 실제로는 공간 구조를 언어 모델에게 어떻게 전달할 것인가의 문제다.
pre-training에서는 residual dropout을 LLM에만 적용하되, text token에만 dropout을 넣는다.
이 선택은 모델이 language prior만으로 답을 찍는 대신, 이미지 쪽 representation을 더 적극적으로 쓰게 만드는 장치로 이해할 수 있다.

5) Multi-annotated images와 point interface는 실용성이 높다

VQA처럼 이미지 하나에 여러 QA가 달린 데이터는 image encoding이 반복되기 쉽다.
Molmo는 동일 이미지의 여러 annotation token을 한 시퀀스로 묶고, attention mask를 조절해 annotation 간 leakage 없이 image encoding 재사용을 한다.
이 방식은 processed image 수를 약 2/3 줄이고, training time도 절반 이상 줄이는 실용적인 최적화다.
또 point는 Molmo의 중요한 interface다.
- grounding
- counting
- explanation 을 하나의 supervision 형식으로 연결한다.
point 좌표를 normalized plain-text로 내보내고, 여러 object를 가리킬 때는 top-down, left-to-right 순서로 출력한다.
이 설계는 “모델이 어디를 보고 셌는지”를 드러내는 장점도 있다.

4. Training / Data / Recipe

4-1. Data

PixMo는 3개의 human-annotated dataset + 4개의 synthetic dataset으로 구성된다. 이 중 핵심은 human data이고, synthetic data는 목적별로 skill gap을 메우는 식으로 들어간다.

Dataset	Type	Scale	Main role
PixMo-Cap	Human	712k images, 1.3M transcripts/captions	dense caption pre-training
PixMo-AskModelAnything	Human	162k QA pairs, 73k images	real-world free-form visual QA
PixMo-Points	Human	2.3M question-points pairs, 223k images + 79k point-explanation annotations	grounding, counting, explanation
PixMo-CapQA	Synthetic	214k QA pairs, 165k images	caption-derived QA augmentation
PixMo-Docs	Synthetic	255k document-like images + 2.3M QA pairs	charts / documents / tables / diagrams 이해
PixMo-Clocks	Synthetic	826k examples	clock reading
PixMo-Count	Semi-synthetic	36k train images + manually verified val/test	counting

조금 더 해석해보면 아래가 중요하다.

PixMo-Cap이 사실상 프로젝트의 중심축이다.
- 저자들은 70개 topic에서 web image를 모은다.
- annotator는 이미지를 최소 60초, 이후 단계에서는 90초 이상 말로 설명한다.
- 음성 transcript를 얻은 뒤 language-only LLM으로 정리해 최종 caption을 만든다.
- 최종 caption 평균 길이는 196 words로, COCO caption의 11 words와 비교하면 supervision density가 전혀 다르다.
PixMo-AskModelAnything는 사람이 질문을 쓰고, OCR 결과와 PixMo-Cap 기반 dense description을 바탕으로 language-only LLM이 답안을 만들고, 사람이 accept / reject / revise하는 구조다.
- 즉, 단순 synthetic QA가 아니라 human intention이 먼저 들어가고, LLM은 answer drafting assistant로 쓰인다.
PixMo-Points는 point annotation을 단순 localization dataset으로 쓰지 않는다.
- arbitrary referring expression grounding
- absent target handling
- count-by-pointing
- point-based explanation 을 하나의 supervision으로 묶는다.
PixMo-Docs도 재미있다.
- charts, tables, diagrams, documents 같은 이미지에 대해, 직접 이미지를 읽어 QA를 만드는 대신 code generation + code-aware QA 파이프라인을 사용한다.
- 즉, image QA를 만들기 위해 external VLM을 부르지 않는다.
PixMo-Clocks와 PixMo-Count는 targeted synthetic data다.
- 이 논문은 synthetic을 무조건 크게 넣는 방식이 아니라, 현재 VLM이 놓치고 있는 skill을 특정해서 보강하는 방식으로 쓴다.

4-2. Training strategy

Pre-training

pre-training은 모든 파라미터를 PixMo-Cap에 대해 학습한다.
목표는 주어진 이미지에 대해 caption 또는 transcript style text를 생성하는 것이다.
프롬프트는 어떤 style을 생성할지 지정하고, 90% 확률로 length hint를 넣어 출력 길이를 유도한다.
이 length conditioning은 단순 prompt trick이 아니라, 실제로 caption quality와 downstream에 도움이 되는 설계로 제시된다.
흥미로운 점은, 많은 prior work가 쓰던 connector-only 초기 적응 단계를 별도로 두지 않는다는 점이다.
대신 connector에는 더 높은 learning rate와 짧은 warmup을 주고, 아예 end-to-end pre-training으로 밀어붙인다.
논문 기준 주요 hyperparameter는 다음과 같다.
- optimizer: AdamW
- schedule: cosine decay to 10% of peak
- pre-training epochs: 4
- learning rate: connector 2e-4 / ViT 6e-6 / LM 2e-5
- warmup: connector 200 steps / ViT*LM 2000 steps
- gradient clipping: LM, image encoder, connector를 따로 적용

Fine-tuning

fine-tuning은 PixMo 데이터와 기존 open academic datasets의 mixture 위에서 진행된다.
포함되는 대표 데이터는 다음과 같다.
- VQA v2.0
- TextVQA
- OK-VQA
- ChartQA
- DocVQA
- InfographicVQA
- AI2D
- A-OKVQA
- AndroidControl
- ScienceQA
- TabMWP
- ST-VQA
- TallyQA
- DVQA
- FigureQA
- PlotQA
샘플링은 기본적으로 dataset size의 square root에 비례하게 하되, 너무 큰 synthetic dataset은 수동으로 down-weight한다.
반대로 pointing data는 QA보다 학습이 느리기 때문에 강하게 up-weight한다.
benchmark 데이터는 대개 매우 짧고 특이한 answer style을 요구한다. 그래서 Molmo는 dataset-specific style tag를 둔다.
- 예: vqa2:
이건 꽤 중요하다. benchmark에서 높은 점수를 내기 위한 style을 배우게 하되, 그것이 사용자 대화 스타일 전체를 오염시키지 않게 하는 장치이기 때문이다.
point output은 0~100 범위의 normalized plain-text coordinate로 출력하고, count는 point sequence 뒤에 total count를 주는 식으로 구성된다.

4-3. Engineering notes

이 논문에서 가장 실용적인 인사이트는 architecture보다 engineering detail에서 많이 나온다.

1) `cap` metric은 꽤 쓸만한 개발 proxy다

저자들은 대부분의 개발 과정에서 full downstream benchmark를 계속 돌리지 않았다.
대신 dense caption의 precision / recall을 보는 cap metric을 개발 proxy로 썼다.
나중에 ablation을 모아보니 cap과 11-benchmark 평균(11-avg) 사이에 상당한 상관이 보인다.
이건 실무적으로도 중요하다. full SFT + full eval이 비싸다면, dense perception을 잘 반영하는 싼 proxy를 먼저 세우는 것이 iteration 속도를 크게 바꾼다.

2) Multi-crop과 overlap은 optional이 아니다

model ablation에서 single low-res input은 11-avg가 62.8이고,
multi-crop인데 overlap이 없으면 75.7,
multi-crop + overlap이면 76.9까지 올라간다.
즉 고해상도 OCR / fine-grained understanding을 원한다면, crop 설계는 전처리 detail이 아니라 사실상 모델 설계의 일부다.

3) Fully-open vision stack도 충분히 가능하다

vision encoder ablation에서는 OpenAI CLIP, MetaCLIP, SigLIP가 거의 비슷하게 나온다.
특히 MetaCLIP 336px가 CLIP과 비슷하거나 약간 더 낫게 나와서, vision encoder 쪽은 fully-open 경로가 꽤 현실적임을 보여준다.
저자들도 MetaCLIP + OLMo 조합이라면 모델 구성요소와 데이터 모두 open이라고 강조한다.

4) Data quality가 benchmark와 human preference를 같이 움직인다

data ablation이 아주 설득력 있다.
academic-only fine-tuning은 11-avg가 72.5이고,
여기에 PixMo-Docs만 더해도 74.0,
full PixMo + academic mixture는 76.9다.
특히 pointing task를 빼면 76.2로 내려간다.
human evaluation에서도 PixMo-Cap과 PixMo-AskModelAnything이 사용자 선호를 끌어올리는 핵심 데이터로 나온다.
즉 benchmark용 dataset만 모아서 fine-tune한다고 user-facing VLM이 되지는 않는다는 뜻이다.

5) Counting은 “point then count”가 가장 강하다

counting ablation은 꽤 인상적이다.
단순 count-only보다, 먼저 point sequence를 생성하고 그 다음 count를 말하는 전략이 CountBenchQA와 PixMo-Count 양쪽에서 가장 좋다.
또 point의 출력 순서는 random이 아니라 top-down / left-to-right 같은 예측 가능한 순서가 중요하다.
좌표 표현도 special token보다 plain-text coordinate가 더 낫다.
이건 결국, counting을 answer generation이 아니라 grounded reasoning procedure로 다뤘을 때 성능이 좋아진다는 의미다.

5. Evaluation

5-1. Main results

이 논문의 결과는 단순히 “open model 중 하나가 좋다” 수준이 아니라, 어떤 openness class에서 어떤 capability profile을 보였는가로 읽는 편이 좋다.

1) Family-level result는 꽤 강하다

논문 기준에서 Molmo family는 open weights, open data, open training code, open evaluations를 함께 제시한다.
대표적으로,
- MolmoE-1B는 11-benchmark average가 68.6, Elo가 1032다.
- Molmo-7B-O는 74.6 / 1051,
- Molmo-7B-D는 77.3 / 1056,
- Molmo-72B는 81.2 / 1077을 기록한다.
비교용으로 논문 내 표를 보면,
- GPT-4V는 71.1 / 1041,
- GPT-4o-0513은 78.5 / 1079다.
즉 Molmo-72B는 논문 기준 highest academic score + Elo 2위를 찍고, Molmo-7B-D도 이미 GPT-4V를 넘는 구간이 나온다.
다만 중요한 nuance가 있다. strongest result인 Molmo-72B는 Qwen2 72B 기반의 open-weight model이다. 이 논문은 openness를 binary로 보지 않고, 각 openness class 안에서 얼마나 강한가를 보여주는 방식으로 읽는 편이 정확하다.

2) 어디에서 특히 강한가

Molmo는 natural image QA에서 강하다.
- 논문 저자들은 RealWorldQA와 VQA v2.0에서 특히 강한 profile을 강조한다.
OCR-centric benchmark에서도 강하다.
- ChartQA, DocVQA, InfoQA, TextVQA에서 open model들을 넘고 일부 proprietary 모델도 앞선다.
- 다만 이 구간에서는 Qwen2-VL이 약간 더 강한 benchmark도 있다.
counting은 Molmo의 확실한 강점이다.
- CountBenchQA와 PixMo-Count에서 leading result를 보여주는데, 핵심 원인은 PixMo-Points와 point-then-count interface다.
반면 MMMU, MathVista 같은 reasoning-heavy task에서는 상대적으로 약하다.
- 논문도 이를 training mix가 advanced reasoning에 더 최적화되어 있지 않기 때문이라고 해석한다.

3) Skill-specific evaluation도 흥미롭다

clock reading에서는 Molmo가 매우 강하다.
특히 일반-purpose VLM들 대부분이 clock reading에서 크게 고전하는데, Molmo는 all scale에서 큰 gap을 보인다.
다만 specialized single-task clock reading model보다는 여전히 아래다.
AndroidControl에서도 Molmo-72B는 준수한 step-wise accuracy를 보여, 단순 QA를 넘는 action grounding 잠재력도 확인한다.

4) Human evaluation을 함께 봐야 한다

이 논문은 15k image-text prompts, 870 annotators, 325k+ ratings를 이용해 Bradley-Terry 기반 Elo를 계산한다.
이 부분이 중요하다. academic benchmark만 보면 놓치기 쉬운 response usefulness와 naturalness를 추가로 본다.
전반적으로 academic benchmark와 human eval은 비슷한 경향을 보이지만, Qwen2-VL처럼 benchmark는 강한데 human preference는 상대적으로 덜 나오는 예외도 있다.
즉 user-facing VLM에서는 숫자만큼이나 사람이 실제로 선호하는 응답을 만드는 데이터가 중요하다는 뜻이다.

5-2. What really matters in the experiments

1) 이 논문의 진짜 성과는 data attribution이다

headline만 보면 “Molmo-72B가 강하다”로 읽힐 수 있다.
하지만 내가 보기엔 더 중요한 건 왜 강한지를 상당 부분 data와 interface 수준에서 설명할 수 있다는 점이다.
PixMo-Cap scaling, PixMo-Docs 추가, pointing 제거 ablation, human eval ablation이 모두 같은 방향을 가리킨다.
결국 Molmo의 성능은 “모델이 좋아서”라기보다, dense caption + real QA + points + targeted synthetic docs/clocks/count의 조합이 잘 설계되었기 때문이라고 읽힌다.

2) Evaluation openness 자체도 contribution이다

저자들은 모델 비교 시 prompt와 preprocessing detail 때문에 점수가 10% 가까이 흔들릴 수 있다고 직접 적는다.
이건 굉장히 중요한 고백이다.
많은 leaderboard는 숫자만 있고 조건이 없다. Molmo는 적어도 비교 숫자가 얼마나 implementation-sensitive한지를 드러낸다.
특히 benchmark별 style tag 사용 여부, crop 수, human eval에서는 point를 가리지 않고 text output만 보여주는 방식 등, evaluation protocol을 꽤 구체적으로 남긴다.

3) PixMo-Cap이 프로젝트의 실질적 중심축이다

프로젝트 전체를 보면 PixMo-Cap이 거의 모든 것의 출발점이다.
pre-training target이고,
AskModelAnything answer drafting의 기반이며,
cap metric의 기반이고,
human preference ablation에서도 중요하게 나온다.
심지어 GPT-4o로 PixMo images를 caption한 variant도 강하게 나오는데, 이건 “역시 GPT-4o가 최고다”라기보다 이미지 풀 자체가 좋고 dense caption supervision이 중요하다는 해석이 더 맞다.
저자들도 distillation이 효과적일 수는 있지만, community가 competitive VLM을 distillation 없이 이해하고 만들 수 있어야 한다는 점을 분명히 한다.

4) Chatbot Arena 결과와의 차이도 의미가 있다

논문 자체 human eval에서는 Molmo-72B가 GPT-4o 바로 뒤까지 올라가지만,
independent Chatbot Arena snapshot에서는 여전히 여러 proprietary 모델 아래에 있다.
이 차이는 질문 분포 차이에서 왔을 가능성이 크다.
저자들도 Molmo 데이터가 counting / image-description에 강하다고 해석한다.
즉 평가셋의 성격이 모델 순위를 크게 바꾼다는 당연하지만 자주 잊히는 사실을 다시 보여준다.

6. Limitations

현재 data pipeline은 완전히 open하다고 보기 어렵다.
PixMo를 만들 때 external VLM은 쓰지 않았지만, 일부 데이터 생성 / 정제 과정에는 closed text-only LLM이 들어간다. 논문도 이 점을 명시한다. 즉 circular VLM distillation은 피했지만, 완전한 의미의 end-to-end openness는 아직 아니다.
가장 강한 결과가 곧 fully-open을 의미하지는 않는다.
Molmo family는 openness level이 다층적이다. strongest model인 Molmo-72B는 Qwen2 72B 기반 open-weight 모델이다. 반면 MetaCLIP + OLMo 경로는 fully-open에 더 가깝다. 따라서 이 논문은 “완전히 열린 하나의 최고 모델”보다 openness class별 frontier를 제시하는 논문으로 보는 편이 정확하다.
능력 profile이 perception-heavy 쪽으로 치우쳐 있다.
Molmo는 natural image understanding, OCR, counting, clock reading 쪽에서는 매우 강하지만, MMMU / MathVista 같은 reasoning-heavy benchmark에서는 상대적으로 약하다. training mix가 그런 방향으로 설계된 결과다.
spatial interface는 crop mismatch에 민감하다.
논문은 일반 academic evaluation에서는 36 crops를 쓰지만, pointing은 train / test crop 수가 달라지면 성능이 크게 흔들릴 수 있다고 보여준다. 즉 spatial coordinate interface는 단순 decoding 포맷이 아니라, training-time image geometry와 강하게 묶인 설계다.
multimodal fine-tuning은 text-only capability를 일부 깎을 수 있다.
appendix의 text-only benchmark를 보면 component LLM 대비 손실이 나타난다. 저자들은 소량의 text-only post-training으로 일부를 복구할 수 있다고 보이지만, 결국 multimodal specialization과 text-only generality 사이에는 trade-off가 있다.
open recipe라고 해서 가볍게 재현 가능한 것은 아니다.
72만 장 dense caption 수집, 2.3M pointing pair, large-scale human eval까지 포함된 pipeline은 상당히 무겁다. 이 논문은 “재현 가능한 철학”을 공개한 것이지, 누구나 바로 따라할 수 있는 저비용 recipe를 준 것은 아니다.

7. My Take

7-1. Why this matters for my work

내가 이 논문을 높게 보는 이유는, VLM 성능 향상을 backbone 경쟁이 아니라 supervision interface 설계로 보게 만든다는 점 때문이다.
특히 아래 관심 축과 직접 연결된다.
- OCR / Document AI
- grounding-based multimodal assistant
- point-based explanation
- 실제 서비스용 visual QA pipeline
Molmo를 보고 나면, “좋은 VLM을 만들려면 더 큰 encoder가 필요한가?”보다
- 더 긴 caption supervision이 필요한가?
- human-written QA가 필요한가?
- point annotation이 counting과 grounding을 같이 해결할 수 있는가? 같은 질문을 하게 된다.
이 framing은 실무적으로도 훨씬 유용하다.

7-2. Reuse potential

speech-to-caption annotation
문서, UI, 웹페이지, 산업 장비 화면처럼 dense perception이 중요한 도메인에서는 짧은 typed caption보다 spoken description 기반 dense caption 수집이 훨씬 나을 수 있다.
overview + overlapping crop
OCR, chart, infographic, UI understanding에서는 거의 바로 가져다 쓸 수 있는 설계다. 특히 border context 문제를 overlap으로 푸는 아이디어는 단순하지만 효과가 크다.
point supervision
segmentation mask보다 저렴하면서도 grounding / counting / explanation을 한 번에 밀 수 있다. 실제 annotation budget이 한정된 팀에서 특히 매력적이다.
multi-annotation packing
image encoding 비용이 큰 MLLM / VLM에서는 매우 현실적인 최적화다. inference보다 training cost가 문제인 팀이라면 작은 논문 trick이 아니라 바로 ROI가 나오는 설계다.
cheap proxy metric 설정
full downstream benchmark를 계속 돌릴 수 없는 환경이라면, Molmo처럼 dense perception을 반영하는 개발 지표를 하나 세우는 게 중요하다.
document-like synthetic data generation
PixMo-Docs처럼 image를 직접 읽게 하지 않고 code / structure를 활용해 QA를 생성하는 접근은 chart / table / diagram data 구축에 꽤 재사용 가치가 있다.

7-3. Follow-up papers

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
Molmo가 open VLM data pipeline 쪽에 강하다면, MM1.5는 capability-balanced MLLM recipe와 OCR / grounding / multi-image trade-off 분석 쪽에서 좋은 비교점이다.
Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution
Molmo가 OCR-centric benchmark에서 자주 비교되는 모델이고, dynamic resolution / high-resolution perception 관점에서 같이 읽을 가치가 있다.

8. Summary

Molmo는 “open VLM도 강할 수 있다”가 아니라, 강한 open VLM을 어떻게 설계할 것인가를 보여주는 논문이다.
핵심은 fancy architecture보다 PixMo라는 데이터 스위트와 point-based supervision, overlapping crop design에 있다.
dense caption, free-form QA, grounding / counting용 points가 서로 연결되면서 user-facing quality까지 끌어올린다.
strongest model은 open-weight class에서 매우 강하지만, fully-open과 open-weight의 구분은 계속 신경써서 읽어야 한다.
실무적으로 가장 남는 건, 좋은 VLM은 결국 supervision interface와 data recipe의 문제라는 사실이다.

Twitter Facebook LinkedIn