13 분 소요

0. Introduction

Paper link

MM1.5는 “또 하나의 강력한 MLLM이 나왔다” 정도로 보면 수박 겉핥기와 같다고 생각한다. 이 논문의 진짜 가치는 아키텍처를 크게 바꾸지 않은 상태에서, 어떤 데이터와 어떤 학습 stage가 OCR, grounding, multi-image reasoning 같은 능력을 실제로 바꾸는가를 꽤 집요하게 뜯어본다는 데 있다.

요즘 MLLM 논문은 두 부류로 갈리는 경우가 많다. 하나는 최종 성능표가 중심인 leaderboard형 보고서이고, 다른 하나는 특정 모듈 하나를 강조하는 architecture형 보고서다. 그런데 실제로 foundation MLLM을 만들 때 더 재사용 가치가 높은 것은 대개 그 중간 지점이다.
어떤 stage에서 어떤 data mix를 넣었는지, high-resolution 처리를 어떻게 했는지, refer&ground 능력을 넣으면 다른 능력은 얼마나 흔들리는지, multi-image data를 늘리면 무엇을 잃는지 같은 운영 레벨의 의사결정이 훨씬 중요하다.

MM1.5는 바로 그 부분을 정면으로 다룬다. 더 좋은 vision encoder를 새로 만들거나 connector를 갈아엎는 대신, MM1의 아키텍처를 유지한 채 recipe를 고도화한다. 그래서 이 논문은 model announcement라기보다 post-pretraining MLLM recipe report에 더 가깝다.

한 줄 요약: MM1.5는 MM1의 기본 아키텍처를 유지하면서, high-resolution OCR continual pre-training, capability-balanced SFT mixture, dynamic image splitting을 통해 text-rich image understanding, visual referring/grounding, multi-image reasoning을 동시에 강화한 data-centric MLLM 논문이다.

이 논문을 지금 볼 가치가 있는 이유는 다음과 같음.

  • 많은 VLM/MLLM이 최종 benchmark만 보여주는 반면, 이 논문은 stage별 data mixture와 trade-off를 비교적 자세히 공개한다.
  • OCR, document-like image, referring/grounding, multi-image reasoning, video/UI 확장까지 한 흐름으로 이어져서 foundation MLLM 설계 관점에서 볼 만하다.
  • 1B / 3B 같은 작은 규모 모델에서도 꽤 강한 성능을 보여줘서, mobile/on-device 계열 MLLM을 고민할 때도 참고 가치가 있다.

내가 보기엔 이 논문의 핵심 메시지는 단순하다. 좋은 MLLM은 결국 “무슨 backbone을 썼는가”보다 “어떤 stage에서 어떤 capability를 어떻게 넣었는가”의 문제라는 것이다. broad multimodal prior는 pre-training에서, text-rich understanding은 continual pre-training에서, refer&ground와 multi-image balance는 SFT mixture에서 해결하려는 분리가 매우 선명하다.

1. Problem Setting

1-1. Problem definition

  • 이 논문이 겨냥하는 문제는 generalist MLLM이 서로 다른 능력을 동시에 잘 갖추기 어렵다는 점이다.
  • 특히 저자들이 강조하는 핵심 능력은 세 가지다.
    • text-rich image understanding: 문서, 표, 차트, 인포그래픽, 화면 UI처럼 텍스트가 많은 이미지를 잘 읽는 능력
    • visual referring and grounding: 좌표나 bounding box 같은 시각적 참조를 이해하고, 반대로 답변을 박스로 grounding해서 내보내는 능력
    • multi-image reasoning / multimodal in-context learning: 여러 이미지를 함께 보고 비교·추론하는 능력
  • 문제는 이 세 능력이 동일한 데이터와 동일한 SFT recipe로 자연스럽게 같이 올라가지 않는다는 점이다.
  • 즉, 이 논문은 “범용 MLLM 하나를 잘 만들자”가 아니라, 서로 다른 capability를 가진 하나의 MLLM을 어떻게 균형 있게 설계할 것인가를 다룬다.

1-2. Why previous approaches are insufficient

  • 기존 open/general-purpose MLLM들은 대개 general VQA나 single-image conversation 쪽에 강하지만, referring/grounding은 약하거나 별도 prompt trick에 의존하는 경우가 많았다.
  • 또 OCR/document 성능을 올리기 위해 단순히 image resolution만 높이거나 caption data를 더 넣는 식의 접근은 있었지만, 어느 stage에서 어떤 데이터가 실제로 효과적인지는 충분히 분해되어 있지 않았다.
  • multi-image 데이터도 마찬가지다. 이 데이터를 많이 넣으면 multi-image 성능은 오를 수 있지만, 동시에 general / knowledge / text-rich 평균 성능이 흔들릴 수 있다.
  • 결국 기존 접근의 한계는 하나의 모듈이 부족해서라기보다, pre-training / continual pre-training / SFT 사이에서 capability allocation이 체계적으로 설계되지 않았다는 데 있다.
  • MM1.5는 바로 그 부분을 실험적으로 정리한다.

2. Core Idea

2-1. Main contribution

  • MM1.5의 가장 큰 기여는 새 architecture보다 recipe의 재구성이다.
  • 첫째, MM1 아키텍처를 그대로 유지해서 아키텍처 변경 변수를 최대한 줄인다.
  • 둘째, pre-training 뒤에 high-resolution continual pre-training을 추가해 text-rich image understanding을 끌어올린다.
  • 셋째, SFT 데이터를 general / text-rich / refer&ground / science / math / code / multi-image / text-only로 나누고, 각 category가 다른 capability에 주는 영향을 따로 본다.
  • 넷째, AnyRes 계열의 dynamic image splitting을 세밀하게 다듬어 고해상도 문서/인포그래픽 처리 효율을 높인다.
  • 다섯째, 그 결과물을 video와 UI로 확장해, generalist MLLM의 downstream transferability도 확인한다.

2-2. Design intuition

  • 이 논문의 설계 직관은 꽤 실무적이다.
  • MM1.5는 모든 문제를 SFT 한 방으로 해결하려 하지 않는다.
  • 대신,
    • pre-training은 broad multimodal prior와 multi-image / ICL 성향을 만들고,
    • continual pre-training은 OCR 같은 text-rich 능력을 위한 bridge stage 역할을 하며,
    • SFT는 refer&ground, multi-image, science/math/code 같은 capability를 균형 있게 조율한다.
  • 이 분리는 중요하다.
    OCR은 그냥 SFT 데이터 조금 더 넣는다고 해결되지 않고, grounding은 넣으면 다른 평균 점수가 조금 흔들릴 수 있으며, multi-image를 강화하면 general MMBase 점수가 내려갈 수 있다.
    즉 MM1.5는 “모든 좋은 데이터를 다 넣는다”가 아니라 능력별 예산 배분 문제로 MLLM을 본다.

3. Architecture / Method

3-1. Overview

Item Description
Goal MM1 아키텍처를 유지한 채 OCR, grounding, multi-image reasoning을 더 강하게 만드는 것
Key module 3-stage training recipe + dynamic high-resolution image splitting + native referring/grounding interface
Core design principle broad prior는 pre-training, text-rich enhancement는 continual pre-training, capability balancing은 SFT에서 해결
Difference from prior work 새 encoder/connector보다 data mixture와 stage design의 효과를 체계적으로 분석

3-2. Module breakdown

1) MM1 architecture를 유지하고 recipe만 바꾼다

  • 논문은 기본적으로 MM1과 같은 architecture를 사용한다.
  • vision encoder는 CLIP 계열 in-house encoder를, vision-language connector는 C-Abstractor를 사용하고, LLM backbone도 MM1 계열을 그대로 따른다.
  • 이 선택이 중요한 이유는, 모델 성능 차이를 “새 모듈 덕분”으로 돌리지 않고 recipe 변화의 효과로 더 깔끔하게 해석할 수 있기 때문이다.
  • 즉 이 논문은 architecture paper가 아니라 controlled recipe paper로 읽는 편이 맞다.

2) 직접적인 referring / grounding 인터페이스를 넣는다

  • MM1.5는 단순 텍스트 프롬프트뿐 아니라 point, bounding box 같은 시각적 참조를 입력으로 이해한다.
  • 또한 답변을 할 때도 필요한 경우 bounding box를 텍스트 출력 안에 직접 생성해 grounding된 응답을 낼 수 있다.
  • 이 점은 꽤 중요하다.
    많은 일반 MLLM이 영역 이해를 위해 SoM(set-of-mark) 같은 외부 prompt trick에 기대는 반면, MM1.5는 모델 인터페이스 차원에서 refer&ground를 native capability로 넣으려는 방향을 취한다.

3) Dynamic image splitting으로 high-resolution 처리를 다듬는다

  • text-rich 이미지에서 해상도는 중요하지만, 무조건 2x2 또는 고정 grid로 자르는 방식은 비효율적이다.
  • MM1.5는 dynamic image splitting을 써서, 입력 이미지의 aspect ratio와 resolution에 따라 padding을 최소화하거나 resolution loss를 줄이는 grid를 고른다.
  • 또 local tile들만 보는 것이 아니라, 항상 overview image를 함께 넣어 global context를 유지한다.
  • 논문에서 흥미로운 포인트는 단순히 “tile 수를 늘렸다”가 아니라,
    • effective resolution,
    • image token 수,
    • overview image의 위치,
    • sub-image position indicator
      를 각각 분리해서 본다는 점이다.

4) Dense와 MoE를 같은 recipe로 확장한다

  • MM1.5는 dense model만 제시하지 않고, 1B-MoE / 3B-MoE도 함께 제시한다.
  • MoE는 language decoder FFN 쪽을 expert layer로 치환하고, 64 experts와 top-2 gating을 사용한다.
  • 핵심은 MoE를 별도 연구 주제로 밀기보다, 동일한 recipe 위에서 capability integration이 dense보다 더 잘 되는지를 보는 실험 축으로 쓴다는 점이다.

5) Generalist base에서 video / UI로 파생한다

  • MM1.5-Video는 기본 image model을 training-free로 video에 바로 적용하는 설정과, video 데이터로 추가 SFT하는 설정 둘 다 보여준다.
  • MM1.5-UI는 MM1.5를 기반으로 mobile UI 데이터로 더 fine-tune한 variant다.
  • 이 두 가지는 단순 부록이 아니라, generalist MLLM에서 어떤 능력이 downstream specialized model로 잘 transfer되는가를 보여주는 사례다.

4. Training / Data / Recipe

4-1. Data

MM1.5의 training recipe는 아래처럼 세 단계로 요약할 수 있다.

Stage Main data 역할 논문이 얻은 결론
Pre-training 2B image-text pairs + 600M interleaved docs(총 1B images) + 2T text-only data broad multimodal prior, language understanding, ICL 기반 형성 text-only 비중을 높이고 interleaved 비중을 줄인 50:10:40이 downstream after-SFT에서 더 좋았음
Continual Pre-training 45M high-resolution OCR data text-rich image understanding 강화 저해상도보다 4MP급 고해상도 continual PT가 훨씬 중요했고, public synthetic caption은 OCR 대비 확실한 우위가 없었음
SFT 80% single-image / 10% multi-image / 10% text-only 최종 capability balancing text-rich와 refer&ground, multi-image 간 trade-off를 명시적으로 조절해야 함

조금 더 세부적으로 보면 다음과 같다.

  • Pre-training 데이터는 MM1과 유사한 큰 틀을 유지하되, text-only 데이터를 HQ-Text로 바꾸고 비중도 조정한다.
  • 원래 MM1의 비율은 image-caption / interleaved / text-only = 45:45:10이었는데, MM1.5는 이를 50:10:40으로 바꾼다.
  • 이 변화는 직관적으로도 흥미롭다.
    많은 사람이 “더 강한 MLLM = interleaved multimodal data를 더 많이 넣는 것”이라고 생각하는데, 이 논문은 오히려 language-heavy capability와 downstream transfer를 위해 text-only 비중을 더 늘리는 편이 낫다고 본다.

  • Continual pre-training에서는 45M OCR 데이터를 사용한다.
  • 기본 mixture에는 PDFA, IDL, Rendered-text, DocStruct-4M이 포함되고, batch 안에서는 이 네 데이터셋을 균등 샘플링한다.
  • 여기서 중요한 건 OCR 데이터를 그냥 넣는 것이 아니라, high-resolution setting에서 넣는다는 점이다.

  • SFT는 이 논문의 핵심이다.
  • single-image 데이터는 다시
    • general
    • text-rich
    • refer&ground
    • science
    • math
    • code
      로 쪼갠다.
  • 최종 mixture는 전체 기준으로
    • 80% single-image
    • 10% multi-image
    • 10% text-only 이고,
  • single-image 80% 안쪽은 다시
    • 37.2% text-rich
    • 22.5% refer&ground
    • 11.3% general
    • 5.6% math
    • 2.3% code
    • 1.1% science 로 배분된다.

내가 특히 흥미롭게 본 지점은, 이 논문이 SFT data mix를 “무슨 공개 데이터셋을 썼는가”보다 어떤 capability bucket에 얼마나 예산을 줬는가로 설명한다는 점이다. 이 framing은 실제로 다른 팀이 recipe를 재사용할 때도 훨씬 유용하다.

4-2. Training strategy

  • ablation은 기본적으로 3B dense model을 중심으로 진행된다.
  • continual pre-training과 SFT ablation에서는 batch size 256, AdaFactor, peak learning rate 1e-5를 사용하고, continual pre-training은 최대 30k steps, SFT는 1 epoch 기준으로 본다.
  • 최종 모델 학습에서는
    • pre-training: sequence length 4096, 200k steps
    • continual pre-training: 30k steps, peak LR 1e-5
    • SFT: 23k steps, peak LR 2e-5
      를 사용한다.
  • 또 image encoder와 LLM backbone을 포함해 모든 구성 요소를 모든 stage에서 unfrozen 상태로 학습한다.

모델 family는 다음처럼 정리할 수 있다.

  • Dense: 1B / 3B / 7B / 30B
  • MoE: 1B-MoE / 3B-MoE
  • Specialized: MM1.5-Video, MM1.5-UI

여기서 중요한 것은, MM1.5가 단순히 큰 모델 하나를 잘 만든 게 아니라 같은 recipe가 scale을 타고 올라가는지를 본다는 점이다.

4-3. Engineering notes

  • Category Average ScoreMMBase score를 정의해서 capability별 영향을 본다.
    MMBase는 general, text-rich, knowledge 평균을 묶은 값인데, SFT mixture를 고를 때 꽤 실용적인 축이다.
  • SFT ablation 결과를 보면,
    • text-rich data는 text-rich benchmark뿐 아니라 knowledge benchmark도 같이 올리고,
    • science data는 knowledge 평균을 올리며,
    • refer&ground data는 grounding capability를 만들어주지만 다른 평균 성능은 약간 깎을 수 있다.
  • 즉 “좋은 데이터는 그냥 다 많이 넣으면 된다”가 아니라, 특정 capability를 넣을 때 생기는 cost를 감수할지가 실제 의사결정이 된다.

  • Continual pre-training에서도 중요한 결론이 나온다.
    • 4MP급 고해상도 continual PT가 가장 좋고,
    • 해상도를 낮추면 성능이 내려가며,
    • 378x378 continual PT는 경우에 따라 continual PT를 아예 안 한 모델보다 못할 수 있다.
  • 이건 꽤 강한 메시지다.
    document/OCR 계열 데이터를 low-resolution로 억지로 먹이는 것은, “조금이라도 도움이 된다”가 아니라 오히려 잘못된 학습 신호가 될 수 있다는 뜻이다.

  • Synthetic caption에 대한 결론도 흥미롭다.
  • LLaVA-Recap-3M, ShareGPT4V-PT 같은 public synthetic caption을 OCR과 섞어 continual pre-training했을 때, OCR 단독보다 명확하게 낫다는 결론을 얻지 못했다.
  • 즉 caption quality가 중요하다는 일반론은 맞더라도, MM1.5의 설정에서는 잘 고른 OCR 데이터가 더 단순하면서도 강한 수단이었다.

  • Dynamic splitting 실험에서 보이는 또 하나의 포인트는, text-rich 성능이
    • effective resolution,
    • sub-image 수,
    • total image token 수
      에 모두 민감하다는 점이다.
  • 특히 unusual aspect ratio를 가진 문서/인포그래픽에서는 grid 상한을 키우는 것이 DocVQA, InfoVQA를 꽤 끌어올린다.
  • 반면 grounding은 inference 때 minimum grid 구성을 바꾸면 coordinate mapping이 흔들려 민감하게 망가질 수 있다.
    즉 resolution recipe는 단순 전처리가 아니라 모델의 spatial interface 일부라고 보는 편이 맞다.

5. Evaluation

5-1. Main results

이 논문의 결과표는 많지만, 내가 보기엔 크게 네 가지로 읽는 게 좋다.

1) MM1 대비 진짜 업그레이드인가?

그렇다. 적어도 논문이 보여주는 범위에서는 MM1.5는 MM1의 명확한 업그레이드다.

  • MM1.5-30B는 MM1-30B 대비
    • MathVista: 39.4 → 55.6
    • DocVQA: 75.8 → 91.4
    • InfoVQA: 47.3 → 67.3
    • MuirBench: 36.7 → 58.2 로 크게 오른다.
  • 게다가 MM1에는 없던 referring / grounding capability가 본격적으로 추가된다.

즉 이 논문은 “새 benchmark 하나에서 약간 더 좋아졌다” 수준이 아니라, text-rich / refer&ground / multi-image 쪽 capability profile 자체를 다시 정의한다.

2) 작은 모델도 꽤 강한가?

여기도 흥미롭다.

  • MM1.5-1B는 작은 모델인데도 text-rich나 knowledge 쪽에서 꽤 강하다.
  • 예를 들어 1B 스케일에서 LLaVA-OneVision-0.5B와 비교하면,
    • ScienceQA: 67.2 → 82.1
    • DocVQA: 70.0 → 81.0 같은 차이가 보인다.
  • 3B 스케일에서도 MM1.5-3B는 MiniCPM-V 2.0-3B보다
    • MathVista: 38.7 → 44.4
    • DocVQA: 71.9 → 87.7 처럼 강한 결과를 낸다.

물론 일부 benchmark에서는 더 큰 모델인 Phi-3-Vision-4B가 유리한 구간도 있다.
하지만 MM1.5-3B는 text-rich, grounding, VL-ICL 쪽에서 꽤 설득력 있는 성능을 보여준다.

3) MoE는 여기서 무엇을 주는가?

  • 논문은 1B-MoE / 3B-MoE가 dense보다 전반적으로 더 강한 경우가 많다고 본다.
  • 특히 MM1.5-3B-MoE는 knowledge, general, grounding, multi-image 계열에서 MM1.5-7B dense를 넘어서는 경우도 있다고 해석한다.
  • 다만 text-rich에서는 항상 일관되게 더 좋은 것은 아니다.

즉 이 결과는 “MoE가 무조건 최고”가 아니라, 다양한 capability를 한 모델 안에 통합하는 데는 dense scaling과 다른 장점이 있을 수 있다 정도로 읽는 편이 좋다.

4) Video / UI로의 확장은 설득력 있는가?

나는 꽤 흥미롭게 봤다.

  • MM1.5-Video는 training-free로도 video multiple-choice QA에서 꽤 강하다.
  • 그리고 video SFT를 하면 더 좋아진다.
  • 특히 MM1.5-Video-1B는 LLaVAOneVision-0.5B 대비 EgoSchema에서 24.2%p, NExTQA에서 14.6%p 더 높다고 논문이 보고한다.
  • 한편 open-ended video QA에서는 training-free 성능이 아주 압도적이지는 않다. 저자들도 이 부분을 인정하고, multi-image SFT 데이터가 multiple-choice 성격에 더 가까웠기 때문일 수 있다고 해석한다.

UI 쪽도 재미있다.

  • MM1.5-UI는 Ferret-UI 데이터 mixture로 추가 fine-tuning한 모델인데, 1B 모델조차도 Ferret-UI의 elementary task들에서 매우 강하다.
  • 논문은 특히 iOS task 평균에서 9.1 point 정도 큰 차이를 강조한다.
  • 여기서 포인트는 UI 모델을 따로 처음부터 만든 게 아니라, text-rich + refer&ground를 갖춘 generalist MLLM이 UI로 잘 transfer된다는 점이다.

5-2. What really matters in the experiments

이 논문에서 진짜 중요한 건 최종 score보다 어떤 실험이 causal insight를 주는가다.

  • 첫째, continual pre-training은 생각보다 강한 중간 stage다.
    pre-training과 SFT 사이의 bridge stage가 text-rich capability에 실질적으로 중요하다는 점이 드러난다.

  • 둘째, 고해상도는 “좋으면 좋고 아니면 말고”가 아니다.
    low-resolution OCR continual PT는 경우에 따라 baseline보다 못할 수 있다. 이건 OCR/document AI 관점에서 상당히 중요한 결론이다.

  • 셋째, text-rich 데이터는 text-rich만 올리지 않는다.
    SFT ablation에서 text-rich data가 knowledge benchmark까지 같이 끌어올리는 패턴은 꽤 인상적이다. 문서·표·차트를 읽는 능력이 결국 더 넓은 knowledge reasoning에도 연결된다는 뜻으로 읽을 수 있다.

  • 넷째, refer&ground와 multi-image는 공짜 capability가 아니다.
    둘 다 넣으면 타깃 task는 좋아지지만, MMBase 같은 평균 성능은 약간 흔들릴 수 있다.
    즉 foundation MLLM은 결국 단일 평균점수 최적화가 아니라 capability portfolio optimization 문제다.

  • 다섯째, pre-training 평가를 pre-training few-shot metric만으로 고르면 안 된다.
    MM1.5는 pre-training mixture를 고를 때 downstream after-SFT 성능을 기준으로 본다. 이건 recipe 설계에서 매우 좋은 태도다. pre-training metric이 좋아도 final downstream transfer가 보장되는 건 아니기 때문이다.

6. Limitations

  1. 아키텍처 일반화 한계
    MM1.5의 장점은 MM1 architecture를 고정했다는 데 있지만, 반대로 말하면 이 논문의 recipe insight가 완전히 다른 vision encoder / connector / backbone에도 그대로 통할지는 추가 확인이 필요하다.

  2. 완전한 재현성은 아니다
    논문은 recipe를 꽤 잘 설명하지만, 여전히 in-house image encoder, in-house LLM backbone, 일부 in-house data와 curation이 들어간다.
    따라서 이 논문은 fully open reproduction manual이라기보다 strongly informative but partially internal technical report에 가깝다.

  3. 해상도 향상은 곧 비용 증가다
    dynamic high-resolution과 OCR continual PT가 성능을 올리는 것은 분명하지만, 실제 서비스 관점에서는 sequence length, latency, memory cost가 같이 늘어난다.
    논문은 정확도 측면을 잘 다루지만, deployment economics까지 자세히 분석하진 않는다.

  4. 비교군 조건 차이를 보수적으로 읽어야 한다
    일부 baseline은 beam search를 쓰고, 일부는 논문 수치를 인용하며, 일부는 internal re-eval이 섞인다.
    headline comparison보다 동일 모델군 내 ablation과 MM1 대비 개선폭을 더 신뢰하는 편이 좋다.

  5. Video와 UI는 아직 unified model이라기보다 branch model이다
    MM1.5-Video와 MM1.5-UI는 generalist base에서 잘 파생되지만, 결국 추가 fine-tuning을 거친 specialized variant다.
    저자들도 future work로 더 강한 unified generalist를 언급한다.

7. My Take

7-1. Why this matters for my work

내 기준에서 이 논문의 가장 큰 가치는 foundation MLLM을 “stage design 문제”로 본다는 데 있다.

요즘은 종종 “어떤 encoder가 더 좋나”, “connector를 어떻게 바꾸나” 같은 구조 얘기에 시선이 많이 가는데, MM1.5는 오히려 그보다 더 실전적인 질문을 던진다.

  • OCR 능력은 pre-training으로 충분한가?
  • grounding은 언제 넣어야 하는가?
  • multi-image를 강화하면 무엇이 희생되는가?
  • text-only 비중은 얼마나 가져가야 하는가?

이 질문들은 실제 서비스형 VLM/MLLM을 만들 때 훨씬 중요하다.
특히 document AI, UI agent, multi-image reasoning이 섞인 제품에서는 단일 task SOTA보다 capability interference 관리가 핵심이 되기 쉽다.

7-2. Reuse potential

이 논문에서 바로 재사용할 수 있어 보이는 포인트는 다음과 같다.

  • 3-stage recipe: pre-training → continual pre-training → SFT로 capability를 분리해서 넣는 사고방식
  • Capability taxonomy 기반 SFT mixture 설계: general / text-rich / refer&ground / multi-image / text-only를 목적별로 나누는 방식
  • MMBase 같은 grouped evaluation: 평균 하나 대신 capability별 평균을 같이 관리하는 평가 습관
  • Dynamic splitting을 spatial interface 일부로 보는 관점: OCR/document/UI에서는 전처리라기보다 모델 동작 규칙에 가깝다
  • 작은 모델 중심 MLLM 설계: 1B / 3B에서 무엇이 먹히는지 상대적으로 더 선명하게 볼 수 있다

개인적으로는 특히 continual pre-training stage의 위치가 좋았다.
LLM 쪽에서는 mid-training이나 late-stage curriculum 이야기가 점점 많아졌는데, MLLM에서도 그에 대응하는 중간 stage가 꽤 중요할 수 있다는 걸 보여준다.
OCR나 document-like image understanding을 해야 하는 팀이라면, SFT로 다 해결하려 하지 말고 high-resolution bridge stage를 먼저 의심해볼 만하다.

7-3. Follow-up papers

  • MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training
    MM1.5가 무엇을 유지하고 무엇을 바꿨는지 보려면 바로 앞선 MM1을 같이 읽는 게 좋다.

  • Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
    MM1.5가 data-centric MLLM recipe를 보여준다면, Molmo/PixMo는 open data/open weights 축에서 비슷한 질문을 던진다.

  • LLaVA-OneVision / Qwen2-VL / Ferret-V2 / Ferret-UI 계열
    high-resolution, multi-image, grounding, UI understanding을 다른 방향에서 어떻게 풀었는지 비교하기 좋다.

8. Summary

  • MM1.5는 새 architecture보다 recipe 설계를 강조하는 MLLM 논문이다.
  • 핵심은 high-resolution OCR continual pre-training, capability-aware SFT mixture, dynamic image splitting이다.
  • 특히 OCR / grounding / multi-image는 서로 공짜로 같이 오르지 않기 때문에, stage별 역할 분리와 data mixture balance가 중요하다는 점을 잘 보여준다.
  • MM1 대비 개선폭이 크고, 1B / 3B 같은 작은 모델에서도 꽤 강한 결과를 낸다.
  • foundation MLLM을 만들고 싶다면, 이 논문은 “무슨 구조를 쓸까”보다 어떤 stage에서 어떤 능력을 어떻게 주입할까를 먼저 생각하게 만든다.

댓글남기기