Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL Review

2026-06-15 14 분 소요

0. Introduction

Beyond SFT-to-RL은 제목 그대로 SFT 다음에 바로 RLVR을 붙이는 표준 multimodal post-training recipe를 다시 묻는 논문이다. 이 논문의 핵심은 새로운 RL algorithm을 하나 더 제안하는 것이 아니다. 오히려 더 중요한 질문은 이것이다. SFT checkpoint는 정말 RL을 시작하기에 좋은 policy인가?

최근 LMM post-training에서는 보통 SFT로 instruction format과 reasoning style을 맞춘 뒤, GRPO, DAPO, GSPO 같은 RLVR로 verifiable task 성능을 더 끌어올린다. 그런데 이 pipeline은 은근히 강한 가정을 깔고 있다. SFT가 supervision distribution에 잘 붙은 policy를 만들고, 그 policy가 RLVR의 stable initialization이 된다는 가정이다.

PRISM은 이 가정이 multimodal reasoning에서는 자주 깨진다고 본다. SFT는 base model의 원래 능력을 일부 잃게 만들 수 있고, 동시에 teacher demonstration distribution에도 완전히 붙지 못할 수 있다. 더 까다로운 점은 multimodal reasoning에서는 error가 하나가 아니라는 것이다. 어떤 failure는 image를 잘못 읽는 perception error이고, 어떤 failure는 이미지를 제대로 읽었지만 reasoning이 틀어진 reasoning error다. Outcome reward만으로는 이 둘을 분리해서 고치기 어렵다.

그래서 PRISM은 SFT와 RLVR 사이에 별도 distribution-alignment stage를 넣는다. 이 stage는 teacher logits를 요구하지 않는다. 대신 policy rollout과 reference demonstration을 response level에서 비교하는 black-box adversarial game으로 보고, perception expert와 reasoning expert를 가진 MoE discriminator가 corrective signal을 준다.

한 줄 요약: PRISM은 SFT 이후 바로 RLVR을 시작하지 않고, black-box on-policy distillation 기반의 adversarial pre-alignment stage를 넣어 multimodal policy의 perception drift와 reasoning drift를 먼저 줄인 뒤 RLVR을 수행하는 post-training pipeline이다.

이 논문을 지금 볼 가치가 있는 이유는 다음과 같음.

Multimodal RLVR에서 SFT checkpoint 자체의 distribution drift를 정면으로 다룬다.
OPD를 teacher-logit distillation이 아니라 black-box response-level alignment 로 재해석한다.
Perception과 reasoning을 하나의 reward로 뭉개지 않고, MoE discriminator의 expert decomposition으로 따로 본다.
GRPO, DAPO, GSPO 모두에서 PRISM pre-alignment가 downstream RLVR 성능을 올리는지를 비교한다.
Code, data, model checkpoint까지 공개되어 있어 실제 post-training recipe 관점에서 재사용 가능성이 높다.

이 논문의 진짜 메시지는 단순히 “SFT와 RL 사이에 한 stage를 더 넣자”가 아니다. 더 정확히는 RLVR 이전의 policy distribution을 진단하고 정렬하는 것이 multimodal post-training의 별도 optimization target이 될 수 있다는 주장이다.

1. Problem Setting

1-1. Problem definition

이 논문이 겨냥하는 문제는 LMM post-training에서 SFT -> RLVR pipeline이 만드는 distributional drift다.

표준 pipeline은 대략 다음처럼 볼 수 있다.

Base multimodal model을 가져온다.
Curated demonstration으로 SFT를 수행한다.
Verifiable reward가 있는 task에서 RLVR을 수행한다.

SFT objective 자체는 단순하다.

\[L_SFT(theta) = - E_{(x,y_ref) ~ D_ref} [ log pi_theta(y_ref | x) ]\]

이 objective는 reference response를 따라가게 만든다. 하지만 실제 on-policy behavior가 reference distribution과 가까워진다는 것을 보장하지는 않는다. Teacher forcing으로 학습할 때는 ground-truth prefix를 보고 다음 token을 예측하지만, RLVR stage에서는 policy가 자기 rollout을 만든다. 즉 SFT loss가 낮아도 policy rollout은 reference distribution에서 벗어날 수 있다.

PRISM이 말하는 drift는 두 가지 방향이다.

base model이 원래 갖고 있던 broad capability에서 벗어나는 drift
supervision distribution, 즉 high-quality demonstration distribution에 충분히 붙지 못하는 drift

multimodal reasoning에서는 여기에 더 큰 문제가 붙는다. Error가 perception과 reasoning으로 갈라진다.

Perception drift: image, chart, diagram, OCR, visual grounding을 잘못 읽는 방향의 drift
Reasoning drift: visual evidence는 맞게 봤지만 multi-step reasoning, math, logic이 틀어지는 drift

RLVR의 outcome reward는 보통 final answer correctness와 format reward를 본다. 이 reward는 final answer가 틀렸다는 것은 말해줄 수 있지만, 틀린 이유가 perception인지 reasoning인지 바로 알려주지는 않는다. 그래서 RL이 잘못된 behavior를 고치는 대신, 이미 drift된 policy distribution 위에서 sparse reward를 밀어붙이는 상황이 생길 수 있다.

1-2. Why previous approaches are insufficient

기존 SFT -> RLVR 접근은 세 가지 점에서 부족하다.

첫째, SFT는 offline demonstration fitting이다. 모델이 실제로 생성하는 response distribution을 직접 정렬하지 않는다. Multimodal task에서는 작은 visual misread가 reasoning trace 전체를 바꿀 수 있기 때문에, on-policy rollout distribution을 보지 않는 SFT만으로는 RL initialization을 충분히 보장하기 어렵다.

둘째, RLVR은 sparse outcome signal에 크게 의존한다. 정답 여부와 format reward는 training signal로 강하지만, error decomposition에는 약하다. 특히 image reasoning task에서 모델이 diagram을 잘못 읽었는지, 수식을 잘못 풀었는지, final answer만 보고는 분리하기 어렵다.

셋째, standard distillation은 teacher logits에 접근해야 하는 경우가 많다. 그런데 최신 high-quality multimodal teacher가 closed model이면 logits를 받을 수 없다. Gemini, GPT, Claude 같은 closed teacher를 supervision source로 쓰고 싶을 때, white-box OPD는 현실적으로 어렵다.

넷째, single discriminator나 single reward model은 multimodal error를 하나의 scalar로 뭉개기 쉽다. PRISM은 이 지점에서 perception expert와 reasoning expert를 분리해, correction signal 자체를 더 구조적으로 만들려 한다.

정리하면 이 논문이 보는 핵심 병목은 RL algorithm 자체보다 RL을 시작하기 전 policy가 어떤 distribution 위에 서 있는가다. SFT checkpoint가 이미 불안정하면, RLVR은 좋은 reward를 가지고도 drift된 behavior를 더 증폭할 수 있다.

2. Core Idea

2-1. Main contribution

PRISM의 핵심 기여는 SFT와 RLVR 사이에 standalone distribution-alignment stage를 넣는 것이다.

전체 pipeline은 세 stage다.

Stage	Role	Main idea
Stage 1	SFT	public demonstration과 high-quality multimodal reasoning data로 broad initialization을 만든다
Stage 2	PRISM alignment	policy rollout과 reference response를 MoE discriminator로 비교해 on-policy distribution을 정렬한다
Stage 3	RLVR	PRISM-aligned checkpoint에서 GRPO, DAPO, GSPO 같은 verifiable-reward RL을 수행한다

이 중 논문의 중심은 Stage 2다. PRISM은 OPD를 token-level teacher-logit matching으로 보지 않는다. 대신 closed teacher가 만든 reference response와 current policy rollout을 response level에서 비교한다. Discriminator는 어떤 response가 supervision distribution에 더 가까운지 학습하고, policy는 그 signal을 따라 자기 rollout distribution을 조정한다.

개념적으로는 아래처럼 볼 수 있다. 정확한 구현 objective는 원문과 코드에서 확인해야 하지만, 블로그 관점에서는 이런 adversarial alignment 구조로 이해하면 된다.

\[L_D(phi) = - E_{y_ref ~ D_ref} [ log D_phi(x, y_ref) ] - E_{y_pi ~ pi_theta} [ log (1 - D_phi(x, y_pi)) ]\] \[R_PRISM(x,y_pi) = alpha R_perception(x,y_pi) + (1 - alpha) R_reasoning(x,y_pi)\]

여기서 중요한 것은 $D_phi$가 단일 scalar critic이 아니라 perception과 reasoning을 분리해 보는 MoE discriminator라는 점이다. PRISM은 policy를 final answer reward로만 밀기 전에, policy rollout이 reference distribution 근처로 오도록 중간 alignment를 수행한다.

2-2. Design intuition

PRISM의 설계 직관은 세 가지다.

첫째, RLVR은 좋은 reward만 있으면 되는 문제가 아니다. RLVR은 policy가 방문하는 state와 response distribution 위에서 학습한다. SFT 후 policy rollout이 reference reasoning style과 visual grounding behavior에서 멀어져 있으면, outcome reward는 sparse하고 noisy한 signal이 된다.

둘째, multimodal reasoning failure는 disentangled signal이 필요하다. Image를 잘못 읽은 failure와 reasoning chain이 틀어진 failure는 서로 다른 correction을 요구한다. Perception expert와 reasoning expert를 분리하는 MoE discriminator는 이 문제를 reward design 레벨에서 다루려는 선택이다.

셋째, teacher logits 없이도 distillation을 해야 한다. 실제로 가장 강한 multimodal teacher는 black-box API인 경우가 많다. PRISM은 logits 대신 response sample과 discriminator reward를 사용한다. 이 덕분에 closed teacher가 만든 high-quality demonstration을 post-training pipeline에 넣을 수 있다.

내 해석으로는 PRISM은 distillation paper라기보다 RL initialization paper에 가깝다. 이 논문이 말하는 pre-alignment는 final capability를 직접 만드는 stage라기보다, RLVR이 더 잘 작동할 수 있는 policy distribution을 먼저 만드는 stage다.

3. Architecture / Method

3-1. Overview

Item	Description
Goal	SFT 이후 생긴 multimodal policy drift를 줄이고, RLVR을 더 안정적인 initialization에서 시작하게 만드는 것
Base model	Qwen3-VL-4B-Instruct, Qwen3-VL-8B-Instruct
Main pipeline	SFT -> PRISM alignment -> RLVR
Key module	MoE discriminator with perception and reasoning experts
Distillation type	Black-box, response-level, on-policy adversarial distillation
RL algorithms	GRPO, DAPO, GSPO
Main benefit	SFT -> RLVR baseline 대비 downstream RLVR average accuracy 개선
Practical output	Code, data, model checkpoints 공개

3-2. Module breakdown

1) Stage 1 SFT: broad initialization을 만든다

Stage 1은 일반적인 supervised fine-tuning이다. PRISM repo 기준으로 SFT는 LLaMA-Factory를 사용한다. 데이터는 크게 두 축이다.

약 1.26M public demonstrations
약 113K Gemini 3 Flash 기반 high-quality multimodal reasoning demonstrations

논문과 repo 설명을 보면 1.26M public data는 broad coverage를 주고, 113K high-fidelity data는 dense visual grounding과 step-by-step reasoning을 더 강하게 제공하는 역할이다. 여기서 중요한 점은 PRISM이 SFT 자체를 버리지 않는다는 것이다. SFT는 여전히 필요한 cold-start stage다. 다만 SFT만으로는 RLVR에 충분한 distribution alignment가 되지 않는다고 본다.

2) High-fidelity supervision: hardest unsolved problems를 노린다

PRISM의 113K corpus는 단순히 더 많은 data가 아니다. 논문은 현재 LMM이 풀지 못한 hardest unsolved problems를 대상으로, Gemini 3 Flash에서 dense visual grounding과 step-by-step reasoning trace를 수집했다고 설명한다.

이 부분이 중요한 이유는 Stage 2 alignment의 reference quality와 직결되기 때문이다. Discriminator가 policy rollout과 reference response를 비교하려면 reference response가 충분히 좋아야 한다. Public data만으로 broad SFT는 가능하지만, distribution alignment에는 더 높은 fidelity의 supervision이 필요하다는 것이 논문의 판단이다.

이 논문에서 가장 비용이 큰 부분도 여기에 있다. PRISM은 algorithmic wrapper만으로 해결되는 recipe가 아니라, high-quality teacher-generated multimodal reasoning corpus에 강하게 의존한다.

3) MoE discriminator: perception과 reasoning을 분리한다

Stage 2의 핵심은 MoE discriminator다. 이 discriminator는 policy response와 reference response를 비교하며, perception과 reasoning에 대한 disentangled corrective signal을 제공한다.

Repo의 reproduction guide를 보면 released discriminator는 Qwen3-VL-2B-4X-Moe-warmup-120k 형태로 공개되어 있다. 또한 MoE를 scratch에서 만들 경우 dense Qwen3-VL-2B를 sparse upcycling해 4-expert MoE로 만들고, 120K teacher / student response pair로 warmup한다. Warmup pair는 prompt마다 perception side comparison과 reasoning side comparison을 포함한다.

여기서 paper-level 핵심은 4-expert 숫자 자체보다 expert decomposition이다. 단일 reward model은 response를 하나의 quality score로 볼 가능성이 크다. PRISM은 visual evidence를 읽는 능력과 reasoning trace를 구성하는 능력을 분리해서 policy에 signal을 주려 한다.

4) Black-box adversarial OPD: teacher logits 없이 on-policy alignment를 한다

일반적인 OPD는 teacher distribution을 token-level로 보면서 student policy를 맞추는 형태로 이해되기 쉽다. 하지만 PRISM은 closed teacher에서 logits를 받을 수 없다는 현실을 받아들인다.

대신 다음 과정을 반복한다.

Current policy가 prompt에 대해 response를 생성한다.
Reference response 또는 teacher-generated demonstration과 policy response를 discriminator가 비교한다.
MoE discriminator가 perception / reasoning signal을 제공한다.
Policy는 이 signal을 따라 supervision distribution에 가까운 response를 만들도록 업데이트된다.

이 구조는 GAN과 비슷하게 보일 수 있지만, 목적은 image generation의 visual fidelity가 아니라 multimodal reasoning response distribution alignment다. 그리고 response-level adversarial signal이므로 token-level teacher logits가 없어도 된다.

이 부분이 실무적으로 중요하다. 실제 post-training에서는 가장 좋은 teacher가 내부 model이 아닐 수 있다. Closed API teacher가 만든 reasoning trace를 활용하려면 black-box distillation interface가 필요하고, PRISM은 이 문제를 정면으로 다룬다.

5) Stage 3 RLVR: PRISM은 RL의 대체재가 아니라 RL의 initialization이다

Stage 3에서는 PRISM-aligned checkpoint를 초기값으로 두고 RLVR을 수행한다. Repo는 세 가지 script를 제공한다.

qwen3_vl_grpo_after_prism.sh
qwen3_vl_dapo_after_prism.sh
qwen3_vl_gspo_after_prism.sh

중요한 점은 Stage 3에서 MoE discriminator가 더 이상 필요하지 않다는 것이다. Discriminator는 pre-alignment stage의 critic이고, final RLVR에서는 verifiable reward를 사용한다.

즉 PRISM의 역할은 final answer reward를 대체하는 것이 아니라, final answer reward가 더 잘 먹히는 policy initialization을 만드는 것이다. 이 차이를 놓치면 논문을 잘못 읽기 쉽다.

4. Training / Data / Recipe

4-1. Data

Repo 기준으로 공개된 데이터는 다음처럼 정리할 수 있다.

Data	Size / file	Role
`prism-vlm/gemini_public_mmr1`	about 1.26M	broad SFT public demonstration mixture
`prism-vlm/gemini_distill`	about 113K	high-fidelity Gemini 3 Flash multimodal reasoning demonstrations
`rl_training_data_5.9k.parquet`	about 5.9K prompts	Stage 2 PRISM alignment prompts
`rl_training_data_filtered_2k.parquet`	about 2K prompts	Stage 3 RLVR training set
`qwen3_vl_moe_warmup_pairwise_120k`	about 120K pairs	MoE discriminator warmup for teacher / student response comparison

이 구성에서 핵심은 데이터의 역할 분리다. SFT data는 broad coverage를 만들고, high-fidelity data는 reasoning and grounding reference를 제공한다. Alignment prompt는 on-policy adversarial distillation에 쓰이고, RL dataset은 final answer correctness와 format reward가 가능한 verifiable training에 쓰인다.

4-2. Training strategy

논문과 repo의 reproduction guide를 기준으로 핵심 hyperparameter를 요약하면 다음과 같다.

Component	SFT	PRISM Alignment	RLVR
Tool	LLaMA-Factory	verl	verl
Optimizer	AdamW	AdamW	AdamW
Scheduler	cosine	constant	constant
Learning rate	1e-5	1e-6	1e-6
Epochs / steps	1 epoch	500 steps	1500 steps
Global batch size	2	4	32
Max prompt length	-	2048	2048
Max response length	8192	6144	8192
Rollout group size	-	16	16
alpha for MoE expert weight	-	0.5	-
Reward	token likelihood	adversarial alignment signal	accuracy 0.8 + format 0.2
Hardware	8 x H100-80GB	8 x H100-80GB	8 x H100-80GB

여기서 주의할 점은 PRISM alignment의 batch size와 RLVR의 batch size가 다르다는 것이다. Alignment stage는 MoE discriminator와 policy update를 함께 다루는 별도 stage이고, RLVR은 verifiable reward를 바탕으로 larger batch에서 진행된다.

4-3. Engineering notes

이 논문은 method paper이면서 동시에 상당히 실용적인 repo를 제공한다. 실무적으로 중요한 점은 다음과 같다.

SFT, alignment, RLVR entrypoint가 분리되어 있다
- SFT는 LLaMA-Factory로 돌리고, alignment와 RLVR은 bundled verl script로 돌린다.
- stage boundary가 명확해서 ablation을 만들기 쉽다.
MoE discriminator는 released checkpoint로 skip할 수 있다
- scratch training도 가능하지만, released warmup MoE discriminator를 사용하면 Stage 2 재현 부담을 줄일 수 있다.
Stage 2와 Stage 3 data가 다르다
- alignment는 supervision distribution matching이고, RLVR은 verifiable reward optimization이다.
- 같은 data를 같은 objective로 계속 쓰는 구조가 아니다.
Evaluation은 lmms-eval 기반으로 구성된다
- mathvista, mathvision, mathverse, wemath, mmmu, mmmu_pro, hallusion_bench_image가 evaluation script에 포함된다.
Dynamic batching과 remove padding이 기본적으로 중요하다
- multimodal reasoning response length가 길 수 있기 때문에, training throughput과 memory control이 recipe의 일부가 된다.

PRISM의 engineering message는 간단하다. Multimodal RLVR을 제대로 돌리려면 objective만 바꾸는 것이 아니라, teacher data, discriminator, RL dataset, evaluation script, model checkpoint handoff 를 하나의 pipeline으로 관리해야 한다.

5. Evaluation

5-1. Main results

평가는 Qwen3-VL-4B와 Qwen3-VL-8B에서 수행된다. 비교는 크게 네 계열이다.

Instruct baseline
SFT only
SFT -> RLVR
SFT -> PRISM -> RLVR

RLVR algorithm은 GRPO, DAPO, GSPO를 모두 본다. Project page 기준 평균 accuracy만 뽑아보면 다음과 같다.

Base model	Method	Avg accuracy
Qwen3-VL-4B	SFT + GRPO	61.8
Qwen3-VL-4B	PRISM + GRPO	66.2
Qwen3-VL-4B	SFT + DAPO	63.2
Qwen3-VL-4B	PRISM + DAPO	66.3
Qwen3-VL-4B	SFT + GSPO	61.6
Qwen3-VL-4B	PRISM + GSPO	65.8
Qwen3-VL-8B	SFT + GRPO	63.3
Qwen3-VL-8B	PRISM + GRPO	69.3
Qwen3-VL-8B	SFT + DAPO	65.2
Qwen3-VL-8B	PRISM + DAPO	68.9
Qwen3-VL-8B	SFT + GSPO	63.3
Qwen3-VL-8B	PRISM + GSPO	68.7

가장 headline으로 제시되는 결과는 PRISM + GRPO가 SFT + GRPO 대비 Qwen3-VL-4B에서 +4.4 point, Qwen3-VL-8B에서 +6.0 point를 보인다는 것이다. 중요한 점은 GRPO만의 결과가 아니라 DAPO와 GSPO에서도 유사한 방향의 improvement가 나온다는 점이다.

또 하나 눈에 띄는 점은 PRISM only row다. PRISM은 RLVR 없이도 모든 benchmark를 크게 올리는 magic stage가 아니다. 실제로 PRISM 단독 checkpoint는 어떤 항목에서는 SFT보다 낮거나 비슷할 수 있다. 이 결과는 오히려 논문의 메시지와 잘 맞는다. PRISM은 final capability를 직접 완성하는 stage가 아니라, RLVR이 잘 작동할 수 있도록 policy distribution을 pre-align하는 stage다.

5-2. What really matters in the experiments

1) PRISM의 효과는 final RLVR 이후에 드러난다

이 논문을 읽을 때 가장 중요한 포인트는 PRISM 단독 성능이 아니라 PRISM after RLVR 성능이다. 만약 PRISM이 SFT보다 바로 높은 점수만 만든다면, 그것은 그냥 추가 SFT나 reward model training과 크게 다르지 않을 수 있다. 하지만 이 논문은 pre-alignment가 downstream RLVR의 optimization landscape를 바꾼다는 쪽에 가깝다.

2) 개선이 여러 RL algorithm에서 반복된다

GRPO, DAPO, GSPO 모두에서 PRISM initialization이 SFT initialization보다 평균 accuracy를 높인다. 이건 PRISM이 특정 RL objective의 trick이 아니라, RLVR 이전의 policy distribution 정렬이라는 더 일반적인 역할을 한다는 근거다.

3) Token efficiency 결과가 중요하다

Project page의 token efficiency figure는 Qwen3-VL-4B에서 PRISM + GRPO가 MathVision, MathVerse, MMMU-Pro에서 더 높은 accuracy를 더 적은 token으로 달성한다고 설명한다. 정확한 token count는 figure 원문 재확인이 필요하지만, 해석 방향은 중요하다. PRISM이 단순히 더 긴 reasoning을 강제해서 점수를 올리는 것이 아니라, 더 concise하고 effective한 reasoning behavior를 유도했을 가능성이 있다는 뜻이다.

4) Perception과 reasoning을 분리한 critic이 실험 해석의 핵심이다

Multimodal RL에서 final answer reward만 보면, 모델이 image evidence를 잘못 본 것인지 reasoning step이 틀린 것인지 알기 어렵다. PRISM의 MoE discriminator는 이 둘을 분리하려는 설계다. 논문의 학습 dynamics figure는 perception expert와 reasoning expert의 reward gap이 alignment stage 동안 줄어드는지를 보여주는 것으로 읽어야 한다. 정확한 curve 값은 원문 figure에서 재확인 필요하다.

5) High-quality data가 method의 일부다

PRISM은 data-light trick이 아니다. 1.26M public demonstrations, 113K Gemini 3 Flash distillation data, MoE warmup pairwise data, RL dataset까지 stage별로 따로 갖는다. 즉 이 결과는 objective novelty와 data curation이 함께 만든 결과로 봐야 한다.

6. Limitations

High-fidelity supervision cost가 크다
- PRISM은 113K Gemini 3 Flash 기반 high-quality multimodal reasoning demonstrations에 의존한다.
- Closed teacher를 써야 한다면 cost, latency, data policy, reproducibility 문제가 생긴다.
MoE discriminator stage가 pipeline complexity를 늘린다
- SFT -> RLVR보다 stage가 하나 더 늘고, discriminator warmup과 alignment run이 필요하다.
- 작은 팀 입장에서는 training cost와 engineering burden이 작지 않다.
Response-level black-box signal은 token-level teacher logits보다 coarse하다
- Teacher logits가 없어도 된다는 장점이 있지만, token-level fine-grained distribution matching은 하지 못한다.
- 어떤 reasoning step이 어떻게 잘못되었는지에 대한 signal은 여전히 discriminator 설계에 의존한다.
Discriminator reward hacking 가능성이 남는다
- Adversarial alignment에서는 policy가 discriminator가 좋아하는 surface pattern을 학습할 수 있다.
- Perception과 reasoning expert가 있어도, discriminator가 실제 reasoning correctness를 완벽히 보장하지는 않는다.
평가 도메인이 multimodal reasoning 중심이다
- mathvista, mathvision, mathverse, wemath, mmmu, mmmu_pro, hallusion_bench_image는 중요한 benchmark지만, 모든 multimodal agent task를 대표하지는 않는다.
- document AI, long video, tool-use VLM, robotics setting으로 일반화되는지는 추가 검증이 필요하다.
Scale generalization은 더 봐야 한다
- 실험은 Qwen3-VL-4B와 Qwen3-VL-8B 중심이다.
- 더 큰 model이나 다른 VLM family에서 같은 pre-alignment gain이 유지되는지는 열려 있다.
PRISM 단독 성능을 과해석하면 안 된다
- PRISM stage는 final score optimizer라기보다 RLVR initialization shaper다.
- 따라서 “PRISM만 붙이면 모델이 좋아진다”보다 “PRISM을 거친 뒤 RLVR이 더 잘 된다”로 읽어야 한다.

7. My Take

7-1. Why this matters for my work

이 논문이 흥미로운 이유는 SFT와 RLVR 사이에 있던 빈 공간을 명확한 training target으로 만든다는 점이다. 지금까지 많은 post-training pipeline은 SFT checkpoint를 거의 당연한 RL starting point로 취급했다. 하지만 multimodal reasoning에서는 SFT가 만든 behavior drift가 RLVR 전체를 흔들 수 있다.

특히 VLM에서는 perception과 reasoning이 얽혀 있다. OCR을 잘못 읽으면 reasoning이 아무리 좋아도 final answer가 틀린다. 반대로 visual grounding이 맞아도 reasoning trace가 틀어질 수 있다. PRISM은 이 둘을 critic level에서 분리한다는 점에서 실무 VLM post-training에도 꽤 참고할 만하다.

PRISM의 가장 중요한 message는 아래다.

RLVR 이전에 policy가 어느 distribution에 있는지를 먼저 보정하지 않으면, 좋은 reward를 넣어도 잘못된 on-policy behavior를 증폭할 수 있다.

이 관점은 VLM뿐 아니라 document AI, OCR reasoning, chart QA, multimodal agent에도 그대로 적용될 수 있다.

7-2. Reuse potential

재사용해볼 만한 포인트는 다음과 같다.

SFT -> pre-alignment -> RLVR stage separation
- SFT 직후 바로 RL을 돌리지 말고, on-policy response distribution을 먼저 진단하고 align하는 stage를 둘 수 있다.
Black-box teacher distillation
- teacher logits를 받을 수 없는 closed model도 response-level adversarial distillation으로 활용할 수 있다.
- 기업 내부에서 closed frontier model을 teacher로 쓰는 workflow와 잘 맞는다.
Perception critic + reasoning critic 분리
- OCR, chart, diagram, document QA에서는 visual perception failure와 reasoning failure를 분리해 reward를 설계하는 것이 중요하다.
PRISM-like checkpoint as RL initialization
- final model을 만들기 위한 distillation이 아니라, RLVR이 잘 먹히는 initial policy를 만드는 distillation으로 볼 수 있다.
Token efficiency를 evaluation axis로 넣기
- RLVR로 accuracy만 올릴 때 response length가 늘어나는 경우가 많다.
- PRISM처럼 accuracy와 output token length를 같이 보는 것이 실서비스에서는 더 중요하다.

7-3. Follow-up papers

Rethinking On-Policy Distillation of Large Language Models
Co-Evolving Policy Distillation
Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation
Tulu 3
EasyR1 and verl technical materials
Qwen3-VL technical report
Molmo and PixMo
Video-R1 and OneThinker

8. Summary

PRISM은 SFT와 RLVR 사이에 black-box on-policy adversarial alignment stage를 넣는 multimodal post-training pipeline이다.
핵심 문제는 SFT 이후 policy가 base capability와 supervision distribution 양쪽에서 drift될 수 있다는 점이다.
MoE discriminator는 perception expert와 reasoning expert를 통해 multimodal error를 분리해서 policy에 corrective signal을 준다.
PRISM은 final RLVR을 대체하지 않고, RLVR이 더 잘 작동하는 initialization을 만드는 stage로 봐야 한다.
Qwen3-VL-4B/8B 실험에서 PRISM + RLVR은 SFT + RLVR 대비 GRPO, DAPO, GSPO 전반에서 평균 accuracy를 개선한다.

Twitter Facebook LinkedIn