12 분 소요

0. Introduction

Paper link

Project page

VGGRPO는 “geometry-aware video alignment를 또 하나 만들었다” 정도로 읽으면 아까운 논문이다. 이 논문의 진짜 흥미로운 지점은 geometry reward를 RGB space가 아니라 latent space로 옮겼다 는 데 있다. 기존 geometry-aware video post-training은 보통 RGB frame으로 다시 decode한 뒤 geometry model이나 epipolar signal을 계산한다. 그러면 reward 계산이 무겁고, static-scene 가정에 묶이기 쉽고, generated RGB가 real-image geometry model과 distribution gap을 일으키는 문제도 남는다.

VGGRPO는 그 지점을 정면으로 건드린다. video diffusion latent를 geometry foundation model에 직접 연결하는 Latent Geometry Model, LGM을 만들고, 그 위에서 GRPO를 latent space에서 수행한다. 더 중요한 점은 dynamic scene까지 reward path를 확장했다 는 것이다. Any4D처럼 4D reconstruction이 가능한 geometry model에 붙이면, camera smoothness와 cross-view reprojection consistency를 static scene뿐 아니라 dynamic scene에도 적용할 수 있다.

한 줄 요약: VGGRPO는 video diffusion latent를 geometry foundation model에 직접 연결하는 LGM을 만들고, camera motion smoothness reward와 geometry reprojection consistency reward를 latent-space GRPO로 최적화해 world-consistent video generation을 개선하는 논문이다.

이 논문을 지금 볼 가치가 있는 이유는 다음과 같음.

  • pretrained video model의 generalization을 크게 건드리지 않고 world consistency를 올리려는 post-training recipe를 보여준다.
  • geometry-aware reward를 latent space로 옮겨 RGB decode bottleneck과 generated-RGB distribution gap 을 동시에 줄이려 한다.
  • static benchmark만이 아니라 dynamic benchmark까지 포함해, geometry-aware video alignment를 4D-aware reward design 으로 확장한다.

이 논문의 핵심 메시지는 단순하다. world-consistent video generation에서 중요한 것은 backbone 안에 geometry를 더 많이 넣는 것만이 아니다. 잘 맞는 geometry model을 latent reward path로 붙이고, 그 reward를 on-policy로 안정적으로 쓰는 것 도 꽤 강한 레버가 될 수 있다.

1. Problem Setting

1-1. Problem definition

  • 이 논문이 겨냥하는 핵심 문제는, large-scale video diffusion model이 시각적 품질은 높아졌지만 camera jitter, geometric drift, cross-view inconsistency 는 여전히 자주 보인다는 점이다.
  • 이런 문제는 단순히 frame quality가 살짝 흔들리는 수준이 아니다. 논문이 강조하듯 downstream target이 embodied AI, simulation, world model일 때는 stable camera motioncoherent 3D structure 가 직접적인 품질 조건이 된다.
  • 즉 문제 설정은 “더 예쁜 영상을 만들 수 있는가”가 아니다.
    • 핵심은 시간축과 시점축에서 같은 세계를 유지하는 영상을 만들 수 있는가 에 가깝다.

1-2. Why previous approaches are insufficient

  • 기존 geometry-consistent video generation 계열은 크게 두 부류다.
    • backbone 안에 extra module이나 extra conditioning을 넣는 구조적 접근
    • post-training이나 preference optimization으로 geometry reward를 넣는 정렬 접근
  • 전자는 geometry bias를 강하게 넣을 수 있지만, 그만큼 internet-scale pretrained model의 generative flexibility와 generalization 을 해칠 위험이 있다.
  • 후자는 backbone을 덜 건드린다는 장점이 있지만, 기존 Epipolar-DPO나 VideoGPA류는 reward를 RGB frame 기준 으로 계산하고, 대체로 static scene 가정 에 더 강하게 묶여 있다.
  • 논문 기준으로 prior post-training baselines는 두 가지 한계를 동시에 가진다.
    1. repeated VAE decoding이 필요해서 reward computation이 무겁다.
    2. dynamic scene에서는 epipolar 혹은 static reprojection 가정이 그대로 유지되기 어렵다.
  • 결국 이 논문의 문제 설정은 “geometry reward를 쓸 것인가”보다 한 단계 더 깊다.
  • 핵심은 geometry reward를 어떤 공간에서 어떤 geometry prior로 계산할 것인가 로 옮겨간다.

2. Core Idea

2-1. Main contribution

VGGRPO의 핵심 기여는 크게 세 가지다.

  1. Latent Geometry Model, LGM
    • diffusion VAE latent를 pretrained geometry foundation model에 직접 연결하는 stitched model을 만든다.
    • 이 LGM은 RGB decode 없이 latent에서 바로 camera pose, depth, point map, scene flow를 예측한다.
  2. 두 개의 보완적 reward
    • camera motion smoothness reward는 jittery trajectory를 줄인다.
    • geometry reprojection consistency reward는 cross-view 구조 일관성을 강제한다.
  3. latent-space GRPO
    • reward 계산도 latent에서 하고, policy update도 latent denoising trajectory 위에서 한다.
    • 결과적으로 RGB-based reward보다 runtime과 memory를 줄이면서, geometry-aware alignment를 dynamic scene까지 확장한다.

LGM의 핵심 형태는 아래처럼 읽을 수 있다.

\[\hat{\Phi}_{\psi} = \Phi_{\hat{\ell}+1:L} \circ S_{\psi}\]

여기서 $S_{\psi}$ 는 video VAE latent를 geometry model의 intermediate feature space로 보내는 3D convolutional connector이고, $\Phi_{\hat{\ell}+1:L}$ 는 그 뒤쪽 geometry transformer 블록이다.

또 VGGRPO는 두 reward를 따로 normalize한 뒤 평균 advantage를 만든다.

\[A_k = \frac{1}{2}\left( \frac{r_{motion}(z_0^k) - \mu_{motion}}{\sigma_{motion}} + \frac{r_{geo}(z_0^k) - \mu_{geo}}{\sigma_{geo}} \right)\]

이 design은 중요하다. motion reward와 geometry reward의 scale이 다르기 때문에, 그냥 합치기보다 group 내부에서 각각 normalize 한 뒤 합친다.

2-2. Design intuition

이 논문의 설계 직관은 꽤 명확하다.

  • 첫째, geometry reward를 RGB에서 계산하면 너무 비싸다.
    • reward를 평가할 때마다 VAE decode가 들어가고, group-based RL에서는 이 비용이 반복된다.
  • 둘째, geometry model은 보통 real RGB sequence에 학습되어 있다.
    • 그런데 실제 reward 시점에서는 diffusion이 만든 RGB를 넣어야 하므로, generated RGB와 real RGB 사이의 distribution gap 이 생긴다.
  • 셋째, video inconsistency의 원인을 하나로 보면 안 된다.
    • 이 논문은 그것을 camera trajectory instabilitycross-view structure inconsistency 로 분리한다.
    • 그래서 reward도 두 개로 나눠 설계한다.
  • 넷째, dynamic scene까지 보려면 static epipolar 가정만으로는 부족하다.
    • Any4D처럼 scene flow를 포함한 4D geometry model에 붙이면, dynamic region을 filtering하고 static structure 중심의 reprojection reward를 정의할 수 있다.

이 논문의 진짜 포인트는 geometry model을 reward bridge로 쓴다 는 데 있다. backbone에 새로운 3D module을 강제로 집어넣는 것이 아니라, pretrained generator 바깥에 latent-space geometry interface를 만들고 그 인터페이스로 RL signal을 구성한다.

3. Architecture / Method

3-1. Overview

Item Description
Goal world-consistent video generation을 위한 latent-space geometry-aware post-training
Base backbone Wan2.1-1B, Wan2.2-5B text-to-video diffusion backbones
Key module LGM, camera motion reward, geometry reprojection reward
Optimization latent-space GRPO with on-policy group sampling
Difference from prior work RGB decode 없이 reward 계산, dynamic scene까지 확장 가능, architecture modification 최소화

3-2. Module breakdown

1) Latent Geometry Model

  • paper는 geometry foundation model을 pixel-space model로 그대로 쓰지 않는다.
  • 대신 video VAE encoder가 만든 latent를 geometry model의 intermediate feature space에 맞추는 3D convolutional connector 를 붙인다.
  • 이 connector와 downstream geometry layers를 alignment objective로 학습해, latent에서 직접 geometry prediction을 수행하게 만든다.
  • 출력은 geometry FM의 종류에 따라 달라지지만, 기본적으로 다음 항목을 포함한다.
    • camera pose $C_i$
    • depth map $D_i$
    • point map $P_i$
    • dynamic 4D model일 경우 scene flow $F_i$
  • 여기서 중요한 점은 LGM이 특정 geometry model 하나에만 묶이지 않는다는 것이다. 논문은 main setup에서 Any4D를 사용하고, additional study에서는 VGGT로도 붙여 본다.

2) Camera motion smoothness reward

  • camera pose prediction에서 world-frame camera center를 뽑고, discrete velocity와 acceleration을 계산한다.
  • translational acceleration과 rotational acceleration을 scale-normalized error로 만든 뒤, 이를 $1 / (1 + e)$ 형태로 reward에 맵핑한다.
  • 즉, 이 reward는 “움직임이 작을수록 좋다”는 규칙이 아니다.
  • 핵심은 near-constant-velocity trajectory 에 가까울수록 높아지도록 설계된다는 점이다.
  • 논문 설명대로라면 이 reward는 jitter를 줄이는 데 직접적으로 작동한다.

핵심 형태는 아래처럼 정리할 수 있다.

\[r_{motion}(z_0) = \frac{1}{2} \left( \frac{1}{1 + e_{trans}(z_0)} + \frac{1}{1 + e_{rot}(z_0)} \right)\]

3) Geometry reprojection consistency reward

  • geometry reward는 predicted point map, depth, camera parameters, 그리고 dynamic case에서는 scene flow를 사용한다.
  • static scene에서는 frame 전반의 point를 모두 합쳐 point cloud를 만든다.
  • dynamic scene에서는 predicted scene flow를 이용해 dynamic region을 걸러내고, static point만 모아 안정적인 scene representation을 만든다.
  • 그 다음 이 point cloud를 각 view로 다시 projection해 rendered depth $\hat{D}_i$ 를 만들고, predicted depth $D_i$ 와 비교한다.
  • 논문은 모든 view 평균이 아니라 top-3 worst views 의 오류만 평균해 reward를 만든다.
    • 이 design은 local failure case를 더 강하게 잡겠다는 의도다.

개념적으로는 아래처럼 쓸 수 있다.

\[r_{geo}(z_0) = -\frac{1}{3}\sum_{i \in top-3} e_{geo}^{(i)}(z_0)\]

이 부분이 꽤 중요하다. 평균 reprojection error만 보면 전반적으로 무난한 sample이 좋은 것으로 보일 수 있는데, 실제 video에서는 몇 개 frame에서 터지는 geometry failure 가 체감 품질을 크게 망친다. worst-view focus는 그런 failure를 더 직접적으로 건드린다.

4) Latent-space GRPO update

  • 각 prompt에 대해 $K$ 개의 latent video sample을 current policy에서 뽑는다.
  • sample마다 motion reward와 geometry reward를 계산한다.
  • 두 reward를 각각 group 내에서 normalize하고 평균해 advantage를 만든다.
  • 그 advantage를 가지고 latent denoising trajectory 위에서 clipped GRPO objective를 최적화한다.
  • 논문이 강조하듯, 이 과정 전체가 RGB decode 없이 이루어진다.

여기서 prior DPO 계열과의 차이는 분명하다.

  • Epipolar-DPO, VideoGPA는 preference data와 RGB-space reward에 더 가깝다.
  • VGGRPO는 current policy에서 직접 sample을 뽑는 on-policy group optimization 이고, reward 계산 자체도 latent path 위에서 닫힌다.

5) Reward guidance at test time

  • LGM은 differentiable하다.
  • 그래서 appendix에서는 test time에도 reward gradient를 latent에 역전파해 geometry-aware guidance를 넣는 방법을 제시한다.
  • 기본 설정은 총 50 denoising steps 중 20 step마다 한 번 reward guidance를 적용하는 방식이다.
  • training-free enhancement로서는 흥미롭지만, main claim은 여전히 full VGGRPO post-training 쪽에 있다.

4. Training / Data / Recipe

4-1. Data

  • LGM은 20 epochs 동안 학습된다.
  • 학습 데이터는 두 부류를 섞는다.
    • base diffusion model이 생성한 videos
    • real videos from DL3DV, RealEstate10K, MiraData
  • VGGRPO training prompt도 DL3DV, RealEstate10K, MiraData에서 sampling한다.
  • evaluation benchmark는 held-out split으로 따로 구성된다.
    • static-scene benchmark: DL3DV + RealEstate10K에서 190 captions
    • dynamic-scene benchmark: MiraData에서 200 captions
  • 또 generalization check를 위해 standard VBench caption set에서도 평가한다.

이 구성이 의미 있는 이유는 두 가지다.

  1. reward model인 LGM이 generated latent와 real video 둘 다 보도록 해, generated domain에만 과하게 overfit되지 않게 한다.
  2. dynamic benchmark를 따로 두어, prior static-scene geometry methods가 실제로 어디서 깨지는지 드러낸다.

4-2. Training strategy

Latent Geometry Model

Item Setting
Geometry backbone Any4D
Epochs 20
Optimizer AdamW
Learning rate 2e-4
Weight decay 0
Warmup first 100 steps linear warmup
Scheduler cosine decay
Gradient clipping max norm 1.0
Connector 3D conv, kernel 5x5x5, stride 1x2x2, padding 2x2x2
LoRA rank 64, alpha 32

VGGRPO

Item Setting
Diffusion backbones Wan2.1-1B, Wan2.2-5B
Optimizer AdamW
Learning rate 1e-4
Weight decay 1e-4
Group size 64
LoRA rank 32, alpha 64
Gradient clipping max norm 1.0
Policy ratio clip epsilon 1e-3
KL beta 0.004
Total training cost about 1536 GPU hours

이 recipe에서 중요한 것은 backbone full finetuning이 아니라 LoRA 기반 post-training 이라는 점이다. 즉 논문은 pretrained diffusion model의 broad generation capacity를 최대한 유지하면서, geometry consistency 관련 signal만 뒤쪽에서 얹는 방향을 택한다.

4-3. Engineering notes

  • LGM은 단순 reward extractor가 아니라 distribution gap 완화 장치 이다.
    • appendix의 latent perturbation analysis는 RGB-based geometry model이 generated latent perturbation에 훨씬 민감하고, LGM은 더 안정적이라고 보고한다.
  • reward path 전체가 latent 안에 닫혀 있다 는 점이 가장 큰 시스템 이득이다.
    • RGB-space reward는 VAE decode 때문에 느리고 메모리도 더 든다.
    • latent reward는 reward computation time을 54.73s에서 41.33s로, peak memory를 76.80GB에서 68.57GB로 줄였다.
  • test-time guidance도 latent에서 가능 하다.
    • geometry reward gradient를 직접 latent에 흘려 training-free 개선을 넣을 수 있다.
  • 이 논문의 engineering 핵심은 결국 하나다.
    • geometry reward를 “잘 만드는 것” 이전에 먼저 볼 문제가 있다.
    • 그것은 reward를 diffusion training loop 안에 감당 가능한 비용으로 넣는 것 이다.

5. Evaluation

5-1. Main results

논문은 two-scale setup으로 Wan2.1-1B와 Wan2.2-5B를 평가한다. 대표적으로 Wan2.2-5B 기준 핵심 수치만 뽑으면 아래와 같다.

Method Static MQ Static Epi. Dynamic MQ Sub. Cons. Img. Qual. Mot. Smooth.
SFT 52.63 0.129 51.00 0.8323 0.6159 0.9548
Epipolar-DPO 58.95 0.101 54.50 0.8407 0.6275 0.9482
VideoGPA 60.53 0.098 54.00 0.8511 0.6131 0.9518
VGGRPO 68.42 0.093 66.00 0.8672 0.6843 0.9619

해석은 비교적 선명하다.

  • static geometry 에서도 VGGRPO가 strong하다.
    • Epi.는 0.093으로 가장 낮다.
  • dynamic geometry 에서 gap이 더 크다.
    • dynamic MQ가 66.00으로 prior baselines의 51.00, 54.50, 54.00보다 높다.
  • general video quality 도 같이 오른다.
    • subject consistency, imaging quality, motion smoothness가 모두 좋아진다.

Wan2.1-1B에서도 패턴은 비슷하다.

  • static MQ: 66.84
  • dynamic MQ: 63.00
  • prior baselines 대비 geometry-related quality가 꾸준히 높다.

즉 이 논문의 main claim은 “큰 모델에서만 우연히 잘 된다”가 아니다. 두 backbone scale에서 일관된 방향성 을 보인다는 데 있다.

5-2. What really matters in the experiments

1) 이 논문은 dynamic split에서 더 설득력 있다

static split에서는 Epipolar-DPO와 VideoGPA도 어느 정도 경쟁력이 있다. 예를 들어 Wan2.2-5B 기준 static Epi.는 VideoGPA 0.098, VGGRPO 0.093으로 차이가 아주 압도적이진 않다.

하지만 dynamic split으로 가면 차이가 훨씬 분명해진다.

  • SFT dynamic MQ: 51.00
  • Epipolar-DPO dynamic MQ: 54.50
  • VideoGPA dynamic MQ: 54.00
  • VGGRPO dynamic MQ: 66.00

이게 이 논문의 진짜 메시지다. static-scene geometry reward는 이제 baseline이 꽤 있다. 하지만 dynamic scene까지 자연스럽게 가져가는 reward path 는 여전히 드물다.

2) 두 reward는 실제로 역할이 다르다

reward ablation은 오히려 논문 전체를 더 잘 설명한다.

Reward setting VQ MQ Epi.
motion only 55.60 63.40 0.104
motion + geo 59.57 67.21 0.093

이 결과는 단순하다.

  • motion reward만 써도 camera 안정화는 된다.
  • 하지만 geometry artifact는 남는다.
  • geo reward를 같이 넣어야 VQ, MQ, Epi.가 함께 좋아진다.

즉 논문이 reward를 둘로 쪼갠 건 과장이 아니다. camera jittercross-view structure mismatch 는 같은 failure mode가 아니고, reward도 따로 필요하다.

3) Any4D vs VGGT 비교는 설계 의도를 잘 보여준다

geometry foundation model을 바꿔도 방법이 먹히는지 보는 실험도 흥미롭다.

Geo-FM VQ MQ Epi.
VGGT 54.96 60.61 0.090
Any4D 59.57 67.21 0.093

VGGT는 static epipolar error에서는 조금 더 낮다. 하지만 Any4D는 VQ와 MQ가 더 높다. 논문 해석도 동일하다. dynamic-scene support를 가진 geometry model 이 motion/quality 측면에서 이득을 준다.

이 결과는 VGGRPO의 핵심이 특정 geometry model 자체라기보다, latent reward path가 dynamic-capable geometry FM과 잘 결합된다는 점 에 있음을 보여준다.

4) generalization을 해치지 않는다는 주장도 수치로 어느 정도 뒷받침된다

standard VBench captions에서 baseline과 ours를 비교하면 다음과 같다.

Model Sub. Cons. Bg. Cons. Aes. Qual. Img. Qual. Mot. Smooth. Dyn. Deg.
Baseline 0.9542 0.9528 0.5966 0.6733 0.9841 0.4237
Ours 0.9644 0.9583 0.5991 0.6861 0.9895 0.3962

대부분 metric은 오른다. 다만 Dynamic Degree는 내려간다. 논문은 이를 RAFT optical flow magnitude 기반 metric의 정의와 연결한다. camera jitter를 줄이면 flow magnitude가 줄어들 수 있기 때문이다.

이건 꽤 중요한 해석 포인트다. dynamic degree가 떨어졌다고 motion quality가 나빠졌다고 읽으면 안 된다 는 뜻이다.

5) latent reward의 효율 이점은 실제 수치로도 의미가 있다

효율 비교는 아래처럼 제시된다.

Reward type Time Peak memory
RGB-based 54.73 s 76.80 GB
Latent-based 41.33 s 68.57 GB

24.5 percent runtime reduction은 headline만큼 거창하진 않다. 하지만 group-based RL에서 reward evaluation이 training bottleneck이 되기 쉽다는 점을 생각하면, 이 정도 차이도 꽤 실용적이다.

이 논문의 효율 메시지는 “압도적으로 빨라졌다”가 아니다. 오히려 geometry-aware RL을 실제로 돌릴 수 있는 수준으로 내렸다 는 쪽이 더 정확하다.

6. Limitations

  1. reward quality는 geometry model quality에 묶인다.
    • LGM이 잘못된 pose, depth, point map, scene flow를 내면 reward도 잘못된다.
    • 즉 backbone을 안 건드리는 대신, geometry FM의 inductive bias를 reward path에 크게 의존한다.
  2. dynamic geometry를 직접 재는 단일 hard metric은 여전히 약하다.
    • static split에서는 Sampson epipolar error가 있다.
    • dynamic split에서는 VideoReward win rate와 general quality metric 비중이 커진다.
    • 따라서 dynamic world consistency를 얼마나 직접 측정했는가는 추가 논의가 필요하다.
  3. training cost가 가볍지는 않다.
    • Appendix B 기준 overall training cost는 약 1536 GPU hours다.
    • backbone full retraining은 아니지만, production team 입장에서는 여전히 큰 비용이다.
  4. VBench Dynamic Degree 해석이 까다롭다.
    • smoother camera를 강하게 유도하면 optical-flow magnitude 기반 metric은 오히려 내려갈 수 있다.
    • 즉 metric definition과 method objective가 약간 엇갈리는 지점이 있다.
  5. 두 Wan backbone 외의 일반화는 아직 더 봐야 한다.
    • 논문은 Wan2.1-1B와 Wan2.2-5B에서 일관된 개선을 보이지만, 다른 family에서도 같은 trade-off가 유지되는지는 별도 검증이 필요하다.
  6. top-3 worst-view geometry reward도 trade-off가 있다.
    • local failure를 잘 잡는 장점이 있다.
    • 반대로 reward가 몇 개의 hard failure frame에 과하게 끌릴 가능성도 있다.
    • 특히 long video나 복잡한 dynamic scene에서 이 bias가 어떻게 작동하는지는 후속 실험이 더 있었으면 좋았을 것이다.

7. My Take

7-1. Why this matters for my work

이 논문은 video generation 자체보다 post-training interface design 관점에서 더 흥미롭다.

보통 world-consistent generation을 이야기하면,

  • backbone에 3D module을 더 넣거나
  • diffusion architecture를 아예 바꾸거나
  • reconstruction model을 별도로 붙이는 쪽으로 생각하기 쉽다.

그런데 VGGRPO는 문제를 조금 다르게 본다.

  • pretrained generator는 그대로 둔다.
  • geometry foundation model도 별도 expert로 둔다.
  • 둘을 latent interface로 연결한다.
  • 그 위에서 reward를 계산해 RL signal로 쓴다.

이 패턴은 재사용 가치가 높다. 꼭 video geometry가 아니더라도, pretrained generator와 external structured expert model을 latent reward bridge로 연결하는 방식 은 다른 multimodal post-training에도 응용 가능해 보인다.

7-2. Reuse potential

재사용해볼 만한 포인트는 아래 4가지다.

  1. latent-space reward path
    • expensive decoder를 거쳐 reward를 계산하는 구조는 RL에서 금방 병목이 된다.
    • 가능하다면 reward model도 latent 입력을 직접 받도록 바꾸는 것이 좋다.
  2. failure mode를 reward level에서 분리하는 설계
    • VGGRPO는 camera jitter와 geometry inconsistency를 따로 reward화했다.
    • world model post-training에서도 temporal smoothness, object permanence, camera controllability, physical plausibility를 한 reward로 뭉개지 말고 나누는 편이 더 해석 가능하다.
  3. dynamic region filtering
    • dynamic scene에서 static structure만 모아 reprojection consistency를 보는 아이디어는 꽤 실용적이다.
    • moving subject 때문에 reward가 불안정해지는 문제를 줄이기 좋은 heuristic이다.
  4. test-time differentiable guidance
    • reward model이 differentiable하면 train-free improvement도 가능하다.
    • full RL training이 부담스러운 팀이라면, 먼저 latent guidance부터 실험해볼 수 있다.

반대로 바로 가져오기 어려운 것도 있다.

  • geometry foundation model이 충분히 강해야 한다.
  • latent connector를 붙일 intermediate layer search가 필요하다.
  • reward metric이 generator family마다 다르게 안정적일 수 있다.
  • RL infra를 이미 갖추고 있어야 한다.

7-3. Follow-up papers

  • Epipolar Geometry Improves Video Generation Models
  • VideoGPA: Distilling Geometry Priors for 3D-Consistent Video Generation
  • Any4D: Unified Feed-Forward Metric 4D Reconstruction
  • VGGT
  • Flow-GRPO

8. Summary

  • VGGRPO는 latent에서 geometry를 직접 읽는 LGM을 만들고, 그 위에서 latent-space GRPO를 수행해 world-consistent video generation을 개선한다.
  • 핵심 reward는 camera motion smoothness와 geometry reprojection consistency 두 가지다.
  • dynamic scene에서는 scene flow로 dynamic region을 걸러 static structure 중심의 geometry reward를 계산한다.
  • Wan2.1-1B와 Wan2.2-5B 모두에서 static, dynamic, general quality 지표가 전반적으로 좋아진다.
  • 이 논문의 가장 큰 가치는 geometry를 backbone 안에 더 넣은 것이 아니라, geometry expert를 latent reward bridge로 붙였다 는 설계에 있다.

댓글남기기