VGGRPO: Towards World-Consistent Video Generation with 4D Latent Reward Review
0. Introduction
VGGRPO는 “geometry-aware video alignment를 또 하나 만들었다” 정도로 읽으면 아까운 논문이다. 이 논문의 진짜 흥미로운 지점은 geometry reward를 RGB space가 아니라 latent space로 옮겼다 는 데 있다. 기존 geometry-aware video post-training은 보통 RGB frame으로 다시 decode한 뒤 geometry model이나 epipolar signal을 계산한다. 그러면 reward 계산이 무겁고, static-scene 가정에 묶이기 쉽고, generated RGB가 real-image geometry model과 distribution gap을 일으키는 문제도 남는다.
VGGRPO는 그 지점을 정면으로 건드린다. video diffusion latent를 geometry foundation model에 직접 연결하는 Latent Geometry Model, LGM을 만들고, 그 위에서 GRPO를 latent space에서 수행한다. 더 중요한 점은 dynamic scene까지 reward path를 확장했다 는 것이다. Any4D처럼 4D reconstruction이 가능한 geometry model에 붙이면, camera smoothness와 cross-view reprojection consistency를 static scene뿐 아니라 dynamic scene에도 적용할 수 있다.
한 줄 요약: VGGRPO는 video diffusion latent를 geometry foundation model에 직접 연결하는 LGM을 만들고, camera motion smoothness reward와 geometry reprojection consistency reward를 latent-space GRPO로 최적화해 world-consistent video generation을 개선하는 논문이다.
이 논문을 지금 볼 가치가 있는 이유는 다음과 같음.
- pretrained video model의 generalization을 크게 건드리지 않고 world consistency를 올리려는 post-training recipe를 보여준다.
- geometry-aware reward를 latent space로 옮겨 RGB decode bottleneck과 generated-RGB distribution gap 을 동시에 줄이려 한다.
- static benchmark만이 아니라 dynamic benchmark까지 포함해, geometry-aware video alignment를 4D-aware reward design 으로 확장한다.
이 논문의 핵심 메시지는 단순하다. world-consistent video generation에서 중요한 것은 backbone 안에 geometry를 더 많이 넣는 것만이 아니다. 잘 맞는 geometry model을 latent reward path로 붙이고, 그 reward를 on-policy로 안정적으로 쓰는 것 도 꽤 강한 레버가 될 수 있다.
1. Problem Setting
1-1. Problem definition
- 이 논문이 겨냥하는 핵심 문제는, large-scale video diffusion model이 시각적 품질은 높아졌지만 camera jitter, geometric drift, cross-view inconsistency 는 여전히 자주 보인다는 점이다.
- 이런 문제는 단순히 frame quality가 살짝 흔들리는 수준이 아니다. 논문이 강조하듯 downstream target이 embodied AI, simulation, world model일 때는 stable camera motion 과 coherent 3D structure 가 직접적인 품질 조건이 된다.
- 즉 문제 설정은 “더 예쁜 영상을 만들 수 있는가”가 아니다.
- 핵심은 시간축과 시점축에서 같은 세계를 유지하는 영상을 만들 수 있는가 에 가깝다.
1-2. Why previous approaches are insufficient
- 기존 geometry-consistent video generation 계열은 크게 두 부류다.
- backbone 안에 extra module이나 extra conditioning을 넣는 구조적 접근
- post-training이나 preference optimization으로 geometry reward를 넣는 정렬 접근
- 전자는 geometry bias를 강하게 넣을 수 있지만, 그만큼 internet-scale pretrained model의 generative flexibility와 generalization 을 해칠 위험이 있다.
- 후자는 backbone을 덜 건드린다는 장점이 있지만, 기존 Epipolar-DPO나 VideoGPA류는 reward를 RGB frame 기준 으로 계산하고, 대체로 static scene 가정 에 더 강하게 묶여 있다.
- 논문 기준으로 prior post-training baselines는 두 가지 한계를 동시에 가진다.
- repeated VAE decoding이 필요해서 reward computation이 무겁다.
- dynamic scene에서는 epipolar 혹은 static reprojection 가정이 그대로 유지되기 어렵다.
- 결국 이 논문의 문제 설정은 “geometry reward를 쓸 것인가”보다 한 단계 더 깊다.
- 핵심은 geometry reward를 어떤 공간에서 어떤 geometry prior로 계산할 것인가 로 옮겨간다.
2. Core Idea
2-1. Main contribution
VGGRPO의 핵심 기여는 크게 세 가지다.
- Latent Geometry Model, LGM
- diffusion VAE latent를 pretrained geometry foundation model에 직접 연결하는 stitched model을 만든다.
- 이 LGM은 RGB decode 없이 latent에서 바로 camera pose, depth, point map, scene flow를 예측한다.
- 두 개의 보완적 reward
- camera motion smoothness reward는 jittery trajectory를 줄인다.
- geometry reprojection consistency reward는 cross-view 구조 일관성을 강제한다.
- latent-space GRPO
- reward 계산도 latent에서 하고, policy update도 latent denoising trajectory 위에서 한다.
- 결과적으로 RGB-based reward보다 runtime과 memory를 줄이면서, geometry-aware alignment를 dynamic scene까지 확장한다.
LGM의 핵심 형태는 아래처럼 읽을 수 있다.
\[\hat{\Phi}_{\psi} = \Phi_{\hat{\ell}+1:L} \circ S_{\psi}\]여기서 $S_{\psi}$ 는 video VAE latent를 geometry model의 intermediate feature space로 보내는 3D convolutional connector이고, $\Phi_{\hat{\ell}+1:L}$ 는 그 뒤쪽 geometry transformer 블록이다.
또 VGGRPO는 두 reward를 따로 normalize한 뒤 평균 advantage를 만든다.
\[A_k = \frac{1}{2}\left( \frac{r_{motion}(z_0^k) - \mu_{motion}}{\sigma_{motion}} + \frac{r_{geo}(z_0^k) - \mu_{geo}}{\sigma_{geo}} \right)\]이 design은 중요하다. motion reward와 geometry reward의 scale이 다르기 때문에, 그냥 합치기보다 group 내부에서 각각 normalize 한 뒤 합친다.
2-2. Design intuition
이 논문의 설계 직관은 꽤 명확하다.
- 첫째, geometry reward를 RGB에서 계산하면 너무 비싸다.
- reward를 평가할 때마다 VAE decode가 들어가고, group-based RL에서는 이 비용이 반복된다.
- 둘째, geometry model은 보통 real RGB sequence에 학습되어 있다.
- 그런데 실제 reward 시점에서는 diffusion이 만든 RGB를 넣어야 하므로, generated RGB와 real RGB 사이의 distribution gap 이 생긴다.
- 셋째, video inconsistency의 원인을 하나로 보면 안 된다.
- 이 논문은 그것을 camera trajectory instability 와 cross-view structure inconsistency 로 분리한다.
- 그래서 reward도 두 개로 나눠 설계한다.
- 넷째, dynamic scene까지 보려면 static epipolar 가정만으로는 부족하다.
- Any4D처럼 scene flow를 포함한 4D geometry model에 붙이면, dynamic region을 filtering하고 static structure 중심의 reprojection reward를 정의할 수 있다.
이 논문의 진짜 포인트는 geometry model을 reward bridge로 쓴다 는 데 있다. backbone에 새로운 3D module을 강제로 집어넣는 것이 아니라, pretrained generator 바깥에 latent-space geometry interface를 만들고 그 인터페이스로 RL signal을 구성한다.
3. Architecture / Method
3-1. Overview
| Item | Description |
|---|---|
| Goal | world-consistent video generation을 위한 latent-space geometry-aware post-training |
| Base backbone | Wan2.1-1B, Wan2.2-5B text-to-video diffusion backbones |
| Key module | LGM, camera motion reward, geometry reprojection reward |
| Optimization | latent-space GRPO with on-policy group sampling |
| Difference from prior work | RGB decode 없이 reward 계산, dynamic scene까지 확장 가능, architecture modification 최소화 |
3-2. Module breakdown
1) Latent Geometry Model
- paper는 geometry foundation model을 pixel-space model로 그대로 쓰지 않는다.
- 대신 video VAE encoder가 만든 latent를 geometry model의 intermediate feature space에 맞추는 3D convolutional connector 를 붙인다.
- 이 connector와 downstream geometry layers를 alignment objective로 학습해, latent에서 직접 geometry prediction을 수행하게 만든다.
- 출력은 geometry FM의 종류에 따라 달라지지만, 기본적으로 다음 항목을 포함한다.
- camera pose $C_i$
- depth map $D_i$
- point map $P_i$
- dynamic 4D model일 경우 scene flow $F_i$
- 여기서 중요한 점은 LGM이 특정 geometry model 하나에만 묶이지 않는다는 것이다. 논문은 main setup에서 Any4D를 사용하고, additional study에서는 VGGT로도 붙여 본다.
2) Camera motion smoothness reward
- camera pose prediction에서 world-frame camera center를 뽑고, discrete velocity와 acceleration을 계산한다.
- translational acceleration과 rotational acceleration을 scale-normalized error로 만든 뒤, 이를 $1 / (1 + e)$ 형태로 reward에 맵핑한다.
- 즉, 이 reward는 “움직임이 작을수록 좋다”는 규칙이 아니다.
- 핵심은 near-constant-velocity trajectory 에 가까울수록 높아지도록 설계된다는 점이다.
- 논문 설명대로라면 이 reward는 jitter를 줄이는 데 직접적으로 작동한다.
핵심 형태는 아래처럼 정리할 수 있다.
\[r_{motion}(z_0) = \frac{1}{2} \left( \frac{1}{1 + e_{trans}(z_0)} + \frac{1}{1 + e_{rot}(z_0)} \right)\]3) Geometry reprojection consistency reward
- geometry reward는 predicted point map, depth, camera parameters, 그리고 dynamic case에서는 scene flow를 사용한다.
- static scene에서는 frame 전반의 point를 모두 합쳐 point cloud를 만든다.
- dynamic scene에서는 predicted scene flow를 이용해 dynamic region을 걸러내고, static point만 모아 안정적인 scene representation을 만든다.
- 그 다음 이 point cloud를 각 view로 다시 projection해 rendered depth $\hat{D}_i$ 를 만들고, predicted depth $D_i$ 와 비교한다.
- 논문은 모든 view 평균이 아니라 top-3 worst views 의 오류만 평균해 reward를 만든다.
- 이 design은 local failure case를 더 강하게 잡겠다는 의도다.
개념적으로는 아래처럼 쓸 수 있다.
\[r_{geo}(z_0) = -\frac{1}{3}\sum_{i \in top-3} e_{geo}^{(i)}(z_0)\]이 부분이 꽤 중요하다. 평균 reprojection error만 보면 전반적으로 무난한 sample이 좋은 것으로 보일 수 있는데, 실제 video에서는 몇 개 frame에서 터지는 geometry failure 가 체감 품질을 크게 망친다. worst-view focus는 그런 failure를 더 직접적으로 건드린다.
4) Latent-space GRPO update
- 각 prompt에 대해 $K$ 개의 latent video sample을 current policy에서 뽑는다.
- sample마다 motion reward와 geometry reward를 계산한다.
- 두 reward를 각각 group 내에서 normalize하고 평균해 advantage를 만든다.
- 그 advantage를 가지고 latent denoising trajectory 위에서 clipped GRPO objective를 최적화한다.
- 논문이 강조하듯, 이 과정 전체가 RGB decode 없이 이루어진다.
여기서 prior DPO 계열과의 차이는 분명하다.
- Epipolar-DPO, VideoGPA는 preference data와 RGB-space reward에 더 가깝다.
- VGGRPO는 current policy에서 직접 sample을 뽑는 on-policy group optimization 이고, reward 계산 자체도 latent path 위에서 닫힌다.
5) Reward guidance at test time
- LGM은 differentiable하다.
- 그래서 appendix에서는 test time에도 reward gradient를 latent에 역전파해 geometry-aware guidance를 넣는 방법을 제시한다.
- 기본 설정은 총 50 denoising steps 중 20 step마다 한 번 reward guidance를 적용하는 방식이다.
- training-free enhancement로서는 흥미롭지만, main claim은 여전히 full VGGRPO post-training 쪽에 있다.
4. Training / Data / Recipe
4-1. Data
- LGM은 20 epochs 동안 학습된다.
- 학습 데이터는 두 부류를 섞는다.
- base diffusion model이 생성한 videos
- real videos from DL3DV, RealEstate10K, MiraData
- VGGRPO training prompt도 DL3DV, RealEstate10K, MiraData에서 sampling한다.
- evaluation benchmark는 held-out split으로 따로 구성된다.
- static-scene benchmark: DL3DV + RealEstate10K에서 190 captions
- dynamic-scene benchmark: MiraData에서 200 captions
- 또 generalization check를 위해 standard VBench caption set에서도 평가한다.
이 구성이 의미 있는 이유는 두 가지다.
- reward model인 LGM이 generated latent와 real video 둘 다 보도록 해, generated domain에만 과하게 overfit되지 않게 한다.
- dynamic benchmark를 따로 두어, prior static-scene geometry methods가 실제로 어디서 깨지는지 드러낸다.
4-2. Training strategy
Latent Geometry Model
| Item | Setting |
|---|---|
| Geometry backbone | Any4D |
| Epochs | 20 |
| Optimizer | AdamW |
| Learning rate | 2e-4 |
| Weight decay | 0 |
| Warmup | first 100 steps linear warmup |
| Scheduler | cosine decay |
| Gradient clipping | max norm 1.0 |
| Connector | 3D conv, kernel 5x5x5, stride 1x2x2, padding 2x2x2 |
| LoRA | rank 64, alpha 32 |
VGGRPO
| Item | Setting |
|---|---|
| Diffusion backbones | Wan2.1-1B, Wan2.2-5B |
| Optimizer | AdamW |
| Learning rate | 1e-4 |
| Weight decay | 1e-4 |
| Group size | 64 |
| LoRA | rank 32, alpha 64 |
| Gradient clipping | max norm 1.0 |
| Policy ratio clip epsilon | 1e-3 |
| KL beta | 0.004 |
| Total training cost | about 1536 GPU hours |
이 recipe에서 중요한 것은 backbone full finetuning이 아니라 LoRA 기반 post-training 이라는 점이다. 즉 논문은 pretrained diffusion model의 broad generation capacity를 최대한 유지하면서, geometry consistency 관련 signal만 뒤쪽에서 얹는 방향을 택한다.
4-3. Engineering notes
- LGM은 단순 reward extractor가 아니라 distribution gap 완화 장치 이다.
- appendix의 latent perturbation analysis는 RGB-based geometry model이 generated latent perturbation에 훨씬 민감하고, LGM은 더 안정적이라고 보고한다.
- reward path 전체가 latent 안에 닫혀 있다 는 점이 가장 큰 시스템 이득이다.
- RGB-space reward는 VAE decode 때문에 느리고 메모리도 더 든다.
- latent reward는 reward computation time을 54.73s에서 41.33s로, peak memory를 76.80GB에서 68.57GB로 줄였다.
- test-time guidance도 latent에서 가능 하다.
- geometry reward gradient를 직접 latent에 흘려 training-free 개선을 넣을 수 있다.
- 이 논문의 engineering 핵심은 결국 하나다.
- geometry reward를 “잘 만드는 것” 이전에 먼저 볼 문제가 있다.
- 그것은 reward를 diffusion training loop 안에 감당 가능한 비용으로 넣는 것 이다.
5. Evaluation
5-1. Main results
논문은 two-scale setup으로 Wan2.1-1B와 Wan2.2-5B를 평가한다. 대표적으로 Wan2.2-5B 기준 핵심 수치만 뽑으면 아래와 같다.
| Method | Static MQ | Static Epi. | Dynamic MQ | Sub. Cons. | Img. Qual. | Mot. Smooth. |
|---|---|---|---|---|---|---|
| SFT | 52.63 | 0.129 | 51.00 | 0.8323 | 0.6159 | 0.9548 |
| Epipolar-DPO | 58.95 | 0.101 | 54.50 | 0.8407 | 0.6275 | 0.9482 |
| VideoGPA | 60.53 | 0.098 | 54.00 | 0.8511 | 0.6131 | 0.9518 |
| VGGRPO | 68.42 | 0.093 | 66.00 | 0.8672 | 0.6843 | 0.9619 |
해석은 비교적 선명하다.
- static geometry 에서도 VGGRPO가 strong하다.
- Epi.는 0.093으로 가장 낮다.
- dynamic geometry 에서 gap이 더 크다.
- dynamic MQ가 66.00으로 prior baselines의 51.00, 54.50, 54.00보다 높다.
- general video quality 도 같이 오른다.
- subject consistency, imaging quality, motion smoothness가 모두 좋아진다.
Wan2.1-1B에서도 패턴은 비슷하다.
- static MQ: 66.84
- dynamic MQ: 63.00
- prior baselines 대비 geometry-related quality가 꾸준히 높다.
즉 이 논문의 main claim은 “큰 모델에서만 우연히 잘 된다”가 아니다. 두 backbone scale에서 일관된 방향성 을 보인다는 데 있다.
5-2. What really matters in the experiments
1) 이 논문은 dynamic split에서 더 설득력 있다
static split에서는 Epipolar-DPO와 VideoGPA도 어느 정도 경쟁력이 있다. 예를 들어 Wan2.2-5B 기준 static Epi.는 VideoGPA 0.098, VGGRPO 0.093으로 차이가 아주 압도적이진 않다.
하지만 dynamic split으로 가면 차이가 훨씬 분명해진다.
- SFT dynamic MQ: 51.00
- Epipolar-DPO dynamic MQ: 54.50
- VideoGPA dynamic MQ: 54.00
- VGGRPO dynamic MQ: 66.00
이게 이 논문의 진짜 메시지다. static-scene geometry reward는 이제 baseline이 꽤 있다. 하지만 dynamic scene까지 자연스럽게 가져가는 reward path 는 여전히 드물다.
2) 두 reward는 실제로 역할이 다르다
reward ablation은 오히려 논문 전체를 더 잘 설명한다.
| Reward setting | VQ | MQ | Epi. |
|---|---|---|---|
| motion only | 55.60 | 63.40 | 0.104 |
| motion + geo | 59.57 | 67.21 | 0.093 |
이 결과는 단순하다.
- motion reward만 써도 camera 안정화는 된다.
- 하지만 geometry artifact는 남는다.
- geo reward를 같이 넣어야 VQ, MQ, Epi.가 함께 좋아진다.
즉 논문이 reward를 둘로 쪼갠 건 과장이 아니다. camera jitter 와 cross-view structure mismatch 는 같은 failure mode가 아니고, reward도 따로 필요하다.
3) Any4D vs VGGT 비교는 설계 의도를 잘 보여준다
geometry foundation model을 바꿔도 방법이 먹히는지 보는 실험도 흥미롭다.
| Geo-FM | VQ | MQ | Epi. |
|---|---|---|---|
| VGGT | 54.96 | 60.61 | 0.090 |
| Any4D | 59.57 | 67.21 | 0.093 |
VGGT는 static epipolar error에서는 조금 더 낮다. 하지만 Any4D는 VQ와 MQ가 더 높다. 논문 해석도 동일하다. dynamic-scene support를 가진 geometry model 이 motion/quality 측면에서 이득을 준다.
이 결과는 VGGRPO의 핵심이 특정 geometry model 자체라기보다, latent reward path가 dynamic-capable geometry FM과 잘 결합된다는 점 에 있음을 보여준다.
4) generalization을 해치지 않는다는 주장도 수치로 어느 정도 뒷받침된다
standard VBench captions에서 baseline과 ours를 비교하면 다음과 같다.
| Model | Sub. Cons. | Bg. Cons. | Aes. Qual. | Img. Qual. | Mot. Smooth. | Dyn. Deg. |
|---|---|---|---|---|---|---|
| Baseline | 0.9542 | 0.9528 | 0.5966 | 0.6733 | 0.9841 | 0.4237 |
| Ours | 0.9644 | 0.9583 | 0.5991 | 0.6861 | 0.9895 | 0.3962 |
대부분 metric은 오른다. 다만 Dynamic Degree는 내려간다. 논문은 이를 RAFT optical flow magnitude 기반 metric의 정의와 연결한다. camera jitter를 줄이면 flow magnitude가 줄어들 수 있기 때문이다.
이건 꽤 중요한 해석 포인트다. dynamic degree가 떨어졌다고 motion quality가 나빠졌다고 읽으면 안 된다 는 뜻이다.
5) latent reward의 효율 이점은 실제 수치로도 의미가 있다
효율 비교는 아래처럼 제시된다.
| Reward type | Time | Peak memory |
|---|---|---|
| RGB-based | 54.73 s | 76.80 GB |
| Latent-based | 41.33 s | 68.57 GB |
24.5 percent runtime reduction은 headline만큼 거창하진 않다. 하지만 group-based RL에서 reward evaluation이 training bottleneck이 되기 쉽다는 점을 생각하면, 이 정도 차이도 꽤 실용적이다.
이 논문의 효율 메시지는 “압도적으로 빨라졌다”가 아니다. 오히려 geometry-aware RL을 실제로 돌릴 수 있는 수준으로 내렸다 는 쪽이 더 정확하다.
6. Limitations
- reward quality는 geometry model quality에 묶인다.
- LGM이 잘못된 pose, depth, point map, scene flow를 내면 reward도 잘못된다.
- 즉 backbone을 안 건드리는 대신, geometry FM의 inductive bias를 reward path에 크게 의존한다.
- dynamic geometry를 직접 재는 단일 hard metric은 여전히 약하다.
- static split에서는 Sampson epipolar error가 있다.
- dynamic split에서는 VideoReward win rate와 general quality metric 비중이 커진다.
- 따라서 dynamic world consistency를 얼마나 직접 측정했는가는 추가 논의가 필요하다.
- training cost가 가볍지는 않다.
- Appendix B 기준 overall training cost는 약 1536 GPU hours다.
- backbone full retraining은 아니지만, production team 입장에서는 여전히 큰 비용이다.
- VBench Dynamic Degree 해석이 까다롭다.
- smoother camera를 강하게 유도하면 optical-flow magnitude 기반 metric은 오히려 내려갈 수 있다.
- 즉 metric definition과 method objective가 약간 엇갈리는 지점이 있다.
- 두 Wan backbone 외의 일반화는 아직 더 봐야 한다.
- 논문은 Wan2.1-1B와 Wan2.2-5B에서 일관된 개선을 보이지만, 다른 family에서도 같은 trade-off가 유지되는지는 별도 검증이 필요하다.
- top-3 worst-view geometry reward도 trade-off가 있다.
- local failure를 잘 잡는 장점이 있다.
- 반대로 reward가 몇 개의 hard failure frame에 과하게 끌릴 가능성도 있다.
- 특히 long video나 복잡한 dynamic scene에서 이 bias가 어떻게 작동하는지는 후속 실험이 더 있었으면 좋았을 것이다.
7. My Take
7-1. Why this matters for my work
이 논문은 video generation 자체보다 post-training interface design 관점에서 더 흥미롭다.
보통 world-consistent generation을 이야기하면,
- backbone에 3D module을 더 넣거나
- diffusion architecture를 아예 바꾸거나
- reconstruction model을 별도로 붙이는 쪽으로 생각하기 쉽다.
그런데 VGGRPO는 문제를 조금 다르게 본다.
- pretrained generator는 그대로 둔다.
- geometry foundation model도 별도 expert로 둔다.
- 둘을 latent interface로 연결한다.
- 그 위에서 reward를 계산해 RL signal로 쓴다.
이 패턴은 재사용 가치가 높다. 꼭 video geometry가 아니더라도, pretrained generator와 external structured expert model을 latent reward bridge로 연결하는 방식 은 다른 multimodal post-training에도 응용 가능해 보인다.
7-2. Reuse potential
재사용해볼 만한 포인트는 아래 4가지다.
- latent-space reward path
- expensive decoder를 거쳐 reward를 계산하는 구조는 RL에서 금방 병목이 된다.
- 가능하다면 reward model도 latent 입력을 직접 받도록 바꾸는 것이 좋다.
- failure mode를 reward level에서 분리하는 설계
- VGGRPO는 camera jitter와 geometry inconsistency를 따로 reward화했다.
- world model post-training에서도 temporal smoothness, object permanence, camera controllability, physical plausibility를 한 reward로 뭉개지 말고 나누는 편이 더 해석 가능하다.
- dynamic region filtering
- dynamic scene에서 static structure만 모아 reprojection consistency를 보는 아이디어는 꽤 실용적이다.
- moving subject 때문에 reward가 불안정해지는 문제를 줄이기 좋은 heuristic이다.
- test-time differentiable guidance
- reward model이 differentiable하면 train-free improvement도 가능하다.
- full RL training이 부담스러운 팀이라면, 먼저 latent guidance부터 실험해볼 수 있다.
반대로 바로 가져오기 어려운 것도 있다.
- geometry foundation model이 충분히 강해야 한다.
- latent connector를 붙일 intermediate layer search가 필요하다.
- reward metric이 generator family마다 다르게 안정적일 수 있다.
- RL infra를 이미 갖추고 있어야 한다.
7-3. Follow-up papers
- Epipolar Geometry Improves Video Generation Models
- VideoGPA: Distilling Geometry Priors for 3D-Consistent Video Generation
- Any4D: Unified Feed-Forward Metric 4D Reconstruction
- VGGT
- Flow-GRPO
8. Summary
- VGGRPO는 latent에서 geometry를 직접 읽는 LGM을 만들고, 그 위에서 latent-space GRPO를 수행해 world-consistent video generation을 개선한다.
- 핵심 reward는 camera motion smoothness와 geometry reprojection consistency 두 가지다.
- dynamic scene에서는 scene flow로 dynamic region을 걸러 static structure 중심의 geometry reward를 계산한다.
- Wan2.1-1B와 Wan2.2-5B 모두에서 static, dynamic, general quality 지표가 전반적으로 좋아진다.
- 이 논문의 가장 큰 가치는 geometry를 backbone 안에 더 넣은 것이 아니라, geometry expert를 latent reward bridge로 붙였다 는 설계에 있다.
댓글남기기