HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds Review

2026-05-19 17 분 소요

0. Introduction

HY-World 2.0은 world model을 pixel video 생성 모델로 보지 않고, 지속 가능한 3D asset을 만드는 시스템으로 재정의하려는 technical report다. 입력은 text prompt, single-view image, multi-view image, video까지 넓게 받고, 출력은 video clip이 아니라 3D Gaussian Splatting, point cloud, mesh 같은 3D world representation이다.

이 논문이 흥미로운 이유는 3D generation과 3D reconstruction을 하나의 framework 안에서 같이 다룬다는 점이다. Text나 single image처럼 sparse한 입력이 들어오면 model은 world generation을 수행한다. 반대로 multi-view image나 video처럼 dense한 관측이 들어오면 world reconstruction을 수행한다. 그리고 이 둘은 완전히 별도 task가 아니라, generation pipeline 안에서 reconstruction backbone이 핵심 접착부로 다시 쓰인다.

한 줄 요약: HY-World 2.0은 HY-Pano 2.0, WorldNav, WorldStereo 2.0, WorldMirror 2.0, 3DGS composition을 연결해 text/image에서 explorable 3D world를 만들고, multi-view/video에서 3D world를 복원하는 open-source multi-modal world model framework다.

이 논문을 지금 볼 가치가 있는 이유는 다음과 같음.

World model 논의가 pixel-level video simulation에서 persistent 3D asset generation으로 이동하는 흐름을 잘 보여준다.
Video diffusion prior, trajectory planning, feed-forward reconstruction, 3DGS optimization이 실제 system pipeline 안에서 어떻게 이어지는지 볼 수 있다.
Single model novelty보다 module interface, geometry prior, memory, rendering system까지 포함한 full-stack 설계가 중요해지는 방향을 보여준다.

HY-World 2.0의 핵심 메시지는 단순히 3D world를 잘 생성한다는 것이 아니다. 더 중요한 메시지는 world model의 출력 형식을 바꾸자는 것이다. Video는 한 번 재생되고 끝나지만, 3DGS와 mesh는 계속 탐색하고, 편집하고, simulation engine에 넣을 수 있다. 이 차이가 robotics, game, VR, embodied AI에서 꽤 크다.

1. Problem Setting

1-1. Problem definition

이 논문이 겨냥하는 문제는 world generation과 world reconstruction이 서로 분리되어 있다는 점이다.
Generative world model은 sparse input에서 unseen region을 hallucinate할 수 있지만, geometric accuracy와 input fidelity가 약해질 수 있다.
Reconstruction model은 multi-view image나 video에서 정확한 3D structure를 복원할 수 있지만, sparse input만 주어졌을 때 관측되지 않은 공간을 확장하기 어렵다.
Video-based world model은 interactive trajectory를 보여줄 수 있지만, 출력이 pixel video라서 persistence, editability, rendering efficiency, physical collision 측면에서 한계가 있다.
HY-World 2.0은 이 문제를 text/image/video를 3D world asset으로 변환하는 offline 3D world model 문제로 다시 놓는다.

1-2. Why previous approaches are insufficient

기존 접근의 한계는 크게 세 가지로 볼 수 있다.

Video world model의 출력은 대부분 pixel sequence다.
- 사용자가 viewpoint를 바꾸려면 다시 inference해야 하고, 생성된 세계는 명시적 3D structure를 갖지 않는다.
- 따라서 game engine, robotics simulator, VR renderer에 바로 넣기 어렵다.
3D reconstruction model은 dense observation에 강하지만 sparse input에 약하다.
- Multi-view image가 충분하면 point cloud, depth, camera pose를 잘 복원할 수 있다.
- 그러나 text prompt나 single image만 있으면 unseen region을 상상해야 하므로 reconstruction-only 접근은 부족하다.
기존 generation pipeline은 geometry와 generation이 따로 놀기 쉽다.
- Panorama generation이 좋아도 camera path가 나쁘면 blind spot이 남는다.
- Video generation이 좋아도 multi-view consistency가 낮으면 3DGS optimization에서 floaters와 distortion이 생긴다.
- Reconstruction model이 좋아도 depth scale alignment가 맞지 않으면 generated view들을 하나의 world coordinate로 합치기 어렵다.

결국 이 논문은 하나의 모델 블록보다 pipeline contract를 중요하게 본다. 각 stage가 다음 stage에 어떤 geometry, camera, memory, depth, normal, point cloud 정보를 넘겨야 3D world가 유지되는지 설계하는 논문에 가깝다.

2. Core Idea

2-1. Main contribution

HY-World 2.0의 핵심 기여는 다음처럼 정리할 수 있다.

Text나 single image에서 panorama를 만들어 world initialization을 수행하는 HY-Pano 2.0.
Panorama에서 navigable camera trajectory를 계획하는 WorldNav.
Planned trajectory를 따라 consistent keyframe을 생성하는 WorldStereo 2.0.
Multi-view image나 generated keyframe에서 3D geometry를 복원하는 WorldMirror 2.0.
Generated views와 reconstructed geometry를 하나의 3DGS world로 합치는 world composition pipeline.
최종 3DGS와 mesh를 interactive exploration으로 연결하는 WorldLens rendering platform.

이 구성에서 가장 중요한 점은 generation과 reconstruction을 병렬 기능으로만 두지 않는다는 것이다. Sparse input generation에서는 HY-Pano 2.0과 WorldStereo 2.0이 missing observation을 만든다. 그 뒤 WorldMirror 2.0이 생성된 keyframe들을 실제 3D world coordinate로 묶는다. 즉 generation prior가 observation을 만들고, reconstruction prior가 world asset으로 고정한다.

2-2. Design intuition

이 논문의 설계 직관은 꽤 선명하다.

World를 만들려면 세 가지가 동시에 필요하다.

Global scene context
어디를 볼지 정하는 exploration plan
서로 다른 viewpoint를 하나의 3D coordinate로 묶는 geometry engine

HY-World 2.0은 이 세 가지를 각각 다른 모듈로 나눈다. HY-Pano 2.0은 global context를 만들고, WorldNav는 exploration trajectory를 만든다. WorldStereo 2.0은 그 trajectory를 따라 novel view를 생성하고, WorldMirror 2.0은 multi-view geometry를 복원한다. 마지막으로 3DGS composition은 rendering 가능한 world asset을 만든다.

이 논문의 핵심은 end-to-end giant model이 아니라 well-specified multi-stage world building pipeline이다. 모든 것을 하나의 diffusion model로 해결하려 하기보다, panorama, navigation, keyframe generation, reconstruction, rendering을 각자의 강점에 맞게 나누고, 중간 representation을 geometry-aware하게 맞춘다.

3. Architecture / Method

3-1. Overview

Item	Description
Goal	Text, single image, multi-view image, video를 3D world asset으로 변환
Generation input	Text prompt 또는 single-view image
Reconstruction input	Multi-view image 또는 video
Final output	3DGS, point cloud, mesh, interactive world
Key modules	HY-Pano 2.0, WorldNav, WorldStereo 2.0, WorldMirror 2.0, World Composition, WorldLens
Core design	Video diffusion prior와 feed-forward 3D reconstruction prior를 하나의 3D asset pipeline으로 연결
Difference from video world model	Pixel video가 아니라 persistent 3D asset을 생성
Difference from pure reconstruction	Sparse input에서 unseen region을 생성하는 expansion stage를 포함

3-2. Module breakdown

1) HY-Pano 2.0: panorama as world initialization

HY-Pano 2.0은 text나 single-view image를 360 degree panorama로 바꾸는 첫 단계다. 일반 perspective image는 한 방향만 보여주지만, panorama는 scene의 global layout과 spatial relationship을 한 번에 담는다. 그래서 이 논문에서는 panorama를 world generation의 초기 canvas로 사용한다.

핵심 설계는 두 가지다.

Real-world panorama와 Unreal Engine synthetic asset을 결합해 data distribution을 넓힌다.
Perspective-to-ERP 변환을 explicit camera metadata에 의존하지 않고, MMDiT가 latent token sequence 안에서 implicit하게 학습한다.

기존 HY-World 1.0은 camera intrinsic이나 FoV 같은 explicit geometry prior에 의존했는데, 실제 사용자 image에서는 이런 metadata가 없거나 부정확한 경우가 많다. HY-Pano 2.0은 conditional image latent와 panorama noise latent를 하나의 sequence로 concat하고 self-attention으로 mapping을 학습한다.

또 ERP panorama의 left-right seam artifact를 줄이기 위해 latent level에서는 circular padding, pixel level에서는 edge blending을 적용한다. 이 부분은 작은 engineering처럼 보이지만 panorama output에서는 중요하다. Seam이 깨지면 이후 trajectory planning과 3DGS training에서 boundary inconsistency가 그대로 전파될 수 있기 때문이다.

2) WorldNav: semantic-aware camera trajectory planning

WorldNav는 generated panorama 위에서 어디를 볼지 결정하는 stage다. 단순히 random camera path를 만드는 것이 아니라, scene geometry, semantic landmark, navigable area를 함께 써서 camera trajectory를 만든다.

Pipeline은 대략 다음과 같다.

Panorama를 여러 perspective view로 나눈다.
MoGe2 기반 depth를 align해 panoramic point cloud를 만든다.
Qwen3-VL로 landmark와 obstacle을 찾고, SAM3로 semantic mask를 얻는다.
Recast Navigation으로 NavMesh를 만들고, ray-casting과 erosion으로 collision-safe region을 다듬는다.
Regular, surrounding, reconstruction-aware, wandering, aerial trajectory를 만든다.

WorldNav의 좋은 점은 trajectory planning을 coverage 문제로만 보지 않는다는 것이다. 주변을 넓게 보는 regular path도 필요하지만, object의 옆면과 뒷면을 채우는 surrounding path도 필요하다. 또 stretched mesh face처럼 reconstruction gap이 생길 가능성이 큰 곳은 reconstruction-aware trajectory가 따로 본다. 길고 좁은 corridor나 street에서는 wandering path가 먼 영역까지 확장하고, aerial path는 bird-eye observation으로 viewpoint freedom을 높인다.

이 stage의 핵심은 생성할 view를 먼저 geometry-aware하게 고르는 것이다. WorldStereo 2.0이 아무리 강해도, camera path가 blind spot을 만들면 뒤의 3DGS는 그 구멍을 제대로 메우기 어렵다.

3) WorldStereo 2.0: memory-driven world expansion

WorldStereo 2.0은 planned trajectory를 따라 novel keyframe을 생성하는 module이다. 이 stage는 video diffusion model과 3D reconstruction 사이의 간극을 줄이는 역할을 한다.

일반 video diffusion은 temporal video clip latent를 쓰는 경우가 많다. 하지만 3D reconstruction 관점에서는 모든 frame이 같은 가치가 아니다. Slow camera motion에서는 중복 frame이 많고, fast motion에서는 Video-VAE의 spatio-temporal compression이 blur나 geometric distortion을 만들 수 있다.

WorldStereo 2.0은 그래서 keyframe latent space를 사용한다. Keyframe-VAE는 각 keyframe을 spatial-only 방식으로 encode해서 high-frequency detail을 더 보존한다. Video를 부드럽게 만드는 것보다, 3D reconstruction에 필요한 diverse viewpoint와 sharp detail을 보존하는 편을 택한 셈이다.

Camera control도 명시적으로 넣는다.

Camera Plucker rays
Reference point cloud rendering
Camera adapter
Partial DiT fine-tuning

논문은 domain-adaption 단계에서 cross-attention과 FFN을 freeze하는 설정이 performance와 generalization의 trade-off가 가장 좋다고 본다. Full fine-tuning은 visual metric을 올릴 수 있지만 style drift와 overfitting을 만들 수 있기 때문이다.

WorldStereo 2.0의 또 다른 핵심은 memory다.

Global-Geometric Memory는 panoramic point cloud를 global 3D prior로 사용한다.
SSM++는 memory bank에서 relevant keyframe을 가져와 target view와 horizontally stitch한다.
Retrieved view는 target frame과 같은 temporal index를 공유하도록 RoPE를 수정한다.
기존 separate memory branch를 버리고 retrieved keyframe을 main DiT branch에 직접 넣는다.

내가 보기엔 이 stage는 논문의 가장 중요한 engineering point 중 하나다. World를 여러 trajectory로 확장하려면 각 clip이 따로 예쁘게 생성되는 것만으로는 부족하다. 서로 다른 trajectory에서 나온 keyframe들이 같은 world를 본다는 기억이 있어야 한다. WorldStereo 2.0은 이를 explicit point cloud prior와 retrieved keyframe memory로 해결하려 한다.

마지막으로 DMD 기반 post-distillation을 적용해 WorldStereo 2.0 generator를 4-step DiT로 distill한다. 즉 품질만이 아니라 inference cost도 pipeline 설계의 일부로 본다.

4) WorldMirror 2.0: reconstruction as the bridge

WorldMirror 2.0은 HY-World 2.0에서 generation과 reconstruction을 이어주는 핵심 bridge다. 입력은 multi-view images와 optional geometric priors이고, 출력은 dense point cloud, depth map, normal map, camera parameter, 3DGS attribute다.

WorldMirror 1.0의 문제는 세 가지로 정리된다.

Training resolution을 벗어나면 position extrapolation으로 성능이 떨어진다.
Depth와 normal head가 explicit하게 coupled되어 있지 않아 geometric consistency가 약하다.
View 수가 늘어나면 memory와 latency가 커진다.

WorldMirror 2.0은 이를 다음 방식으로 고친다.

Normalized RoPE
- Absolute patch coordinate 대신 normalized coordinate를 사용한다.
- High resolution inference를 extrapolation이 아니라 denser interpolation처럼 보이게 만든다.
Depth-to-normal supervision
- Predicted depth에서 normal을 유도하고, normal target과 angular error로 supervise한다.
- Synthetic data에서는 GT depth에서 normal을 만들고, real-world data에서는 monocular normal teacher의 pseudo normal을 사용한다.
Depth mask prediction
- Invalid pixel을 confidence heuristic에만 맡기지 않고, explicit validity mask head를 둔다.
- Sky, occlusion boundary, transparent surface, sensor noise 같은 영역을 downstream fusion에서 걸러낼 수 있다.
Inference scaling
- Token-level sequence parallelism
- Frame-level decoder parallelism
- BF16 mixed precision
- FSDP sharding
Token-budget dynamic training
- Resolution과 view count를 독립 sampling하지 않고, GPU당 token budget을 먼저 정한다.
- 50K에서 500K pixel range와 다양한 view count를 더 안정적으로 학습한다.

이 설계는 standalone reconstruction에도 의미가 있지만, HY-World 2.0 전체에서는 generated keyframe을 3D asset으로 고정하는 anchor 역할을 한다.

5) World Composition: from generated views to 3DGS world

World Composition은 generated panorama, panoramic point cloud, WorldStereo 2.0 keyframe, camera pose를 하나의 3DGS world로 합친다.

첫 단계는 point cloud expansion이다. WorldMirror 2.0이 generated keyframe subset에서 depth와 normal을 예측하지만, 이 depth는 scale ambiguity가 있고 panorama coordinate와 바로 맞지 않는다. 그래서 논문은 panoramic point cloud를 sparse guidance depth로 render하고, valid region에서 RANSAC-based linear alignment를 수행한다.

Reliability mask는 여러 조건의 intersection으로 만든다.

WorldMirror confidence projection
Panoramic guidance valid region
Edge floater removal
Normal consistency
Outlier filtering
Non-sky mask

그 뒤 alignment coefficient가 global distribution에서 벗어나는 frame은 outlier로 보고, nearest inlier coefficient로 대체하거나 sequence 전체를 버린다. 이 방식은 복잡한 non-linear optimization보다 단순하지만, generated view와 known camera pose가 있는 상황에서는 충분히 빠르고 실용적인 선택이다.

두 번째 단계는 3DGS optimization이다. 여기서도 일반 3DGS를 그대로 쓰지 않는다.

Expanded point cloud로 Gaussian을 initialize한다.
View-dependent SH 대신 view-independent RGB color를 사용한다.
Adaptive densification은 non-sky scene region에만 제한한다.
MaskGaussian으로 redundant Gaussian과 floater를 prune한다.
Photometric loss와 geometric loss를 같이 사용한다.
Mesh extraction은 TSDF와 marching cubes로 수행한다.

이 stage의 핵심은 generated data에 맞는 3DGS recipe다. Real capture를 reconstruction하는 3DGS와 달리, generated view에는 sky depth absence, texture-rich region imbalance, floater artifact가 더 크게 나타난다. HY-World 2.0은 이 문제를 non-sky densification과 probabilistic Gaussian mask로 다룬다.

6) WorldLens: rendering and interaction layer

WorldLens는 논문의 modeling contribution이라기보다 deployment layer에 가깝다. 하지만 world model 관점에서는 중요하다. 3DGS와 mesh가 실제 interactive environment로 쓰이려면 rendering, collision detection, lighting, scene loading이 필요하기 때문이다.

이 논문은 3DGS에서 추출한 mesh를 collision proxy로 사용하고, real-time physical feedback과 character exploration을 지원한다고 설명한다. 즉 output을 static demo image로 끝내지 않고, navigation 가능한 world로 연결하려는 의도가 있다.

4. Training / Data / Recipe

4-1. Data

이 논문은 하나의 dataset 논문이라기보다 system report라서, module마다 data recipe가 다르다.

Module	Data / supervision
HY-Pano 2.0	Real-world panorama + Unreal Engine synthetic asset + filtering
WorldNav	Generated panorama, point cloud, semantic mask, NavMesh
WorldStereo 2.0	Real multi-view / trajectory data + UE synthetic multi-trajectory data + memory retrieval data
WorldMirror 2.0	Open-source data + internal UE renderings + real-world pseudo normal labels
3DGS composition	Generated keyframes, panorama-derived views, aligned depth, normal maps

특히 UE synthetic data가 여러 곳에서 반복적으로 쓰인다. HY-Pano에서는 panorama diversity와 clean geometry를 보완하고, WorldStereo에서는 multi-trajectory memory training에 쓰이며, WorldMirror에서는 pixel-accurate geometry supervision과 normal supervision을 강화한다.

4-2. Training strategy

HY-Pano 2.0

MMDiT 기반 panorama generator를 사용한다.
Perspective input과 panorama target을 같은 latent token sequence에서 처리한다.
Explicit camera metadata 없이 perspective-to-ERP mapping을 학습한다.
Circular padding과 pixel blending으로 ERP seam을 줄인다.

WorldStereo 2.0

WorldStereo 2.0은 세 단계로 학습된다.

Domain-adaption
- Video DiT를 camera-guided keyframe generator로 바꾼다.
- Keyframe-VAE, camera Plucker ray, warped point cloud guidance를 사용한다.
- Cross-attention과 FFN freeze가 best trade-off로 보고된다.
Middle-training
- GGM과 SSM++ memory를 학습한다.
- Inference 시 memory bank는 generated keyframe과 camera parameter를 계속 업데이트한다.
- Robustness를 위해 depth degradation, floater simulation, motion blur, color jitter, random crop 등을 사용한다.
Post-distillation
- Modified DMD를 사용해 generator를 4-step DiT로 distill한다.
- Memory capability와 camera control precision을 유지하면서 inference를 줄이는 목적이다.

WorldMirror 2.0

WorldMirror 2.0의 학습은 WorldMirror 1.0보다 더 구조화되어 있다.

Normalized RoPE로 resolution generalization을 개선한다.
Depth-to-normal loss로 depth와 normal을 geometry-coupled하게 학습한다.
Depth mask head로 invalid pixel을 explicit하게 예측한다.
Real-world data에는 normal-only pseudo label enhancement를 적용한다.
Token-budget dynamic batch sizing으로 resolution과 view count를 안정적으로 sampling한다.
Curriculum은 3 stages로 나뉜다.
1. Native annotation으로 geometry heads 학습
2. Depth-to-normal loss와 synthetic data 비중을 늘려 geometry precision 강화
3. Backbone과 geometry heads를 freeze하고 3DGS head만 학습

4-3. Engineering notes

재사용할 만한 engineering point는 꽤 많다.

Camera path는 generation 품질의 일부다
- 좋은 view generator보다 먼저, 좋은 observation trajectory가 필요하다.
- WorldNav는 blind spot과 reconstruction gap을 줄이기 위한 camera curriculum처럼 작동한다.
Video latent보다 keyframe latent가 reconstruction에 유리할 수 있다
- Smooth video frame을 많이 만드는 것보다, high-fidelity keyframe을 다양한 viewpoint에서 만드는 편이 3D reconstruction에는 더 중요할 수 있다.
Memory는 retrieved image가 아니라 retrieved geometry contract다
- SSM++는 keyframe retrieval을 단순 reference image insertion으로 보지 않고, camera coordinate와 RoPE alignment까지 같이 설계한다.
3DGS는 generated data에 맞게 바꿔야 한다
- Sky region, depth absence, texture imbalance, floater artifact는 generated-world 3DGS에서 특히 중요하다.
- Non-sky densification과 MaskGaussian은 이 문제에 대한 실용적인 답이다.
Reconstruction backbone은 standalone model이 아니라 pipeline stabilizer다
- WorldMirror 2.0은 multi-view reconstruction benchmark에서만 의미 있는 것이 아니다.
- Generated view를 geometry-consistent asset으로 묶는 stabilizer다.

5. Evaluation

5-1. Main results

1) HY-Pano 2.0

HY-Pano 2.0은 T2P와 I2P에서 기존 방법들과 비교된다. 핵심 수치는 아래처럼 볼 수 있다.

Task	Metric	HY-World 1.0	HY-Pano 2.0
T2P	CLIP-T	0.250	0.258
T2P	Q-Align Qual (Persp)	3.992	4.103
T2P	Q-Align Aes (Equi)	4.186	4.247
I2P	CLIP-I	0.831	0.844
I2P	Q-Align Qual (Persp)	3.317	4.026
I2P	Q-Align Aes (Equi)	3.767	4.056

흥미로운 점은 I2P에서 개선 폭이 꽤 크다는 것이다. Single image에서 panorama를 확장할 때 input adherence와 visual quality가 좋아졌다는 해석과 맞는다. T2P도 좋아지지만, 일부 Q-Align Qual (Equi)에서는 HY-World 1.0이 더 높게 나오는 항목이 있으므로, 모든 metric에서 압도라고 쓰면 안 된다.

2) WorldStereo 2.0

Single-view-generated 3D reconstruction에서는 WorldStereo 2.0이 F1과 AUC에서 강하게 나온다.

Method	Tanks F1	Tanks AUC	MipNeRF360 F1	MipNeRF360 AUC
SEVA	36.73	51.03	28.75	46.81
Gen3C	31.24	42.44	35.26	52.10
Lyra	32.54	43.05	36.05	49.89
FlashWorld	22.29	30.45	42.60	53.86
WorldStereo 2.0	41.43	58.19	51.27	65.79
WorldStereo 2.0 (DMD)	43.16	60.09	50.52	65.64

Camera control metric에서도 domain-adaption된 WorldStereo 2.0은 RotErr 0.492, TransErr 0.968, ATE 1.768로 비교군보다 낮은 error를 보인다. Visual quality metric도 Q-Align 4.205, Laion-Aes 5.266, CLIP-I 89.43으로 강하다.

Ablation에서 중요한 것은 memory와 distillation이다. Camera control baseline은 PSNR 16.13, SSIM 0.474, LPIPS 0.349였고, GGM plus SSM++를 넣으면 PSNR 20.94, SSIM 0.640, LPIPS 0.170으로 크게 좋아진다. Final doubled batch-size 설정은 PSNR 21.63, SSIM 0.669, LPIPS 0.156이고, DMD 후에도 PSNR 21.84, SSIM 0.669 수준을 유지한다.

즉 WorldStereo 2.0에서 중요한 것은 단순 camera adapter가 아니라 memory-based multi-trajectory consistency다.

3) World Composition and 3DGS

World Composition에서는 video2world와의 비교가 흥미롭다. 동일한 300 generated views를 사용했을 때, video2world의 ICP 기반 alignment는 scene당 약 5시간이 걸리지만, HY-World 2.0의 lightweight linear alignment는 2분 미만으로 comparable reconstruction quality를 만든다고 보고된다.

3DGS ablation도 실무적으로 중요하다.

Setting	GS Number	PSNR	SSIM	LPIPS
Baseline	6.000M	25.176	0.751	0.209
Voxel downsample	1.000M	24.504	0.720	0.276
Voxel + adaptive densification	5.254M	25.158	0.750	0.210
Voxel + adaptive densification + MaskGaussian	1.383M	25.017	0.747	0.216
Full setting	1.381M	25.023	0.747	0.215

해석은 명확하다. Uniform downsampling만 하면 Gaussian 수는 줄지만 detail이 무너진다. Adaptive densification을 켜면 품질은 회복되지만 Gaussian 수가 다시 커진다. MaskGaussian을 넣으면 품질을 거의 유지하면서 Gaussian 수를 크게 줄인다. 논문은 full setting이 baseline 대비 Gaussian count를 77% 줄인다고 해석한다.

Runtime은 end-to-end single world generation 기준 panorama 15s, trajectory plan 182s, world expansion 286s, reconstruction and alignment 102s, 3DGS 127s, total 712s로 보고된다. 논문 본문은 이를 약 10분 pipeline으로 설명한다.

4) WorldMirror 2.0 reconstruction

WorldMirror 2.0은 standalone reconstruction benchmark에서도 중요하게 평가된다.

Camera pose와 depth 쪽에서 특히 high resolution robustness가 눈에 띈다.

Method	AUC@30	AbsRel	Depth Acc.
WorldMirror 1.0 (H)	66.29	0.195	0.797
WorldMirror 2.0 (H)	86.89	0.162	0.815

Novel view synthesis에서는 WorldMirror 1.0 high resolution이 PSNR 17.78, SSIM 0.659, LPIPS 0.379로 무너지지만, WorldMirror 2.0 high resolution은 PSNR 19.98, SSIM 0.726, LPIPS 0.235를 유지한다.

Surface normal estimation에서도 WorldMirror 2.0은 medium resolution에서 ScanNet mean 12.3, NYUv2 mean 13.9, iBims-1 mean 14.2를 보고하며, high resolution에서도 degradation이 작다. 이 결과는 normalized RoPE와 depth-to-normal coupling이 단순 trick이 아니라 resolution generalization과 geometry consistency에 실제로 연결된다는 근거로 볼 수 있다.

Efficiency도 중요하다. Single-GPU FP32 baseline은 256 views에서 OOM이 나고, 128 views는 18.00s와 59.26 GB가 필요하다. SP, BF16, FSDP 조합은 128 views를 5.60s와 42.71 GB per GPU로 처리하고, 256 views도 17.52s와 78.78 GB per GPU로 처리한다고 보고된다.

5-2. What really matters in the experiments

내가 보기엔 이 논문의 실험에서 가장 중요한 포인트는 final qualitative demo보다 다음 네 가지다.

Input adherence vs imagination
- Marble comparison은 qualitative이지만, HY-World 2.0이 same panorama나 same perspective input에 더 잘 붙는다고 주장한다.
- Closed-source baseline과 quantitative metric이 없기 때문에, 이 부분은 보수적으로 읽어야 한다.
Memory training의 효과
- WorldStereo 2.0은 camera control만으로는 부족하고, GGM과 SSM++가 들어갈 때 multi-trajectory consistency가 크게 좋아진다.
WorldMirror 2.0의 high-resolution robustness
- WorldMirror 1.0은 high resolution에서 position extrapolation 문제가 커지지만, WorldMirror 2.0은 normalized RoPE로 이 문제를 완화한다.
3DGS optimization의 generated-data adaptation
- Baseline 3DGS를 그대로 쓰는 것이 아니라, non-sky densification, MaskGaussian, alignment, normal loss를 함께 설계해야 generated world에서 쓸 만한 asset이 나온다.

이 논문을 benchmark score 논문으로만 보면 핵심을 놓치기 쉽다. 진짜 가치는 여러 module 사이의 interface를 구체적으로 설계했다는 데 있다.

6. Limitations

Full pipeline release가 아직 완전하지 않다
- GitHub 기준으로 technical report와 WorldMirror 2.0 code 및 checkpoint는 공개되었지만, full world generation inference code, HY-Pano 2.0, WorldNav, WorldStereo 2.0 관련 release는 coming soon 상태다.
Pipeline error propagation이 크다
- HY-Pano seam이나 layout error, WorldNav trajectory gap, WorldStereo inconsistency, WorldMirror depth error, 3DGS floater가 순차적으로 누적될 수 있다.
- 각 모듈은 잘 설계되어 있지만, end-to-end failure analysis는 더 필요하다.
Marble comparison은 qualitative 중심이다
- 논문은 Marble 1.0과 같은 input 조건에서 비교하지만, closed-source model이라 controlled quantitative comparison이 어렵다.
- 따라서 comparable 혹은 better라는 표현은 figure-level qualitative evidence로 제한해서 읽어야 한다.
외부 component dependency가 많다
- MoGe2, Qwen3-VL, SAM3, Recast Navigation, UE synthetic assets, 3DGS, MaskGaussian 등 여러 요소가 pipeline에 들어간다.
- 재현성은 open source 여부뿐 아니라 이 dependency들의 version, data, compute 조건에 크게 달려 있다.
Generated world의 physical correctness는 아직 제한적이다
- Mesh collision proxy와 interactive navigation은 의미 있지만, full physical simulation이나 dynamic object interaction을 보장하는 것은 아니다.
- 현재는 persistent static 3D environment에 더 가깝다.
Cost와 latency가 여전히 작지 않다
- End-to-end generation이 약 10분 수준으로 줄었다고 해도, real-time generation은 아니다.
- WorldMirror 2.0의 large-view inference도 H20 multi-GPU와 SP/BF16/FSDP 같은 system optimization을 전제로 한다.
Sparse input generation은 hallucination을 피할 수 없다
- Text나 single image에서 unseen region을 만드는 것은 본질적으로 generative guess다.
- 따라서 digital twin이나 robotics simulation에 쓰려면, input fidelity와 hallucinated region을 명확히 분리해 관리해야 한다.

7. My Take

7-1. Why this matters for my work

이 논문은 world model을 video generation의 extension으로만 보지 않게 만든다. Video world model은 보기에는 강력하지만, simulation asset으로 쓰기에는 불편하다. 반대로 3DGS나 mesh는 한 번 만들면 계속 탐색하고, 수정하고, engine에 넣을 수 있다. 이 차이는 서비스 관점에서 크다.

가장 중요한 포인트는 2D generative prior를 3D reconstruction contract로 고정하는 방식이다. HY-World 2.0은 video diffusion을 버리지 않는다. 오히려 WorldStereo 2.0에서 강하게 활용한다. 다만 video output을 최종 산출물로 두지 않고, WorldMirror 2.0과 3DGS composition을 통해 persistent world representation으로 바꾼다.

이는 RAG에서 retrieval result를 그대로 답변에 넣는 것이 아니라, structured memory나 graph로 고정하는 것과도 비슷하다. 생성 모델의 output은 유용하지만 불안정하다. 이 output을 어떤 representation으로 고정하느냐가 시스템 품질을 좌우한다.

7-2. Reuse potential

재사용하고 싶은 포인트는 아래 다섯 가지다.

Trajectory-first world expansion
- Generation 전에 어떤 view를 생성할지 먼저 설계한다.
- Regular, surrounding, reconstruction-aware, wandering, aerial trajectory를 나눠 coverage를 보장하는 방식은 다른 3D generation pipeline에도 유용하다.
Keyframe latent for reconstruction-friendly generation
- Video smoothness보다 reconstruction에 필요한 detail과 diverse viewpoint를 우선한다.
- 3D asset generation에서는 frame count보다 keyframe quality가 더 중요할 수 있다.
Memory bank with camera-aware retrieval
- Generated keyframe과 camera pose를 memory로 쌓고, 다음 generation에서 relevant keyframe을 retrieval한다.
- Multi-trajectory consistency가 필요한 task에 재사용 가치가 크다.
Normalized RoPE for flexible-resolution vision geometry
- WorldMirror 2.0의 normalized position encoding은 3D reconstruction뿐 아니라 high-resolution VLM, video model, dense prediction에도 참고할 만하다.
Generated-data-specific 3DGS recipe
- Non-sky densification, MaskGaussian, RGB-only appearance, sparse depth plus dense normal supervision은 generated view 기반 3DGS에서 실용적이다.

7-3. Follow-up papers

HY-World 1.0: Generating 3D Worlds from Single Images
WorldStereo: Camera-Controlled Stereo Video Generation for 3D World Creation
WorldMirror: A Unified Feed-Forward Model for 3D Geometry Prediction
VGGT: Visual Geometry Grounded Transformer
3D Gaussian Splatting for Real-Time Radiance Field Rendering
MaskGaussian: Adaptive Gaussian Pruning for Efficient 3DGS
MultiWorld: Scalable Multi-Agent Multi-View Video World Models
Geometric Context Transformer for Streaming 3D Reconstruction

8. Summary

HY-World 2.0은 text, single image, multi-view image, video를 3DGS, point cloud, mesh 같은 persistent 3D asset으로 변환하는 multi-modal world model framework다.
Generation pipeline은 HY-Pano 2.0, WorldNav, WorldStereo 2.0, WorldMirror 2.0, 3DGS composition으로 구성된다.
핵심은 video diffusion prior를 그대로 최종 video로 두지 않고, memory-driven keyframe generation과 feed-forward reconstruction을 통해 3D world로 고정하는 것이다.
WorldMirror 2.0은 normalized RoPE, depth-to-normal supervision, depth mask, SP/BF16/FSDP로 resolution generalization과 multi-view scaling을 개선한다.
다만 full generation code release, qualitative-heavy Marble comparison, external dependency, pipeline error propagation, generated region의 physical correctness는 반드시 같이 봐야 한다.

Twitter Facebook LinkedIn