Any-to-Any: Autoregressive Image Generation

2025-04-21 6 분 소요

0. Introduction

👉🏻Janus paper link

👉🏻Janus GitHub link

👉🏻Janus model link

👉🏻Janus blog link

👉🏻Janus review link

👉🏻OpenAI introduction link

👉🏻OpenAI report link

👉🏻OpenAI review link

👉🏻OpenAI news link

“토큰을 쓰듯 픽셀을 쓴다.” — Autoregressive Vision

Stable Diffusion이 불러온 혁신은 modality transfer를 가속했지만, 노이즈 반복 40-100 step 과 latent-decode bottleneck 이라는 고질적 한계를 남겼다. 2025년 초 DeepSeek Janus-Pro 와 OpenAI GPT-4o 가 이를 정면으로 돌파하며 다시 한 번 패러다임 전환을 촉발했다.

본 글은 다음 질문에 답한다.

Janus-Pro가 구현한 Unified Autoregressive Transformer 구조는 무엇인가?
GPT-4o가 보여준 “Blur → Sharp” 스트리밍은 어떤 내부 파이프라인에서 비롯되나?
전통적인 Latent Diffusion과 달리 patch-level denoising이 왜 중요한가?
Text · Code · Vision · Audio를 Any-to-Any 로 통합할 때 AR이 갖는 압도적 이점은?

▶ Deep Dive

연구사 : 2023 T2I-Adapter, 2024 Chameleon이 “Patch-AR” 시도는 했으나 실서비스로 이어지지 못했다. 2025 1Q 기준, 상용 채팅 인터페이스에서 실시간 이미지를 생성·스트리밍한 사례는 GPT-4o가 최초다. Janus-Pro는 소스 공개 측면에서 오픈소스 생태계에 더 큰 의미를 갖는다.

1. Janus Model Overviews

1-1. Model Architecture

Block	Role	Implementation Point
Shared AR Decoder	Prediction of all modalities	80-레이어, Rotary PE, 7B params
Vision Encoder	Image → CLIP tokens	ViT-L/14 재사용
Image Tokenizer	dVAE 32² / 8192 codebook	학습 중 VQGAN 재훈련
Mix-In Adapter	Any ↔ Any 교차	Token-type embedding + gating

📌 Janus Architecture

Janus-Architecture

Points

CLIP-Encoder와 dVAE-Tokenizer를 분리해 “이해”와 “생성” 담당을 boolean-like로 분할한다.

Dual Pipe 덕분에 Decoder-Only Transformer가 충돌 없이 양방향 작업을 수행한다.

▶ Deep Dive

Shared Decoder 는 Text · Vision tokens를 같은 positional space에 project한다. 이때 “gated cross-residual” 을 사용해 모달 특이 패턴(예: 픽셀 frequency)을 억제하고, attention head λ 를 동적으로 조정한다.
dVAE Tokenizer 는 vector-quantised latents를 8192-way codebook으로 정제한다. Janus 논문 부록 B.3에 따르면 codebook collapse를 방지하기 위해 Exponential Moving Average(EMA) 업데이트를 사용한다.
Mix-In Adapter 는 “Conditional LoRA” 와 유사 — W_q · W_k 사이에 rank-4 linear 를 삽입해 모달 전환시 residual path를 미세하게 조절한다.

1-2. Train Method

Single CE Loss : Full sequence를 하나의 likelihood로 학습
Prompt·Reroll loop : Text LM을 이용해 in-house synthetic image-text pair 72M개로 확장
Balanced Sampling : Text : Image : Mixed = 2 : 2 : 1로 DataLoader 균형 유지

📌 Janus Train Method

▶ Deep Dive

Prompt Engine 은 Janus 내부 LLM(13B)을 사용해 caption · neg - prompt · style 변형을 생성한다. _Self-Critique RL* 로 패턴 다양성을 높이고 exposure bias 를 줄였다.
Mixed Pair(batch)는 텍스트 + 이미지 토큰을 교차로 섞어 Any-to-Any 목적으로 학습한다. 이는 GPT-4o가 공개한 “조건부 쌍” 수집 방식과 구조적으로 동일하다.

1-3. Inference Flow

user prompt -> tokens -> AR Decoder -> vision token ids -> dVAE -> RGB patches progressive refine

Patch Streaming: 토큰마다 dVAE 디코드를 즉시 호출해 “저해상도 → 고해상도”로 감.

실험적으로 512² 이미지를 2.7 s에 생성(8xA100, FP8) — Opened demo 기준.

▶ Deep Dive

KV Cache 재사용 : 텍스트 생성 이후, 동일 KV 메모리를 그대로 유지하고 vision token branch만 이어 받아 속도를 끌어올린다.
dVAE Refine : 초기 8² 패치가 해상도 32²까지 빠르게 확장되는데, dVAE decoder의 shared up-conv 레이어가 patch stride를 줄이며 intermediate features를 재활용한다.

2. GPT-4o Native Image Generation(presumption)

2-1. Full Pipeline(Include UpSampler)

Stage	Module	Description	Remark
(A) MultiModal Encoder	Text · Vision 입력	CLIP 파생
(B) Autoregrssive Decoder	Decoder-Only Transformer(GPT 4o)	Sequence prediction of original resolution patches
(C) Patch-wise Denoiser	σ 스케줄 내장	Token마다 residual β-schedule 적용
(D) Patch Upsampler (옵션)	SR MLP or Swin-IR	Denoising과 동시에 16² → 32² upsampling	Streaming Quality ↑

Case 1 : UpSampler 생략

AR Decoder가 512² pixel patch를 직접 예측 → Patch-wise Denoisier 종료와 동시에 최종 해상도 완성.

Case 2 : UpSampler 포함

AR Decoder → 16² token prediction → Patch-wise Denoisier가 σ↓와 SR↑를 한 번에 수행 → 즉시 32² pixel로 전송. 이중 패스 없이 “Blur → Sharp” 단계 구현 가능.

이 때문에 데모에서는 토큰이 도착할수록 상 · 좌 → 하 · 우로 선명화되는 모습이 잡힘.👉🏻Reference

▶ Deep Dive – Case Study

Case 1 (UpSampler 없음) : 16² patch → denoise(σ ↘) → 즉시 512² pixel 완성. 데모에서 3-step 흐릿 → 선명 패턴이 1s 이내면 이 케이스일 가능성.
Case 2 (UpSampler 포함) : 16² → denoise + SR 병렬 → 32² → … 두 번 반복해 1024². 스트림 버퍼가 중복 패치 를 스킵하며 자연스럽게 블록별 해상도를 높인다.

2-2. Internal Analysis

딥러닝 업샘플 병행 : Patch당 σ(t) 를 유지하면서 SR LayerNorm을 공유하면 추가 latency < 8 ms.
메모리 효율 : Latent Diffusion(64 chan) 보다 patch-denoise(3 chan) 가 peak VRAM ↓ 25 %.
품질 : 최종 pixel space에서 denoise하므로 글씨·유리반사 등 고주파 디테일 손실 최소화👉🏻Reference
Patch β-Schedule : σ(t) 를 patch id와 함께 예측하는 2-D condition. 이는 Rolling Diffusion을 patch로 분할한 형태와 같다.
Weight Sharing : Denoiser와 Upsampler가 Depth-wise Conv 커널(+GroupNorm) 을 공유하면 매 patch당 매트릭스 곱 비용이 절반 이하.
스레드 병렬성 : 16² 패치, 256-token 타일 생성 → asyncio gRPC 로 mux, 최종 정렬은 client-side canvas.

3. AR vs Diffusion : Principle and Difference

▶ Deep Dive – 수식

AR Likelihood $\log P(x) = \sum_{t=1}^{T} \log P(x_t\mid x_{<t};\theta).$ Transformer의 causal mask 덕분에 모든 모달에 동일 적용.
DDPM Objective $L_\text{simple} = \mathbb{E}_{t,x,\epsilon} \|\,\epsilon - \epsilon_\theta(\sqrt{\bar\alpha_t}x + \sqrt{1-\bar\alpha_t}\,\epsilon,t)\|^2.$ σ(t) 스케줄 추정이 필요해 any-to-any로 확장 시 modality마다 β-schedule을 따로 조정해야 한다.

3-1. Autoregressive Pipeline

1) dVAE or Tokenizer: Image → Tokens

2) Autoregressive LM: $p(x_t \mid x_{<t})$

3) dVAE-Decode: Tokens → RGB

4) (선택) Patch Denoise / SR

전역 이어쓰기 : Text · Pixel 모두 동일 loss → Multimodal Integration에서 무손실.

3-2. Latent Diffusion Pipeline

1) 원본 RGB → Latent $z$
2) 반복 Noise $t!!\downarrow$ → $z_0$ 예측
3) Latent → RGB decode
4) (선택) UpSampler

장점 : 글로벌 질감·빛·그레인 표현.

약점 : Streaming 불가, Any-to-Any 통합 난이도, 반복 40-100 step 지연.

3-3. Patch side Diffusion(presumption)

“σ schedule을 Patch ID와 함께 예측” → Image를 Token 단위로 denoise 함.

결과적으로 Diffusion의 질감 + AR의 속도를 절충함.

4. Janus vs GPT-4o

Item	Janus-Pro-7B	GPT-4o Native(예상)
Parameter	7B	over 1T(추정)
Tokenizing	dVAE 8192	Patch 16² ~ 16 K
Decoder	80-L, RMSNorm	>120-L, GQA
Denoising	dVAE Refine	Patch-Diffusion
Upsampling	Swin-IR(선택)	옵션, 패치-동시 SR
Streaming	✔	✔ (Blur → Sharp)
Open source	코드 + 가중치	API only

5. Any-to-Any Structure

▶ Deep Dive – Token Space 설계

**Modality Tokens (, )** 은 **relative-pos bucket** 를 별도로 갖는다. 이는 Vision에 특화된 2-D bias를 Text space와 섞지 않으려는 의도.
연속 데이터(Audio · Sensor) 는 1-D patch stride=2 or 4, RMSNorm 으로 정규화 후 동일 AR space에 투영.

5-1. Input

Text: Byte-BPE
Image: dVAE / Patch-Tokenizer
Audio: EnCodec (50) Hz tokens

5-2. Output

<txt> <img> <aud> delimited sequence
최종 decoder는 modality별 Adapter 호출

요점 : “Large Autoregressive-LM + modality별 Encoder(Tokenizer)” == General Multimatorial System.

6. Comparison with Traditional Multimodal LLM

Model	Tokenizing	Any-to-Any	Streaming	Denoising
GPT-4o	Patch AR	✔	Real-time	Patch-wise
Chameleon	Patch AR	✔ (제한)	Experimental	Latent
LLaMA-3.2 + BLIP-2	Cross-Attn	✖	✖	N/A

GPT-4o는 Patch-wise denoise + SR 옵션으로 품질 · 속도를 동시에 확보.

▶ Deep Dive – Chameleon vs 4o

Chameleon은 Pixel → Latent → AR 로 다시 latent에 의존, streaming latency가 4o 대비 2–3 x 크다.
GPT-4o는 Patch-AR 만으로도 프롬프트 간 alignment loss 를 축적해 style consistency 를 확보한다.

7. Summary & Insights

Diffusion → Auxiliary Stage: AR가 품질 격차를 빠르게 줄이며 실시간 과 모달 통합 에서 우위를 점했다.
Any-to-Any Paradigm : 거대 AR-LM 한 개 + Tokenizer Adapter N 개 → 텍스트 밖 세계를 자연스레 확장.
Research Trend : Patch Diffusion, Progressive Vocab Learning(UGen), Unified Token space(UniToken) 연구 급증 👉🏻UGen, UniToken.
Industrial Prospect : 빅테크는 Vision · Audio 데이터로 RLHF를 수평 확장, 오픈 소스 진영도 Janus를 베이스로 patch diffusion benchmark 경쟁에 합류할 듯.

▶ Deep Dive – 산업 시사점

Fine-Tuning 비용 : AR-IG는 신규 모달 학습 시 tokenizer만 추가하면 되므로, diffusion 대비 최대 x3 데이터 효율(DeepSeek 내부 보고).
모델-서빙 : 패치-AR 은 비동기 tokenizer → GPU AR core → CPU dVAE 파이프라인으로 다중 모달 동시 처리 가능.
오픈소스 과제 : (1) Patch-Denoise 알고리즘의 공개 (2) 패치 토큰 vocabulary의 표준화 (3) 분산 KV-cache 관리.

Insights

모델과 데이터가 충분히 크면, 적어도 추론 영역에서는 디퓨전조차 “패치-보정 효과”로 AR 시대를 보조하게 될 가능성이 높다. 이미지는 곧 텍스트처럼 채팅된다.

이제 이미지·오디오까지 “채팅” 하는 시대. 크고 잘 학습된 AR-LM 한 대면, 모달 확장은 Tokenizer plugin 수준으로 단순화된다.

Twitter Facebook LinkedIn

Any-to-Any: Autoregressive Image Generation

0. Introduction

1. Janus Model Overviews

1-1. Model Architecture

1-2. Train Method

1-3. Inference Flow

2. GPT-4o Native Image Generation(presumption)

2-1. Full Pipeline(Include UpSampler)

2-2. Internal Analysis

3. AR vs Diffusion : Principle and Difference

3-1. Autoregressive Pipeline

3-2. Latent Diffusion Pipeline

3-3. Patch side Diffusion(presumption)

4. Janus vs GPT-4o

5. Any-to-Any Structure

5-1. Input

5-2. Output

6. Comparison with Traditional Multimodal LLM

7. Summary & Insights

공유하기

댓글남기기

참고

Wan2.1 Review

LLM Train Recipe

MiniMax Lightning Attention Review

DeepSeek-R1 Review