Seedance 1.0 and Seedance 1.5 pro Review
0. Introduction
Seedance 1.0과 Seedance 1.5 pro를 따로 보면 각각 “강한 video model report”, “audio-video generation 확장판” 정도로 읽히기 쉽다. 그런데 두 문서를 연속된 설계 문서로 읽으면 훨씬 흥미롭다. Seedance 1.0은 비교적 자세한 technical report로서 좋은 video generation stack을 어떻게 구성했는가를 꽤 넓게 공개한다. 반면 Seedance 1.5 pro는 그 기반 위에서 native audio-visual generation까지 경계를 넓히지만, 내부 구현은 더 적게 공개하고 평가와 응용 장면을 더 많이 강조한다.
즉 이 조합의 핵심은 “1.5가 1.0보다 좋다”가 아니다. 더 중요한 포인트는 시스템의 목표 함수가 어떻게 바뀌는가다. 1.0의 중심 문제는 prompt following, motion plausibility, visual quality를 동시에 잡는 unified video foundation model이다. 1.5 pro에서는 여기에 audio prompt following, audio quality, audio-visual synchronization, expressiveness가 붙으면서, 모델의 성공 기준이 “좋은 영상”에서 “쓸 만한 audiovisual scene”으로 이동한다.
또 하나 인상적인 점은 보고서의 성격 차이다. Seedance 1.0은 data pipeline, captioning, architecture, progressive training, RLHF, distillation, inference optimization까지 꽤 구체적으로 쓴다. 반면 Seedance 1.5 pro는 dual-branch DiT, cross-modal joint module, joint audio-video data framework를 말하지만, 세부 모듈 해부보다 평가 결과와 application scenario를 더 전면에 둔다. 그래서 이 두 문서를 같이 읽으면, 기술 진화와 함께 보고서의 투명성/공개 범위가 어떻게 달라지는지도 보인다.
한 줄 요약: Seedance 1.0은 dense captioning, unified T2V/I2V training, RLHF, distillation까지 포함한 video generation full-stack technical report이고, Seedance 1.5 pro는 그 위에 native audio-video generation과 audio-aware evaluation을 더한 audio-visual capability expansion report다.
이 논문들을 지금 볼 가치가 있는 이유는 다음과 같음.
- video generation 모델을 실제 서비스 관점에서 보면, 성능 차이는 backbone 한 줄보다 data factory + prompt interface + post-training + acceleration에서 갈리는 경우가 많다.
- Seedance 1.0 -> 1.5 pro의 변화는 단순 품질 향상이 아니라, video model이 audio를 native modality로 흡수할 때 무엇이 함께 바뀌는지를 보여준다.
- 특히 benchmark가 SeedVideoBench 1.0 -> 1.5로 같이 진화한다는 점이 중요하다. 좋은 모델만 만든 게 아니라, 무엇을 좋다고 부를지의 기준도 같이 바꿨다.
내가 보기엔 이 조합은 “ByteDance의 강한 generative model 두 편”이라기보다, video foundation model이 audio-visual foundation model로 확장되는 과정의 버전 히스토리로 읽는 편이 더 유익하다.
1. Problem Setting
1-1. Problem definition
- Seedance 1.0이 겨냥하는 핵심 문제는 text-to-video와 image-to-video를 한 모델 안에서 다루면서도 prompt following, motion quality, visual fidelity를 동시에 확보하는 것이다.
- 기존 video generation은 한 축이 강하면 다른 축이 흔들리는 경우가 많다. 예를 들어 motion은 좋은데 prompt following이 약하거나, aesthetics는 좋은데 image preservation이 불안한 식이다.
- Seedance 1.5 pro는 이 문제를 한 단계 더 확장한다. 이제 목표는 “좋은 영상”이 아니라 좋은 audio-visual scene이다. 즉 lip-sync, sound effect alignment, speech quality, dialect handling, emotional resonance, narrative coherence까지 함께 맞춰야 한다.
- 그래서 1.5 pro의 문제 설정은 단순히 audio track을 추가하는 수준이 아니다. visual generation foundation model을 audio-visual joint generation foundation model로 바꾸는 것에 가깝다.
1-2. Why previous approaches are insufficient
- video generation 모델들은 종종 T2V와 I2V 중 한쪽에 더 특화되거나, multi-shot narrative 같은 실제 제작 관점의 요구를 충분히 다루지 못했다.
- 더 중요한 한계는, 많은 시스템이 audio를 native modality가 아니라 후처리 단계의 dubbing 또는 별도 모듈 결합 문제처럼 다룬다는 점이다.
- 이 경우 영상과 음성은 동시에 생성되더라도, lip movement, on-screen events, background sound, emotional inflection이 한 generation objective 안에서 함께 최적화되기 어렵다.
- 평가도 마찬가지다. public preference나 간단한 영상 품질 평가는 유용하지만, 실제 창작 현장에서는 camera movement, motion vividness, intent-level prompt following, audio-visual synchronization 같은 더 세밀한 축이 중요하다.
- 결국 부족했던 것은 “더 큰 video model”이라기보다, multi-modal objective에 맞춘 data / benchmark / post-training system 전체였다.
2. Core Idea
2-1. Main contribution
- Seedance 1.0의 핵심 기여는 unified video generation stack이다. 데이터 수집과 필터링, dense captioning, temporally-causal VAE, decoupled spatial-temporal DiT, prompt engineering, RLHF, distillation, inference acceleration을 하나의 시스템으로 묶는다.
- Seedance 1.5 pro의 핵심 기여는 이 stack의 목표를 native audio-video joint generation으로 확장한 데 있다. 논문은 dual-branch Diffusion Transformer, cross-modal joint module, holistic audio-visual data framework, audio-aware RLHF, audio-aware benchmark를 전면에 둔다.
- 두 보고서를 같이 놓고 보면, Seedance의 진짜 아이디어는 single module novelty가 아니라 foundation model의 작업 경계를 단계적으로 넓히는 것이다.
2-2. Design intuition
- Seedance 1.0의 설계 직관은 분명하다. 좋은 video generation 모델은 좋은 DiT block 하나로 완성되지 않고, captioning interface / task unification / reward modeling / acceleration을 같이 잡아야 한다.
- Seedance 1.5 pro는 여기에 또 하나의 직관을 더한다. audio는 단순 부가물이 아니라, prompt following과 narrative coherence를 다시 정의하게 만드는 modality다.
- 그래서 1.5 pro는 benchmark 자체를 확장한다. video quality를 보는 데서 멈추지 않고, audio prompt following, audio quality, synchronization, expressiveness를 추가한다.
- 내가 보기엔 이 변화는 “모델이 커졌다”보다 더 중요하다. 즉 모델이 잘해야 하는 일의 정의가 달라졌다는 것이다.
3. Architecture / Method
3-1. Overview
| Version | Goal | Main tasks | Key module | What stands out |
|---|---|---|---|---|
| Seedance 1.0 | unified video foundation model 구축 | T2V, I2V, mixed T2I/T2V/I2V training | temporally-causal VAE, decoupled spatial-temporal MMDiT, MM-RoPE, refiner, prompt engineering | multi-shot generation, unified task formulation, detailed post-training/inference recipe |
| Seedance 1.5 pro | native audio-visual joint generation foundation model 구축 | T2VA, I2VA, plus T2V/I2V | dual-branch Diffusion Transformer, cross-modal joint module, joint model + refiner, audio-visual data/eval framework | audio-video synchronization, multilingual/dialect lip-sync, audio-aware benchmark |
3-2. Module breakdown
1) Seedance 1.0: video stack 자체를 꽤 구체적으로 공개한다
- VAE는 temporally-causal compression을 채택하고, 실사용 설정에서 시간/공간 downsample 비율을 (4, 16, 16), latent channel을 48로 둔다.
- 저자들은 높은 downsampling을 쓰는 대신 DiT 쪽 patchification을 제거한다. 즉 token budget을 VAE 쪽에서 먼저 강하게 줄이고, diffusion backbone은 patchify-less latent를 직접 다루게 한다.
- diffusion backbone은 decoupled spatial and temporal layers 구조다. spatial layer는 프레임 내부 attention, temporal layer는 시간축 attention을 담당하고, text token은 spatial layer에서만 cross-modal interaction에 참여한다.
- spatial block은 Stable Diffusion 3 계열의 MMDiT 설계를 따르며, visual/textual token에 대해 별도 adaptive layer norm, QKV, MLP weight를 둔다.
- 여기에 MM-RoPE를 넣어 visual token과 textual token이 섞인 sequence를 처리하고, 이를 multi-shot video training까지 확장한다. 이 부분이 Seedance 1.0의 “native multi-shot storytelling” 주장을 떠받치는 핵심이다.
- task formulation도 꽤 실용적이다. noisy input에 cleaned/zero-padded frame을 channel-wise로 concat하고 binary mask로 instruction frame을 표시해서, text-to-image / text-to-video / image-to-video를 하나의 formulation으로 묶는다.
- 고해상도 생성은 base model과 별도 diffusion refiner의 cascaded framework로 나누고, refiner는 low-resolution video conditioning을 받아 720p/1080p detail을 보강한다.
- prompt interface도 별도 시스템이다. Qwen2.5-14B 기반 prompt engineering model을 SFT와 DPO로 학습해 user prompt를 dense caption 형식으로 재작성한다.
2) Seedance 1.5 pro: architecture name은 공개하지만 내부 해부는 훨씬 적다
- 1.5 pro는 abstract와 introduction에서 dual-branch Diffusion Transformer architecture와 cross-modal joint module을 전면에 둔다.
- task는 Text-to-Video-Audio (T2VA), Image-to-Video-Audio (I2VA), 그리고 unimodal T2V/I2V까지 포함하는 형태로 확장된다.
- Figure 2 기준 inference stage는 User Prompt -> Prompt Engineering -> Text Encoder -> Video-Audio Joint Model (DiT) -> Video-Audio Joint Model Refiner -> Outputs 구조를 취한다.
- training stage도 Pre-Training -> SFT -> RLHF라는 1.0 계열의 파이프라인을 유지한다.
- 다만 중요한 차이가 있다. 1.0은 VAE, MMDiT, MM-RoPE, caption model, reward model 등을 비교적 자세히 푸는 반면, 1.5 pro는 dual-branch DiT와 joint module을 이름 수준으로 제시하고 내부 block 설계를 거의 열지 않는다.
- 즉 1.5 pro는 method paper라기보다 capability transition report에 더 가깝다.
3) 내가 보기엔 진짜 변화는 “모듈 추가”보다 “시스템 경계 이동”이다
- 1.0의 시스템 경계는 video 생성이다. prompt following, motion quality, aesthetics, image preservation, multi-shot narrative가 중심이다.
- 1.5 pro에서는 시스템 경계가 audio까지 포함한다. 따라서 모델이 잘해야 하는 것이 speech quality, sound effect timing, lip-sync, dialect realism, emotional resonance로 넓어진다.
- 이 변화는 architecture 한 줄 추가로 끝나지 않는다. data curation, captioning, reward model, benchmark, application scenario 모두가 같이 바뀐다.
- 그래서 두 보고서를 이어서 읽을 때 핵심 질문은 “1.5가 어떤 block을 더 넣었는가?”보다 audio가 들어오면서 무엇을 평가하고 최적화해야 하게 되었는가?가 된다.
4. Training / Data / Recipe
4-1. Data
- Seedance 1.0은 data pipeline을 매우 자세히 공개한다. diversity-oriented sourcing, compliance prescreening, shot-aware temporal segmentation, visual overlay rectification, quality & safety filtering, semantic deduplication, distribution re-balancing, captioning, VAE encoding까지 pipeline이 나뉜다.
- 특히 dense caption style이 중요하다. caption은 dynamic feature와 static feature를 함께 기술하며, dynamic 쪽은 motion과 camera movement, static 쪽은 subject appearance, aesthetics, style을 설명한다.
- caption model은 Tarsier2 기반으로 학습되고, 중국어/영어 bilingual capability도 같이 확보한다.
- 1.5 pro는 이 위에 holistic audio-visual data framework를 둔다. 소개부 기준으로 multi-stage curation pipeline, advanced captioning system, curriculum-based data scheduling, large-scale multi-modal infrastructure가 강조된다.
- 평가 쪽 설명을 보면, 1.5의 데이터/라벨링 체계는 최소한 세 개의 audio label 축을 새로 갖는다.
- human voice types: speech, singing, laughter 등
- human voice attributes: timbre, accent, emotional tone
- non-speech audio: environment, tool sound, music genre, acoustic properties
- 내가 보기에 1.5의 가장 큰 변화 중 하나는 caption target과 supervision target이 video-only description에서 audio-visual description으로 이동했다는 점이다. 다만 1.0만큼 구체적인 filtering/captioning implementation은 공개되지 않는다.
4-2. Training strategy
- Seedance 1.0의 pre-training은 flow matching + velocity prediction을 사용하고, timestep은 logit-normal distribution에서 샘플링한다.
- 또 resolution-aware shift를 넣어, 더 긴 영상과 더 높은 해상도에서 noise perturbation을 더 키운다.
- progressive training 전략도 명확하다.
- low-resolution text-to-image (256px) 학습
- 256px image-video joint training with 3-12 second clips at 12 fps
- 640px stage
- 24 fps stage
- video pre-training 동안에도 일부 text-to-image task를 유지하고, image-to-video 비율을 20%로 넣어 visual prompt following 능력을 활성화한다.
- 이후 Continue Training (CT) 단계에서 I2V 비율을 20% -> 40%로 올리고, 더 높은 aesthetic quality와 richer motion dynamics를 가진 subset으로 data를 정제한다. caption도 long caption과 motion-focused short caption 두 가지를 사용해 I2V objective를 맞춘다.
- SFT는 manually verified high-quality video-text pair로 visual quality와 motion coherence를 human preference 쪽으로 끌어당긴다.
- RLHF는 세 개의 reward model로 구성된다.
- Foundational RM: image-text alignment, structural stability
- Motion RM: artifact 완화, motion vividness
- Aesthetic RM: keyframe 기반 미학 품질
-
refiner에도 별도 RLHF를 걸어 low-NFE에서도 visual fidelity를 유지하려고 한다.
- Seedance 1.5 pro는 training recipe를 훨씬 덜 자세히 밝힌다. 그래도 공개된 범위 내에서 보면,
- large-scale mixed-modality datasets에 대한 multi-task pre-training,
- high-quality audio-video dataset 기반 SFT,
- multi-dimensional reward model을 이용한 audio-video RLHF,
- RLHF pipeline의 targeted optimization으로 약 3배 training speed improvement 를 핵심으로 둔다.
- 그러나 exact objective, audio-side representation, reward decomposition, stage-by-stage curriculum은 1.0 수준으로 공개되지 않는다.
4-3. Engineering notes
- Seedance 1.0은 inference acceleration까지 구체적이다. DiT 쪽은 TSCD(HyperSD)와 score distillation(RayFlow)를 결합해 low-NFE generation을 가속하고, human preference supervision까지 distillation에 넣는다.
- VAE decoder는 latency bottleneck이 큰 pixel-space 쪽 channel width를 줄인 thin VAE decoder로 재설계해 2배 속도 향상을 노린다.
- 여기에 kernel fusion, quantization/sparsity, adaptive hybrid parallelism, FP8 communication, async offloading, sequence parallelism, CPU offloading 같은 시스템 최적화가 붙는다.
- Seedance 1.5 pro 역시 multi-stage distillation + quantization + parallelism으로 end-to-end 10배 이상 acceleration을 주장한다.
- 내 해석으로는, 1.5 pro가 audio modality를 추가했어도 철학 자체는 같다. 즉 이 팀은 generative model을 “quality-only paper”가 아니라 inference cost까지 포함한 deployable stack으로 본다.
- 다만 1.5 pro는 acceleration claim의 세부 student-teacher recipe를 거의 풀지 않으므로, 재사용 관점에서는 1.0이 훨씬 더 값지다.
5. Evaluation
5-1. Main results
| Version | Evaluation setup | What the paper claims |
|---|---|---|
| Seedance 1.0 | Artificial Analysis snapshot + SeedVideoBench-1.0 (T2V 300 / I2V 300) + expert evaluation | T2V/I2V 모두에서 강한 성능, 특히 unified single model로 양쪽 task를 함께 잘하는 점을 강조 |
| Seedance 1.5 pro | SeedVideoBench-1.5 기반 video/audio evaluation + application scenario analysis | predecessor 대비 개선, 특히 T2V alignment, audio-video sync, Chinese-language audio, dialect and cinematic scenario strengths를 강조 |
- Seedance 1.0은 논문 시점의 Artificial Analysis video arena에서 text-to-video와 image-to-video 양쪽에서 top position을 보고하고, 내부적으로는 SeedVideoBench-1.0의 300 T2V / 300 I2V prompt에 대해 expert evaluation을 수행한다.
- internal benchmark에서 핵심 축은 motion quality, prompt following, aesthetic quality, 그리고 I2V에서는 preservation이다.
- 1.0은 특히 Kling 2.1의 motion quality와 Veo 3의 prompt following 사이에서 균형을 잡는 unified model이라는 메시지를 강하게 낸다.
- Seedance 1.5 pro는 SeedVideoBench 1.5로 넘어가며 평가 축을 확장한다. video 쪽에서는 motion quality, prompt following, visual aesthetics를 계속 보되, motion 안에서 video vividness를 더 강조한다.
- audio 쪽에서는 네 가지 축이 새로 생긴다.
- audio prompt following
- audio quality
- audio-visual synchronization
- audio expressiveness
- video comparative baselines는 Kling 2.5, Kling 2.6, Veo 3.1, Seedance 1.0 Pro이고, audio comparative baselines는 Veo 3.1, Wan 2.5, Kling 2.6, Sora 2다.
- 1.5 pro는 predecessor 대비 유의미한 개선을 주장하고, 특히 T2V alignment에서 leading position, audio 쪽에서는 Chinese dialogue/dialect generation과 lip-audio synchronization에서 강점을 강조한다.
5-2. What really matters in the experiments
- 내 기준에서 가장 중요한 건 숫자 자체보다 무엇을 측정하기 시작했는가다.
- Seedance 1.0의 benchmark는 “이 모델이 좋은 비디오를 만드는가?”라는 질문에 가까웠다. prompt, motion, aesthetics, preservation, multi-shot, multi-style이 중심이다.
- Seedance 1.5 pro의 benchmark는 “이 모델이 쓸 만한 audiovisual scene을 만드는가?”라는 질문으로 이동한다. 그래서 voice type, accent, sound effect, lip-sync, emotional resonance가 들어온다.
- 또 1.5의 motion metric에서 vividness를 별도 축처럼 다루는 것도 흥미롭다. 이는 field가 어느 정도 안정화되면서, 단순히 artifact가 적은 영상보다 표현력이 살아 있는 영상을 더 중요하게 보기 시작했다는 신호다.
- prompt following 정의도 바뀐다. 1.5에서는 literal keyword matching보다 user intent consistency를 더 중시하고, 경우에 따라 intent-consistent creative completion까지 허용한다.
- 내가 보기엔 이 변화는 매우 중요하다. video generation이 이제 “static prompt renderer”에서 벗어나, direction을 이해하고 scene을 완성하는 creative system 쪽으로 가고 있다는 뜻이기 때문이다.
6. Limitations
- Seedance 1.5 pro는 1.0보다 훨씬 덜 투명하다. dual-branch DiT, cross-modal joint module, joint data framework를 말하지만, audio-side tokenizer/representation, branch coupling, reward model decomposition, curriculum schedule 같은 핵심 내부는 거의 공개하지 않는다.
- 두 보고서 모두 internal benchmark 의존이 크다. SeedVideoBench 1.0/1.5와 expert evaluation은 유용하지만, 외부 연구자가 완전히 동일한 조건으로 재검증하기는 어렵다.
- 1.5 pro의 강점 서사는 중국어/방언/전통 공연/short drama 쪽에 강하게 맞춰져 있다. 이것은 분명한 product strength이지만, 동시에 범용 multilingual audio-video generation 전체로 일반화할 때는 추가 검증이 필요하다.
- 1.0의 leaderboard claim과 1.5의 경쟁 비교는 모두 시점 민감적이다. 특히 공개 플랫폼 leaderboard는 snapshot-based이고, audio benchmark도 빠르게 변하는 영역이라 결과를 영구적 서열처럼 읽으면 안 된다.
- 두 문서를 같은 해상도로 비교하면 오해가 생길 수 있다. 1.0은 recipe paper이고, 1.5는 capability report에 더 가깝다. 따라서 1.5에서 빠진 디테일을 “없다”라고 단정하기보다, 공개하지 않았다고 읽는 편이 안전하다.
7. My Take
7-1. Why this matters for my work
- 이 조합은 video generation을 연구/서비스에 붙이는 입장에서 꽤 유용하다. 특히 “좋은 model”보다 좋은 stack이 중요하다는 사실을 다시 확인시켜 준다.
- Seedance 1.0은 어떻게 unified video foundation model을 세우는지 보여주는 문서이고, Seedance 1.5 pro는 그 stack이 audio까지 받아들일 때 benchmark와 product target이 어떻게 달라지는지를 보여준다.
- 내가 가장 흥미롭게 본 건, audio를 추가하면서 단순히 branch 하나를 더한 게 아니라 평가의 철학 자체를 바꿨다는 점이다. 이건 멀티모달 시스템을 실제 서비스 문제로 보는 사람에게 중요하다.
7-2. Reuse potential
- 재사용 관점에서는 1.0이 훨씬 실용적이다.
- dense caption + prompt engineering interface
- unified T2I/T2V/I2V task formulation
- progressive training + CT ratio control
- multi-dimensional reward model
- distillation + thin decoder + systems optimization 같은 요소는 다른 video stack에도 아이디어를 줄 수 있다.
- 1.5 pro에서 재사용 가치가 큰 부분은 오히려 모델 내부보다 evaluation and product framing이다.
- audio-aware benchmark 축 정의
- intent-consistent prompt following 해석
- dialect, short drama, opera, camera movement 같은 use-case 중심 capability mapping
- 그래서 내 결론은 이렇다. 1.0은 recipe document로 읽고, 1.5 pro는 roadmap document로 읽는 편이 가장 생산적이다.
7-3. Follow-up papers
- HunyuanVideo: A Systematic Framework For Large Video Generative Models
- RewardDance: Reward Scaling in Visual Generation
8. Summary
- Seedance 1.0은 T2V/I2V unified video foundation model을 위한 상세 technical report이고, Seedance 1.5 pro는 native audio-video generation을 위한 확장형 capability report다.
- 1.0의 가치는 VAE, DiT, captioning, CT, RLHF, distillation, deployment까지 공개한 full-stack recipe에 있다.
- 1.5 pro의 가치는 audio-video synchronization, multilingual/dialect speech, expressive audiovisual storytelling을 중심으로 목표 함수와 benchmark를 확장한 점에 있다.
- 두 문서를 같이 읽으면, generative model의 진짜 진화가 parameter나 block 하나가 아니라 system boundary의 이동이라는 점이 잘 보인다.
- 실무적으로는 1.0에서 recipe를 배우고, 1.5 pro에서 audio-aware evaluation/product target을 배우는 식으로 읽는 것이 가장 남는 게 많다.
댓글남기기