mHC: Manifold-Constrained Hyper-Connections Review
0. Introduction
mHC는 “residual connection을 조금 더 복잡하게 만든 논문” 정도로 읽으면 핵심을 놓치기 쉽다. 이 논문이 흥미로운 이유는 Transformer/LLM의 block 내부를 바꾸는 micro-architecture가 아니라, layer 사이에서 representation이 어떻게 흐르는지를 다루는 macro-architecture 논문에 가깝기 때문이다. 지난 몇 년간 LLM 구조 개선은 attention, FFN, MoE, normalization, positional encoding처럼 block 내부 설계에 많이 집중되어 왔다. 반면 residual stream 자체는 ResNet 이후 거의 변하지 않은 기본 가정처럼 쓰였다.
Hyper-Connections(HC)는 이 고정된 residual stream을 넓히고 여러 stream 사이의 연결을 learnable하게 만들어 더 풍부한 cross-layer 정보 흐름을 만들려는 시도다. 문제는 그 자유도가 커질수록 residual connection이 원래 갖고 있던 identity mapping 성질이 깨진다는 점이다. 특히 depth가 깊어지고 model scale이 커지면 여러 layer의 residual mapping이 곱으로 누적되면서 forward signal이나 backward gradient가 증폭/감쇠될 수 있다.
mHC의 핵심은 이 지점을 정면으로 다룬다. residual stream을 넓히는 아이디어는 유지하되, 그 stream을 섞는 mapping을 아무 matrix나 되게 두지 않고 doubly stochastic matrix가 이루는 manifold, 즉 Birkhoff polytope 위로 projection한다. 이렇게 하면 stream 간 정보 교환은 가능하지만, row/column sum이 1인 convex combination 구조 때문에 signal conservation에 가까운 성질을 다시 얻을 수 있다.
한 줄 요약: mHC는 Hyper-Connections의 multi-stream residual 설계를 유지하면서, residual mapping을 doubly stochastic manifold로 제한해 identity mapping의 안정성을 복원하고, kernel fusion / recomputing / DualPipe overlap으로 large-scale training overhead를 줄인 macro-architecture 논문이다.
이 논문을 지금 볼 가치가 있는 이유는 다음과 같음.
- LLM scaling에서 attention/FFN/MoE만이 아니라 residual topology 자체가 다음 설계 축이 될 수 있음을 보여준다.
- HC류의 expanded residual stream이 성능 잠재력은 있지만, unrestricted mixing이 scale에서 얼마나 위험한지를 stability metric으로 분해한다.
- “새로운 architecture는 이론적으로 좋아 보여도 실제 training system에서 살아남아야 한다”는 점을 kernel fusion, recomputing, pipeline overlap까지 포함해 보여준다.
이 논문의 가장 중요한 메시지는 단순하다. Residual connection은 그냥 skip path가 아니라, deep network의 conservation law처럼 작동한다. 따라서 residual topology를 더 풍부하게 만들고 싶다면, expressivity와 stability를 동시에 제어하는 constraint가 필요하다. mHC는 그 constraint를 Birkhoff polytope라는 매우 구체적인 형태로 제안한 논문이다.
1. Problem Setting
1-1. Problem definition
이 논문이 겨냥하는 문제는 LLM의 residual connection paradigm을 어떻게 확장할 것인가이다.
일반적인 residual layer는 다음처럼 쓸 수 있다.
\[x_{l+1} = x_l + \mathcal{F}(x_l, W_l)\]이 구조의 장점은 단순히 gradient가 잘 흐른다는 수준을 넘는다. 여러 layer를 재귀적으로 펼쳐도 얕은 layer의 representation $x_l$이 깊은 layer까지 identity path로 전달된다. 즉 residual connection은 깊은 모델에서 signal propagation을 안정화하는 기본 구조다.
HC는 이 residual stream을 하나가 아니라 $n$개의 parallel stream으로 확장한다. 그러면 hidden state는 기존 $C$ dimension이 아니라 $n \times C$ 형태가 되고, 각 layer는 세 가지 mapping을 사용한다.
- $H_l^{pre}$: widened residual stream에서 layer input을 읽어오는 pre mapping
- $H_l^{post}$: layer output을 다시 widened stream에 써 넣는 post mapping
- $H_l^{res}$: residual stream 내부를 섞는 residual mapping
HC의 단일 layer 형태는 개념적으로 다음과 같다.
\[x_{l+1} = H_l^{res} x_l + H_l^{post\top} \mathcal{F}(H_l^{pre} x_l, W_l)\]이 구조는 layer function 자체의 FLOPs를 크게 늘리지 않고 residual stream의 정보 용량과 topological complexity를 키우는 방향이다. 논문은 특히 $H_l^{res}$, 즉 stream 내부 정보 교환이 HC 성능에 중요한 역할을 한다고 본다.
1-2. Why previous approaches are insufficient
문제는 HC의 $H_l^{res}$가 unconstrained learnable matrix라는 데 있다. 단일 layer에서는 큰 문제가 없어 보여도, 깊은 모델에서는 여러 layer의 residual mapping이 곱으로 누적된다.
\[\prod_i H_i^{res}\]이 composite mapping이 identity에 가까운 conservation property를 유지하지 못하면, 특정 stream 방향의 signal은 계속 증폭되고 다른 방향은 사라질 수 있다. 논문은 이를 forward signal gain과 backward gradient gain 관점에서 분석한다.
특히 27B 실험에서 HC는 약 12k step 부근에서 loss surge가 나타나고, gradient norm도 불안정해진다. 더 직접적으로는 composite residual mapping의 Amax Gain Magnitude가 거의 3000까지 치솟는 현상이 관찰된다. 이 값은 row sum 기반 forward signal gain과 column sum 기반 backward gradient gain을 보는 지표인데, 이상적인 residual-like propagation이라면 1 근처에 있어야 한다.
또 하나의 문제는 system overhead다. HC는 FLOPs 관점에서는 비교적 작아 보여도, widened residual stream을 유지하려면 memory access cost가 커진다. 논문 기준으로 HC의 per-token forward I/O는 residual stream 유지 부분에서 $n$에 비례해 증가하고, pipeline parallelism에서도 $n$-fold communication cost가 생긴다. 즉 architecture idea만으로는 부족하고, 실제 대규모 학습 시스템에서 kernel / memory / communication까지 같이 해결해야 한다.
2. Core Idea
2-1. Main contribution
mHC의 핵심 기여는 HC의 expressivity를 유지하면서 residual mapping의 안정성을 보장할 수 있는 constraint를 넣는 것이다.
가장 중요한 선택은 $H_l^{res}$를 doubly stochastic matrix로 제한하는 것이다. 즉 모든 entry가 non-negative이고, 각 row와 column의 합이 모두 1이 되도록 만든다.
\[H_l^{res} \mathbf{1}_n = \mathbf{1}_n, \quad \mathbf{1}_n^\top H_l^{res} = \mathbf{1}_n^\top, \quad H_l^{res} \ge 0\]이 조건을 만족하는 matrix들의 집합은 Birkhoff polytope로 볼 수 있다. 직관적으로는 permutation matrix들의 convex hull이다. 따라서 $H_l^{res}$는 residual stream을 임의로 증폭하거나 부호를 뒤집는 것이 아니라, 여러 stream을 convex combination으로 섞는 역할을 한다.
mHC의 주요 구성은 다음 네 가지로 정리할 수 있다.
- $H_l^{res}$를 doubly stochastic manifold로 projection한다.
- $H_l^{pre}$와 $H_l^{post}$에도 non-negativity constraint를 걸어 signal cancellation을 줄인다.
- Sinkhorn-Knopp iteration으로 practical projection을 구현한다.
- kernel fusion, selective recomputing, DualPipe overlap으로 widened residual stream의 system overhead를 줄인다.
2-2. Design intuition
이 설계의 직관은 꽤 명확하다. residual connection의 본질은 “아무 정보나 더 많이 섞자”가 아니라, 깊은 layer를 거치면서도 signal이 안정적으로 보존되게 하는 것이다.
HC는 residual stream의 폭을 넓혀 더 다양한 cross-layer interaction을 만들 수 있다. 하지만 unrestricted matrix는 너무 자유롭다. stream을 섞는 능력은 좋아지지만, 그 대가로 residual connection이 주던 identity mapping의 안정성을 잃는다.
mHC는 이 문제를 다음 관점으로 재정의한다.
- Identity만 유지하면 너무 보수적이다. $H_l^{res}=I$이면 안정적이지만 stream 간 정보 교환이 제한된다.
- Unconstrained mixing은 너무 위험하다. $H_l^{res}$가 arbitrary matrix이면 depth 방향으로 signal divergence가 생긴다.
- Doubly stochastic mixing은 중간 지점이다. stream 간 mixing은 허용하지만, 전체 signal intensity를 보존하는 방향으로 제약한다.
이 지점이 논문의 핵심이다. mHC는 residual mapping을 “learnable router”처럼 두되, 그 router가 conservation law를 위반하지 못하게 만든다.
3. Architecture / Method
3-1. Overview
| Item | Description |
|---|---|
| Goal | HC의 widened residual stream을 large-scale LLM training에서 안정적으로 쓰는 것 |
| Key module | Doubly stochastic residual mapping + Sinkhorn-Knopp projection |
| Main constraint | $H_l^{res}$의 non-negative row/column sum을 1로 제한 |
| Infrastructure | kernel fusion, selective recomputing, DualPipe communication-computation overlap |
| Difference from HC | HC는 residual mapping이 unconstrained, mHC는 manifold-constrained |
| Experimental setting | DeepSeek-V3 inspired MoE architecture, 3B / 9B / 27B scale, expansion rate $n=4$ |
3-2. Module breakdown
1) HC recap: widened residual stream
HC는 residual stream을 $n$개로 확장한다. 이를 통해 각 layer는 단일 hidden state가 아니라 여러 residual stream을 읽고 쓰고 섞을 수 있다. 이 구조는 layer function $\mathcal{F}$ 자체를 크게 키우지 않고도 cross-layer topology를 복잡하게 만든다는 장점이 있다.
논문은 HC의 세 mapping 중에서 특히 $H_l^{res}$가 중요하다고 본다. Table 1의 preliminary ablation에서는 residual mapping을 포함했을 때 absolute loss gap이 가장 크게 개선된다. 원문 표 기준으로 mapping을 늘릴수록 loss gap이 0.0에서 -0.022, -0.025, -0.027로 개선된다. 다만 이 ablation은 HC component의 상대적 중요성을 보여주는 용도이지, mHC 최종 성능을 직접 설명하는 표는 아니다.
2) Manifold-constrained residual mapping
mHC는 $H_l^{res}$를 Birkhoff polytope 위에 놓는다. doubly stochastic matrix는 세 가지 성질 때문에 이 문제에 잘 맞는다.
-
Norm preservation
spectral norm이 1 이하로 bounded되므로 non-expansive mapping으로 볼 수 있다. 이는 gradient explosion을 완화하는 방향으로 작동한다. -
Compositional closure
doubly stochastic matrix들의 곱도 doubly stochastic이다. 따라서 단일 layer뿐 아니라 여러 layer를 지난 composite mapping도 안정성을 유지할 수 있다. -
Geometric interpretation
Birkhoff polytope는 permutation matrix들의 convex hull이다. 즉 stream을 단순히 죽이거나 증폭하는 것이 아니라, permutation들의 convex combination처럼 feature를 섞는 구조가 된다.
이 논문에서 중요한 점은 constraint가 단순 regularization이 아니라는 것이다. 학습 중 loss에 penalty를 더하는 방식이 아니라, residual connection space 자체를 특정 manifold 위로 제한한다. 그래서 architecture-level stability constraint에 가깝다.
3) Sinkhorn-Knopp projection
mHC는 먼저 HC와 유사하게 dynamic mapping과 static bias를 만든 뒤, 이를 constrained mapping으로 바꾼다.
- input hidden matrix $x_l \in \mathbb{R}^{n \times C}$를 flatten한다.
- RMSNorm을 적용한다.
- linear projection으로 $\tilde{H}_l^{pre}$, $\tilde{H}_l^{post}$, $\tilde{H}_l^{res}$를 만든다.
- $H_l^{pre}$는 sigmoid를 통과시킨다.
- $H_l^{post}$는 $2 \sigma(\cdot)$ 형태로 만든다.
- $H_l^{res}$는 Sinkhorn-Knopp operator로 doubly stochastic matrix에 가깝게 만든다.
Sinkhorn-Knopp는 positive matrix에서 시작해 row normalization과 column normalization을 반복하는 방식이다.
\[M^{(0)} = \exp(\tilde{H}_l^{res})\] \[M^{(t)} = \mathcal{T}_r(\mathcal{T}_c(M^{(t-1)}))\]논문에서는 practical value로 $t_{max}=20$을 사용한다. 이 때문에 완벽한 projection이라기보다는 compute cost를 고려한 approximate doubly stochastic projection이다. 실제 stability analysis에서도 single-layer backward gradient gain이 1에서 약간 벗어나지만, composite case에서도 최대 약 1.6 수준으로 bounded된다고 보고한다.
4) Efficient infrastructure design
mHC는 architecture 논문이지만, 실제로는 systems paper의 성격도 강하다. widened residual stream은 memory access와 communication overhead를 만들기 때문에, 논문은 이를 줄이기 위한 구현 최적화를 꽤 자세히 다룬다.
핵심은 세 가지다.
-
Kernel fusion
RMSNorm, projection, coefficient calculation, Sinkhorn-Knopp iteration, residual merge를 별도 operation으로 두면 memory bandwidth와 kernel launch overhead가 커진다. 논문은 mixed precision kernel과 TileLang 기반 구현으로 여러 operation을 fuse한다. -
Selective recomputing
모든 intermediate activation을 저장하지 않고, mHC kernel의 중간 결과를 forward 이후 버렸다가 backward에서 다시 계산한다. heavy layer function $\mathcal{F}$는 다시 실행하지 않는 방식이라, activation memory를 줄이면서 recompute cost를 통제한다. -
DualPipe overlap
pipeline stage boundary에서 mHC의 widened residual stream은 communication latency를 키운다. 논문은 DualPipe schedule을 확장해 communication과 recomputation을 overlap하고, 일부 MLP-side mHC kernel을 high-priority compute stream에서 실행한다.
이 부분이 중요하다. mHC는 “좋은 수학적 constraint”만으로 끝나는 논문이 아니라, 그 constraint를 27B급 MoE pretraining에 넣기 위해 system path까지 같이 설계한다.
4. Training / Data / Recipe
4-1. Data
논문은 language model pretraining setting에서 mHC를 평가하지만, pretraining corpus의 상세 mixture는 본문에서 충분히 공개하지 않는다. 따라서 데이터 구성은 원문에서 추가 확인이 필요하다.
다만 Appendix A.1에는 model scale별 training token 수와 hyper-parameter가 정리되어 있다.
- 3B: 39.3B tokens
- 9B: 105B tokens
- 27B: 262B tokens
- 3B token-scaling run: 1.05T tokens
모든 실험은 DeepSeek-V3 inspired MoE architecture를 기반으로 하며, attention variant는 MLA, position embedding은 RoPE, layer norm은 RMSNorm을 사용한다.
4-2. Training strategy
논문 기준 주요 설정은 다음과 같다.
- 비교군은 Baseline, HC, mHC이다.
- HC와 mHC 모두 residual stream expansion rate $n=4$를 사용한다.
- mHC의 Sinkhorn-Knopp iteration은 $t_{max}=20$이다.
- sequence length는 4096이다.
- optimizer는 AdamW이고, AdamW beta는 $(0.9, 0.95)$이다.
- warmup steps는 2000이다.
- learning rate scheduler는 step schedule이며, decay step ratio는 $[0.8, 0.9]$, decay rate는 $[0.316, 0.1]$이다.
- weight decay는 0.1이다.
모델별 주요 training scale은 다음과 같다.
| Model | Total Params | Active Params | Layers | Batch Size | Steps | Tokens | Base LR |
|---|---|---|---|---|---|---|---|
| 3B | 2.97B | 612M | 12 | 320 | 30k | 39.3B | 8.6e-4 |
| 9B | 9.18B | 1.66B | 18 | 512 | 50k | 105B | 5.9e-4 |
| 27B | 27.0B | 4.14B | 30 | 1280 | 50k | 262B | 4.0e-4 |
| 3B 1T tokens | 2.97B | 612M | 12 | 2560 | 100k | 1.05T | 9.0e-4 |
4-3. Engineering notes
실무적으로 눈에 띄는 부분은 mHC가 추가 FLOPs보다 memory traffic과 communication을 더 신경 쓴다는 점이다.
HC/mHC의 $n$-stream residual은 layer function 자체보다 residual stream maintenance에서 부담을 만든다. 논문은 HC의 memory access cost가 $n$에 거의 비례해 증가한다고 분석한다. 특히 per-token forward I/O를 보면 standard residual connection은 residual merge에서 read $2C$, write $C$ 정도인 반면, HC는 coefficient 계산, pre/post/res mapping, residual merge가 추가되면서 read/write가 크게 늘어난다.
mHC는 이를 다음 방식으로 줄인다.
- $H_l^{post}$와 $H_l^{res}$ 적용을 residual merge와 fuse한다.
- 이 fuse를 통해 특정 kernel에서 read를 $(3n+1)C$에서 $(n+1)C$로, write를 $3nC$에서 $nC$로 줄인다고 보고한다.
- mHC kernel intermediate는 저장하지 않고 backward에서 recompute한다.
- recompute block size는 memory footprint를 최소화하도록 설정하되, pipeline stage boundary를 넘지 않도록 맞춘다.
논문에서 특히 인상적인 수치는 expansion rate $n=4$인 large-scale mHC 구현에서 추가 training time overhead가 6.7%라고 보고한 점이다. 물론 이 수치는 DeepSeek 내부 training stack, TileLang kernel, DualPipe schedule과 결합된 결과이므로, 다른 infra에서 그대로 재현된다고 가정하면 안 된다.
5. Evaluation
5-1. Main results
논문은 27B 모델에서 Baseline, HC, mHC를 비교한다. 주요 downstream benchmark는 BBH, DROP, GSM8K, HellaSwag, MATH, MMLU, PIQA, TriviaQA이다.
| Benchmark | Metric / Shots | 27B Baseline | 27B w/ HC | 27B w/ mHC |
|---|---|---|---|---|
| BBH | EM / 3-shot | 43.8 | 48.9 | 51.0 |
| DROP | F1 / 3-shot | 47.0 | 51.6 | 53.9 |
| GSM8K | EM / 8-shot | 46.7 | 53.2 | 53.8 |
| HellaSwag | Acc. / 10-shot | 73.7 | 74.3 | 74.7 |
| MATH | EM / 4-shot | 22.0 | 26.4 | 26.0 |
| MMLU | Acc. / 5-shot | 59.0 | 63.0 | 63.4 |
| PIQA | Acc. / 0-shot | 78.5 | 79.9 | 80.5 |
| TriviaQA | EM / 5-shot | 54.3 | 56.3 | 57.6 |
전체적으로 mHC는 baseline보다 모든 listed benchmark에서 높고, HC와 비교해도 MATH를 제외한 대부분에서 더 높다. 특히 논문은 HC 대비 BBH +2.1, DROP +2.3을 강조한다. 여기서 중요한 점은 mHC가 HC의 성능 이득을 유지하면서도 HC에서 나타난 instability를 완화한다는 것이다.
training stability 관점에서도 mHC는 27B 실험에서 baseline 대비 final loss reduction 0.021을 보이며, HC의 gradient norm instability보다 안정적인 profile을 보인다.
5-2. What really matters in the experiments
이 논문의 실험에서 가장 중요한 포인트는 최종 benchmark score보다 stability analysis다.
첫째, HC는 single-layer mapping에서는 어느 정도 관리되는 것처럼 보여도, 여러 layer를 통과한 composite mapping에서 gain이 크게 폭주한다. 논문은 27B 모델에서 HC의 composite Amax Gain Magnitude가 거의 3000까지 커진다고 보고한다. 이 현상은 forward signal과 backward gradient 모두에서 residual stream이 안정적으로 보존되지 않는다는 직접적인 증거로 쓰인다.
둘째, mHC는 같은 지표를 대폭 낮춘다. Sinkhorn-Knopp를 20 iteration만 사용하는 approximate projection이라 완벽히 1을 유지하지는 않지만, composite mapping의 최대 gain이 약 1.6 수준으로 bounded된다. HC와 비교하면 세 자릿수 규모의 차이다.
셋째, scaling curve가 중요하다. 논문은 3B, 9B, 27B의 compute scaling과 3B 1T token run의 token scaling을 통해 mHC의 loss advantage가 scale이 커져도 유지된다고 주장한다. 다만 figure 기반 상대 개선은 정량값을 표로 상세 제공하지 않으므로, 정확한 수치 인용은 원문 figure 재확인이 필요하다.
내가 보기엔 이 논문의 evaluation은 “mHC가 benchmark를 몇 점 올렸다”보다, “HC의 failure mode를 수치화하고 그 failure mode가 mHC에서 사라지는가”를 보는 것이 훨씬 중요하다. Table 4는 downstream evidence이고, Figure 2/3/5/7/8이 논문의 설득력 핵심에 가깝다.
6. Limitations
-
Pretraining data mixture가 충분히 공개되지 않는다.
model scale, token count, optimizer 설정은 제공되지만 corpus 구성과 filtering recipe는 본문에서 제한적으로만 확인된다. 따라서 성능 수치를 완전 재현 가능한 recipe로 보기엔 부족하다. -
DeepSeek-V3 inspired MoE architecture에 강하게 묶여 있다.
실험은 MLA, MoE, DualPipe 등 특정 stack 위에서 수행된다. dense Transformer, 다른 MoE routing, 다른 pipeline schedule에서도 같은 이득이 나는지는 추가 검증이 필요하다. -
mHC의 benefit과 DeepSeek-style infra optimization의 benefit이 분리되어 있지 않다.
논문은 kernel fusion/recompute/overlap까지 포함한 practical framework를 제시한다. 하지만 다른 구현체에서 6.7% overhead를 그대로 기대하기는 어렵다. -
다른 manifold constraint와의 비교가 부족하다.
doubly stochastic/Birkhoff polytope 선택은 설득력 있지만, orthogonal constraint, stochastic-only constraint, low-rank constrained mixing 등 다른 geometry와의 비교는 제한적이다. -
Sinkhorn-Knopp iteration 수의 trade-off가 더 필요하다.
논문은 $t_{max}=20$을 practical value로 사용한다. 그러나 iteration 수를 줄이거나 늘릴 때 stability, throughput, downstream score가 어떻게 trade-off되는지는 더 자세히 보고되면 좋다. -
Benchmark improvement가 architecture scaling law로 일반화되기엔 아직 좁다.
3B/9B/27B와 3B 1T run은 좋은 evidence지만, foundation model macro-architecture의 보편적 결론으로 보기에는 더 넓은 모델군과 task군이 필요하다.
7. My Take
7-1. Why this matters for my work
이 논문은 LLM architecture를 볼 때 “block 내부 연산을 어떻게 바꿀까”에서 “layer 사이의 topology를 어떻게 설계할까”로 관점을 넓혀 준다. 특히 DeepSeek 계열의 MoE/MLA 같은 micro design이 이미 강한 상황에서, residual stream 자체를 확장하는 macro design은 꽤 중요한 다음 실험 축처럼 보인다.
내 연구/실무 관점에서 특히 의미 있는 부분은 다음이다.
- residual path를 단순 skip connection으로 보지 않고, deep model의 signal conservation mechanism으로 해석한다.
- cross-layer information mixing을 늘리되, stability를 보장하는 constraint를 먼저 설계한다.
- architecture proposal을 system overhead까지 포함해서 평가한다.
많은 architecture 아이디어는 small-scale prototype에서는 좋아 보이지만, large-scale training에서 memory wall, communication bubble, gradient instability 때문에 사라진다. mHC는 이 세 가지를 논문 안에서 동시에 다룬다는 점에서 읽을 가치가 크다.
7-2. Reuse potential
바로 재사용 가능성이 높은 아이디어는 다음 네 가지라고 본다.
-
Residual stream expansion을 stability-constrained routing 문제로 보기
multi-stream residual을 만들 때 unrestricted matrix를 쓰는 대신, row/column constraint를 먼저 고민할 수 있다. -
Doubly stochastic projection을 cross-layer mixing에 적용하기
Birkhoff polytope는 feature routing, expert routing, layer aggregation에서도 재사용 가능성이 있다. 특히 “섞되 증폭하지 않는” 성질이 필요한 곳에 잘 맞는다. -
Amax Gain Magnitude 같은 propagation diagnostic 사용하기
architecture를 바꿨을 때 benchmark만 보지 말고, composite mapping의 forward/backward gain을 직접 보는 diagnostic은 꽤 유용해 보인다. -
Architecture와 kernel design을 동시에 보기
mHC가 실제로 설득력 있는 이유는 수식뿐 아니라 TileLang kernel, recomputing, pipeline overlap까지 포함하기 때문이다. 새 구조를 제안할 때 overhead budget을 같이 제시하는 방식은 배울 만하다.
반대로 당장 production model에 넣기에는 부담이 있다. Sinkhorn projection, custom kernel, pipeline schedule 수정이 모두 필요하기 때문에, 작은 팀에서는 먼저 simplified variant를 toy scale이나 mid-scale에서 검증하는 편이 현실적이다.
7-3. Follow-up papers
-
Hyper-Connections
mHC가 직접 확장하는 원 논문이다. HC가 residual stream expansion을 어떻게 정의했고, 어떤 성능 이득을 보였는지 먼저 확인하면 mHC의 문제의식이 더 명확해진다. -
DeepSeek-V3 Technical Report
mHC 실험이 DeepSeek-V3 inspired MoE architecture 위에서 이뤄지므로, MLA, MoE, DualPipe 등의 배경을 이해하는 데 필요하다. -
DenseFormer / Residual Matrix Transformer / MUDDFormer
residual stream widening, cross-layer connectivity, macro-topology 설계 관점에서 같이 보면 좋다. -
Sinkhorn / Birkhoff polytope 관련 optimal transport 문헌
doubly stochastic projection의 수학적 의미와 iteration trade-off를 더 깊게 보려면 필요하다.
8. Summary
- mHC는 Hyper-Connections의 widened residual stream을 large-scale LLM training에서 안정적으로 쓰기 위한 manifold-constrained extension이다.
- 핵심은 residual stream mixing matrix $H_l^{res}$를 doubly stochastic matrix로 제한해 identity mapping의 conservation property를 복원하는 것이다.
- Sinkhorn-Knopp projection을 사용하며, 논문 기준 practical iteration 수는 $t_{max}=20$이다.
- 27B 실험에서 mHC는 baseline보다 모든 listed benchmark에서 높고, HC 대비 대부분의 task에서 우세하며, stability metric에서도 HC의 composite gain 폭주를 크게 줄인다.
- 이 논문의 가치는 최종 점수보다 “macro-architecture + stability constraint + system optimization”을 하나의 설계 단위로 묶었다는 데 있다.
댓글남기기