12 분 소요

0. Introduction

Paper link

Official model

EXAONE 4.5는 “LG의 첫 공개 VLM” 정도로만 읽으면 아쉬운 기술 보고서다. 이 리포트의 진짜 흥미로운 지점은 33B급 모델을 하나 더 추가했다는 데가 아니라, EXAONE 4.0 계열의 reasoning LLM을 어떻게 document-centric industrial VLM으로 바꿨는가에 있다.

대부분의 VLM 보고서가 범용 이미지 QA나 general chat 쪽에 무게를 둔다면, EXAONE 4.5는 문서, OCR, 차트, STEM, Korean multimodal content, long context, tool use처럼 실제 enterprise workload에 더 가까운 축을 전면에 둔다. 그래서 이 논문은 “비전 인코더를 붙인 EXAONE 4.0” 이라기보다, multimodal productization report로 읽는 편이 더 맞다.

이 논문의 핵심은 native multimodal pretraining 그 자체보다, 어떤 산업 데이터와 post-training 레이어를 어떤 순서로 붙였는가에 있다. 특히 document parsing, OCR, STEM, Korean multimodal data를 capability routing 단위로 다루는 방식이 꽤 실무적이다.

한 줄 요약: EXAONE 4.5는 EXAONE 4.0 32B 위에 1.2B급 vision encoder를 결합하고, document, OCR, STEM, Korean 중심 데이터와 unified post-training 을 얹어 reasoning LLM을 industrial VLM으로 확장한 기술 보고서다.

이 논문을 지금 볼 가치가 있는 이유는 다음과 같음.

  • 문서 중심 멀티모달 설계 를 꽤 노골적으로 어필한다.
  • Korean multimodal and reasoning bias 를 데이터와 tokenizer 단계에서 같이 다룬다.
  • 배포 관점의 구조 선택 이 많아서 실제 서빙과 product 연결 포인트를 읽기 좋다.

1. Problem Setting

1-1. Problem definition

  • 이 논문이 겨냥하는 핵심 문제는 reasoning 중심 language backbone을 산업 현장에서 바로 쓸 수 있는 vision-language system으로 확장하는 것이다.
  • 여기서 중요한 것은 단순한 이미지 captioning이 아니다. 문서, 차트, OCR, STEM, diagram, Korean multimodal content, long context, tool use처럼 실제 enterprise workload를 한 모델 안에서 다루는 것이 목표다.
  • VLM은 언어 모델과 달리 해상도에 비례해 크게 늘어나는 visual token을 처리해야 한다. 따라서 encoder scale, token efficiency, inference efficiency를 동시에 풀어야 한다.
  • 또한 LG의 EXAONE 계열은 이미 reasoning stack을 갖고 있었기 때문에, 새 모델의 과제는 “vision을 붙이는 것” 이 아니라 “reasoning stack을 multimodal stack으로 확장하는 것” 에 더 가깝다.

1-2. Why previous approaches are insufficient

  • 작은 vision encoder나 aggressive visual token truncation은 계산량을 줄이는 대신 spatial, semantic detail을 버리기 쉽다.
  • 일반적인 web image-text mixture만으로는 document understanding, OCR, charts, STEM, Korean academic content 같은 축을 충분히 커버하기 어렵다.
  • context extension을 별도 단계로 분리하면 multimodal alignment와 instruction following을 같이 유지하기가 쉽지 않다.
  • language-only reasoning recipe를 그대로 옮기는 것만으로는 vision side의 grounding, OCR, layout understanding 문제가 자동으로 풀리지 않는다.
  • 결국 기존 접근의 한계는 한 가지 블록이 부족해서라기보다, vision encoder scale, task-targeted data factory, multimodal post-training continuity 가 하나의 시스템으로 묶여 있지 않았다는 데 있다.

2. Core Idea

2-1. Main contribution

  • EXAONE 4.5의 핵심 기여는 “LLM에 vision encoder를 하나 붙였다” 가 아니다. 오히려 EXAONE 4.0의 reasoning backbone을 유지한 채, 어떤 encoder, 어떤 데이터, 어떤 post-training 조합으로 industrial VLM을 만들 것인가를 정리한 데 있다.
  • 첫째, 1.2B급 vision encoder를 새로 학습해 EXAONE 4.0 32B에 통합한다.
  • 둘째, vision encoder에도 GQA를 적용하고, 2D RoPE와 hybrid attention, MTP, K-EXAONE tokenizer를 조합해 성능과 효율을 같이 챙긴다.
  • 셋째, pretraining을 2단계로 나눠 Stage 1에서는 alignment, Stage 2에서는 document, OCR, grounding, STEM, Korean-specific capability를 더 강하게 밀어준다.
  • 넷째, SFT, offline preference optimization, multimodal RL, context extension을 따로 흩어놓지 않고 하나의 post-training 연속체로 본다.
  • 다섯째, open-weight release와 함께 실제 serving path, recommended decoding setup, reasoning and non-reasoning mode를 같이 공개한다.

2-2. Design intuition

  • 이 논문의 설계 직관은 꽤 선명하다. industrial intelligence를 만들려면 generic multimodal chat model보다 structured multimodal information density 를 먼저 잡아야 한다는 것이다.
  • 그래서 visual token을 억지로 줄이기보다 encoder를 키우고, 대신 GQA와 hybrid attention으로 효율을 확보한다.
  • 데이터도 무작정 넓게 모으지 않는다. document, OCR, chart, STEM, Korean corpus처럼 실제 capability gap이 생기는 지점을 별도 버킷으로 관리한다.
  • context extension 역시 별도 긴 문맥 학습으로 떼어내지 않고, high-quality SFT 안에 통합한다. 이건 128K-capable base LLM의 prior를 최대한 활용해 안정적으로 256K로 늘리겠다는 발상이다.
  • 이 구조는 “멀티모달 모델을 잘 만들자” 보다 “서비스 가능한 멀티모달 문제해결 엔진을 만들자” 에 더 가깝다.

3. Architecture / Method

3-1. Overview

Item Description
Goal EXAONE reasoning backbone을 document, OCR, STEM, Korean 중심 VLM으로 확장
Key module 1.2B vision encoder, hybrid attention, 2-stage multimodal pretraining, unified post-training
Design bias general image chat보다 industrial document and reasoning task를 우선
Difference from prior work 작은 encoder와 token truncation 대신 billion-scale visual branch와 task-targeted data factory를 사용
Deployment angle 256K context, reasoning and non-reasoning dual mode, MTP, common inference engine support

3-2. Module breakdown

1) Billion-scale vision encoder

  • 논문은 visual token 수가 해상도에 비례해 커지는 상황에서 naive truncation이 성능을 크게 깎는다고 본다.
  • 그래서 상대적으로 작은 vision encoder를 쓰는 대신, 1.2B급 encoder를 새로 학습해 붙인다.
  • 이 encoder에는 Grouped Query Attention 이 적용되고, image structure를 위해 2D RoPE 를 사용한다.
  • 중요한 포인트는 GQA를 decoder KV cache 용도에만 보지 않는다는 점이다. 논문은 vision encoder 안에서도 GQA가 계산 효율과 hardware utilization에 도움이 된다고 해석한다.

2) EXAONE 4.0 backbone과 throughput path

  • language backbone은 EXAONE 4.0 32B를 사용한다.
  • 공식 model card 기준으로는 language model 31.7B, vision encoder 1.29B, total 33B 규모다.
  • layer 구성은 64 main layers와 1 MTP layer이며, attention pattern은 16 x (3 sliding window attention + 1 global attention) 이다.
  • sliding window size는 4096이고, global attention에는 NoPE가 적용된다.
  • 여기에 K-EXAONE tokenizer와 MTP를 결합해 long context와 decoding throughput을 함께 챙긴다.
  • 이 부분이 중요하다. EXAONE 4.5는 architecture novelty를 크게 밀지 않지만, reasoning backbone continuityserving throughput 을 같이 생각한 흔적이 꽤 강하다.

3) Two-stage multimodal pretraining

  • pretraining은 2단계다.
  • Stage 1은 foundational modality alignment 단계로, image tokens 420B, text tokens 400B, sequence length 8K 설정에서 전체 모듈을 joint training 한다.
  • Stage 2는 perceptual and knowledge refinement 단계로, image tokens 225B, text tokens 110B, sequence length 8K 설정에서 general sample 비중을 줄이고 structured information 비중을 높인다.
  • Stage 1의 역할은 encoder, merger, LLM 사이의 cross-modal alignment를 잡는 것이다.
  • Stage 2의 역할은 grounding, document, OCR, knowledge, mathematics, STEM 쪽으로 data mixture를 더 조정해 capability를 densify 하는 것이다.
  • 즉 이 논문은 multimodal pretraining을 “한 번에 크게 돌리는 과정” 으로 보지 않고, alignment 이후에 structured information을 다시 눌러 담는 과정으로 본다.

4) Data factory as capability routing

  • image caption data는 Korean-English bilingual pair를 중심으로 구성하고, raw web caption의 짧고 noisy한 특성을 보완하기 위해 synthetic captioning pipeline을 쓴다.
  • image-text pair에는 수학, 차트, diagram, document parsing에 가까운 task-oriented image가 별도로 들어간다.
  • interleaved image-text corpus는 educational quality와 STEM relevance를 기준으로 filtering and upsampling 된다.
  • OCR and document data는 character, word, document level로 구성되고, synthetic OCR image도 포함된다.
  • document parsing supervision은 chart, table, document를 HTML, Markdown, JSON 같은 structured format으로 바꾸는 방식까지 포함한다.
  • grounding and counting도 별도 파이프라인으로 관리한다. counting은 synthetic generation을 우선하고, count range와 object type을 explicit balancing 한다.
  • STEM and reasoning 쪽은 search-based synthesis pipeline으로 complex math graph, engineering diagram, science document를 만들고, extracted metadata를 활용해 Long CoT data까지 생성한다.
  • Korean-specific bucket도 별도다. KTO, IT Donga, Game Donga 데이터를 사용하고, Korean academic text를 high-resolution rendered image로 바꾸는 text-to-vision augmentation도 수행한다.
  • 이 부분이 EXAONE 4.5의 핵심이다. capability gap을 benchmark로만 보지 않고, 아예 data bucket 단위 로 관리한다.

5) Context extension and post-training continuity

  • EXAONE 4.5는 256K context length를 지원한다.
  • 중요한 점은 context extension을 standalone phase로 떼지 않았다는 것이다. high-quality SFT 안에 직접 통합한다.
  • 논문은 128K-capable base LLM을 초기값으로 쓰면 shorter-sequence base에서 길이를 늘릴 때보다 optimization instability가 줄어든다고 설명한다.
  • 계산량 증가는 context parallelism으로 대응한다.
  • SFT는 text-only 와 vision-language 데이터를 함께 쓰고, non-reasoning 과 reasoning supervision도 unified framework 안에서 같이 학습한다.
  • offline preference optimization 역시 multi-stage 로 구성되고, OCR, chart understanding, visual recognition, dialogue, instruction following, safety 같은 capability별로 다르게 최적화한다.
  • RL 단계에서는 text와 vision을 함께 넣는 joint multimodal RL을 수행하고, policy optimization에는 GRPO with IcePop setting을 사용한다.
  • 또한 zero-variance filtering을 넣고, advantage는 group mean reward를 빼서 계산하되 std normalization은 생략한다.
  • 공식 model card 기준으로 reasoning mode는 default 로 켜져 있고, latency가 더 중요할 때는 enable_thinking=False 로 non-reasoning mode를 사용할 수 있다.

4. Training / Data / Recipe

4-1. Data

  • 이 논문은 단일 거대 multimodal mixture 하나로 설명되지 않는다.
  • pretraining data는 크게 image caption, interleaved image-text, OCR and documents, grounding and counting, STEM and reasoning, Korean-specific 으로 나뉜다.
  • 특히 document and OCR 버킷은 단순 visual QA가 아니라 structured reconstruction을 같이 본다는 점이 중요하다.
  • caption 쪽도 raw web caption을 그대로 쓰지 않고 synthetic enrichment 를 거친다.
  • Korean 쪽은 cultural corpus와 IT, game domain을 분리해서 넣고, factual grounding 을 강조한다.
  • 아쉬운 점은 각 버킷의 정확한 sample count 나 mixing ratio가 상세히 공개되지는 않는다는 점이다. 그래서 재현은 철학 단위로는 가능하지만, exact recipe 재현은 어렵다.

4-2. Training strategy

Stage What they do Why it matters
Vision encoder pretrain OpenVision2 inspired autoregressive objective 로 1.2B vision encoder를 먼저 학습 target architecture alignment 확보
Stage 1 multimodal pretrain encoder, merger, LLM joint training 기본 visual-text alignment 형성
Stage 2 multimodal pretrain general sample 비중 축소, document and OCR and STEM 업샘플 structured information density 강화
SFT text-only + vision-language, non-reasoning + reasoning, 6 languages broad multimodal generalization 확보
Offline preference optimization capability별 multi-stage optimization OCR, chart, dialogue, instruction, safety refinement
Joint multimodal RL text and vision together with GRPO style optimization reasoning and instruction-following 보강
Context extension SFT 내부에서 256K까지 확장 long context 와 alignment 동시 유지

4-3. Engineering notes

  • 공식 model card 기준으로 EXAONE 4.5는 TensorRT-LLM, vLLM, SGLang, llama.cpp 같은 inference path를 지원한다.
  • 256K context length 기준으로 single H200 GPU 또는 tensor parallelism 을 쓰는 4 x A100-40GB setup 이 가이드로 제시된다.
  • OCR, document, Korean input에는 temperature 0.6, top_p 0.95, presence_penalty 1.5, top_k 20 을 권장한다.
  • text-only input에는 temperature 1.0, top_p 0.95 를 권장한다.
  • 수학류 parsing accuracy를 위해 boxed answer format 선호를 명시한 것도 흥미롭다.
  • reasoning mode 가 default 라는 점도 실무적으로 중요하다. accuracy 우선이면 그대로 쓰고, latency 우선이면 non-reasoning mode 로 내릴 수 있다.
  • 반대로 license 는 EXAONE AI Model License Agreement 1.2 - NC 다. 즉 open-weight 라고 해서 unrestricted commercial deployment 로 바로 읽으면 안 된다.

5. Evaluation

5-1. Main results

vision 쪽에서 중요한 숫자는 아래 정도다.

Benchmark EXAONE 4.5 Comparison point Reading
MathVision 75.2 Qwen3-VL-235B 74.6, GPT-5 mini 71.9 visual math reasoning strong
We-Math 79.1 Qwen3-VL-235B 74.8 STEM reasoning strong
AI2D 89.0 GPT-5 mini 88.2 diagram understanding competitive
CharXiv (RQ) 71.7 Qwen3-VL-235B 66.1 scientific chart and doc reading strong
OCRBench v2 63.2 Qwen3-VL-32B 68.4 OCR is not uniformly best
OmniDocBench v1.5 81.2 GPT-5 mini 77.0, Qwen3-VL-32B 83.1 strong but not dominant on every doc task

language 쪽에서 중요한 숫자는 아래다.

Benchmark EXAONE 4.5 Comparison point Reading
AIME 2026 92.6 K-EXAONE 92.2, GPT-5 mini 92.4 reasoning strong
LiveCodeBench v6 81.4 K-EXAONE 80.7, GPT-5 mini 78.1 best among compared models
MMLU-Pro 83.3 GPT-5 mini 83.3, Qwen3-VL-235B 83.8 stable general reasoning
KMMLU-Pro 67.6 K-EXAONE 67.3, Qwen3-VL-235B 71.1 Korean text reasoning respectable
KoBALT 52.1 K-EXAONE 61.8 Korean is not uniformly strong
AA-LCR 50.6 GPT-5 mini 68.0, Qwen3.5 67.3 256K support does not mean top long-context score

논문 본문은 weighted average over tau2-Bench subsets 기준으로 EXAONE 4.5가 72.0 을 기록해 Qwen3-VL-235B-A22B 의 57.0 을 크게 앞선다고 설명한다. 또한 IFBench 와 IFEval 에서도 Qwen3-VL-235B-A22B 보다 높다.

5-2. What really matters in the experiments

1) 이 모델의 강점은 “균형” 이 아니라 “방향성 있는 편향” 이다

EXAONE 4.5는 모든 benchmark 를 압도하는 모델로 읽는 순간 오히려 논문의 핵심을 놓친다. 이 모델의 강점은 문서, STEM, code reasoning, chart-like structured understanding 쪽에 분명한 bias 를 갖고 설계되었다는 데 있다.

2) document understanding 강점은 실제로 보이지만, 모든 세부 benchmark 를 휩쓸지는 않는다

AI2D 와 CharXiv 에서는 강하지만, OCRBench v2 와 OmniDocBench v1.5 에서는 Qwen3-VL 계열이 더 높다. 즉 “document AI 에 강하다” 는 말은 맞지만, 그걸 곧바로 universal DocAI dominance 로 해석하면 과하다.

3) 33B dense model이 236B급 모델들과 붙는 방식이 중요하다

이 보고서의 인상적인 지점은 단순 최고점보다도, 33B dense model이 data bucket 설계와 post-training recipe 로 236B급 MoE 와 경쟁한다는 데 있다. 특히 LiveCodeBench v6 81.4 는 이런 메시지를 가장 잘 보여준다.

4) 256K context 는 benchmark win 보다 infra success 에 가깝다

256K 지원 자체는 분명 강한 engineering achievement 다. 하지만 AA-LCR 50.6 은 frontier closed model이나 Qwen3.5 계열보다 낮다. 즉 긴 문맥 지원은 “쓸 수 있다” 와 “해당 benchmark 에서 최고다” 를 분리해서 봐야 한다.

5) 이 보고서의 진짜 메시지는 EXAONE 계열의 연속성이다

EXAONE Deep 에서 reasoning 을 만들고, EXAONE 4.0 에서 hybrid reasoning stack 을 만들고, EXAONE 4.5 에서 그걸 vision 쪽으로 확장한다. 이 연속성이 이 논문의 가장 중요한 지점이다. 즉 EXAONE 4.5는 독립 release 보다 reasoning stack 의 multimodalization 으로 읽는 편이 더 정확하다.

6. Limitations

  1. 논문이 직접 적는 한계는 비교적 일반적이다. harmful or biased response, semantically incorrect output, outdated information 같은 standard generative limitation 이 그대로 남아 있다.

  2. 이 보고서는 component 는 많지만 ablation 은 충분히 세밀하지 않다. billion-scale vision encoder, 2-stage pretraining, context extension in SFT, offline preference optimization, multimodal RL 중 무엇이 어느 정도 기여했는지를 분리해서 보기 어렵다.

  3. baseline score parity 도 완전히 보장되지는 않는다. 논문은 official report or model card score 를 우선 쓰고, 없을 때는 internal evaluation 을 사용한다고 밝힌다. 따라서 decoding config 와 evaluation environment 차이가 남을 수 있다.

  4. document understanding 이 모든 benchmark 에서 최고인 것은 아니다. OCRBench v2 와 OmniDocBench v1.5 는 strong but not dominant 로 읽는 편이 맞다.

  5. open-weight 라는 표현만 보고 바로 실서비스 투입을 상정하면 안 된다. 공식 license 는 NC 이기 때문에 상업적 활용과 redistribution 조건을 별도로 확인해야 한다.

  6. Korean capability 도 축마다 다르다. multimodal Korean benchmark 에서는 similar-size baseline 대비 강한 편이지만, text-only Korean benchmark 에서는 K-EXAONE 이 더 높은 축도 있다.

7. My Take

7-1. Why this matters for my work

  • 내가 이 논문을 높게 보는 이유는 Document AI 와 OCR workload 에 가까운 multimodal recipe 를 비교적 솔직하게 드러내기 때문이다.
  • 실제 서비스에서는 generic image chat 보다 document parsing, chart QA, OCR, long context, Korean enterprise data가 더 중요할 때가 많다.
  • EXAONE 4.5는 그 점에서 범용 VLM 하나보다 domain-routed multimodal system 이라는 관점이 더 강하다.
  • 특히 Korean multimodal content, structured output, long context, tool use가 한 보고서 안에 같이 들어 있다는 점이 국내 실무자에게는 꽤 참고할 만하다.

7-2. Reuse potential

  • 첫째, multimodal pretraining bucket 을 generic image-text 하나로 두지 말고, document, OCR, STEM, chart, Korean domain처럼 capability gap 기준으로 분리하는 접근은 바로 재사용할 수 있다.
  • 둘째, chart and document parsing target 을 HTML, Markdown, JSON 으로 두는 supervision 설계는 Document AI pipeline 에 직접 연결하기 좋다.
  • 셋째, context extension 을 별도 phase 로 떼기보다 SFT 안에 통합하는 발상은 long-context model 운영에서도 참고할 만하다.
  • 넷째, reasoning and non-reasoning dual mode 를 인터페이스로 남겨 두는 것은 product 측면에서 꽤 실용적이다.
  • 다섯째, GQA, hybrid attention, MTP 같이 serving-aware design 을 초기에 같이 넣는 것도 중요하다. 배포를 생각하지 않은 multimodal 구조는 실제 적용 단계에서 다시 병목을 만든다.

7-3. Follow-up papers

  • K-EXAONE Technical Report
  • EXAONE Deep: Reasoning Enhanced Language Models
  • EXAONE 4.0 Technical Report
  • Qwen3.5-Omni Technical Report
  • OCRBench v2
  • OmniDocBench v1.5

8. Summary

  • EXAONE 4.5는 EXAONE 4.0 reasoning backbone 위에 1.2B급 vision encoder를 얹고, document and OCR and STEM and Korean 중심 데이터로 industrial VLM 을 만든 보고서다.
  • 핵심은 encoder grafting 자체보다, 어떤 capability bucket 을 어떤 stage 에서 밀어주는가에 있다.
  • 2-stage multimodal pretraining, unified SFT, offline preference optimization, joint multimodal RL, 256K context extension 이 하나의 연속체로 설계되어 있다.
  • 벤치마크에서는 visual math, chart-like document reading, code reasoning 에서 특히 강하지만, OCR and OmniDocBench and long-context benchmark 에서 모든 경쟁 모델을 압도하는 것은 아니다.
  • 이 논문은 “국내 첫 오픈 웨이트 VLM” 보다, reasoning stack 을 multimodal product stack 으로 확장하는 방법론으로 읽을 때 가장 가치가 크다.

댓글남기기