DeepSeek-OCR: Contexts Optical Compression Review
0. Introduction
DeepSeek-OCR이 던지는 흥미로운 질문은 정확히 문서를 얼마나 잘 읽느냐가 아니라, 긴 텍스트를 2D 시각 표현으로 압축한 뒤 다시 복원할 수 있느냐다. 즉 OCR을 단순 인식 문제가 아니라, LLM long-context 비용 문제를 검증하기 위한 compression-decompression testbed로 재정의한다.
이 프레이밍이 흥미로운 이유는 명확하다. 요즘 long-context 논의는 대개 attention 효율화나 memory architecture 쪽으로 흘러가는데, 이 논문은 아예 “텍스트를 계속 텍스트로 들고 있을 필요가 있는가?”를 묻는다. 문서를 이미지로 렌더링하면, 원래 수백~수천 개의 text token이 필요하던 내용을 훨씬 적은 수의 vision token으로 들고 갈 수 있다. 그리고 그 압축이 어느 정도까지 유효한지를 OCR precision으로 계량한다.
또 한 가지 인상적인 점은, 이 논문이 아이디어 수준의 speculative essay에 그치지 않는다는 것이다. DeepSeek-OCR은 실제 문서 OCR/파싱 모델로도 돌아가고, OmniDocBench 기준 practical performance도 제시하며, 대규모 LLM/VLM용 pretraining data production 도구로서의 가치도 함께 강조한다. 그래서 이 논문은 “OCR 성능 보고서”보다 token budget-aware document VLM 설계 문서로 읽는 편이 맞다.
한 줄 요약: DeepSeek-OCR은 OCR을 long-context optical compression의 proof-of-concept로 재해석하고, SAM + 16x compressor + CLIP + 3B MoE decoder 조합의 DeepEncoder/decoder 구조를 통해 적은 vision token으로 문서 정보를 얼마나 복원할 수 있는지를 정량화한 기술 리포트다.
이 논문을 지금 볼 가치가 있는 이유는 다음과 같음.
- long-context 문제를 attention 최적화가 아니라 modality 변환으로 푼다는 점에서 발상이 다르다.
- 문서 AI 관점에서는 OCR 정확도보다 더 중요한 vision token budget, activation memory, multi-resolution support를 같이 다룬다.
- 실제로는 OCR 리포트지만, 연구 관점에서는 VLM encoder 설계와 LLM memory/forgetting 메커니즘 쪽으로 이어질 수 있는 아이디어가 많다.
내가 보기엔 이 논문의 핵심은 “DeepSeek-OCR가 강하다”보다, 문서를 읽는 모델과 긴 문맥을 다루는 모델을 분리해서 생각할 필요가 없을 수도 있다는 데 있다. OCR은 여기서 끝이 아니라, optical compression이라는 더 큰 문제를 검증하는 가장 측정 가능한 시작점이다.
1. Problem Setting
1-1. Problem definition
- 이 논문이 겨냥하는 핵심 문제는 LLM이 긴 텍스트를 처리할 때 드는 비용이 너무 크다는 점이다.
- 텍스트 시퀀스는 길어질수록 attention 비용이 커지고, 실제 시스템에서는 prefill latency와 memory pressure가 빠르게 증가한다.
- 저자들은 여기서 다른 질문을 던진다. “문서를 텍스트로 직접 넣지 말고 이미지로 압축하면 어떨까?” 즉, text token을 vision token으로 치환해 더 작은 표현으로 저장한 뒤, 필요할 때 다시 텍스트로 decode할 수 있는지를 본다.
- OCR은 이 문제를 다루기에 좋은 테스트베드다. 이미지와 텍스트 사이에 자연스러운 compression-decompression mapping이 있고, 결과도 precision/edit distance 같은 지표로 비교적 명확하게 측정할 수 있기 때문이다.
- 따라서 이 논문의 문제 설정은 “좋은 OCR 모델 만들기”보다, 문서 텍스트를 optical form으로 압축했을 때 어디까지 정보가 유지되는가를 묻는 데 더 가깝다.
1-2. Why previous approaches are insufficient
- 기존 open-source VLM encoder들은 이 목적에 딱 맞지 않는다.
- dual-tower 계열은 고해상도 처리에 유리할 수 있지만, 이중 전처리와 encoder pipeline parallelism의 어려움이 있다.
- tile-based 계열은 activation memory를 줄이지만, native resolution이 낮고 이미지가 과도하게 잘게 쪼개져 vision token 수가 많아지기 쉽다.
- NaViT/adaptive resolution 계열은 유연하지만, 큰 이미지에서 activation memory가 크게 늘고 시퀀스 길이가 길어져 학습/추론 비용이 커진다.
- 기존 end-to-end OCR 연구도 주로 “정확도와 효율의 trade-off”를 다뤘지, N개의 text token을 복원하는 데 최소 몇 개의 vision token이 필요한가를 정면으로 묻지는 않았다.
- 결국 기존 접근의 한계는 OCR 성능 자체보다, high-resolution 처리 + low activation + few vision tokens + multi-resolution support를 한 시스템 안에서 동시에 최적화하지 않았다는 데 있다.
2. Core Idea
2-1. Main contribution
- DeepSeek-OCR의 핵심 기여는 OCR을 contexts optical compression이라는 관점으로 다시 정의한 데 있다.
- 첫째, OCR을 단순 인식이 아니라 vision-token compression study로 다룬다. 즉, 텍스트를 시각적으로 압축했을 때 compression ratio와 decoding precision이 어떻게 바뀌는지를 정량적으로 본다.
- 둘째, 이를 위해 DeepEncoder라는 새 encoder를 설계한다. window attention 중심의 perception stage와 dense global attention 중심의 knowledge stage를 직렬로 연결하고, 그 사이에 16x token compressor를 둔다.
- 셋째, decoder는 DeepSeek-3B-MoE를 사용해 압축된 latent vision token에서 다시 텍스트를 복원한다.
- 넷째, 모델을 하나의 고정 해상도로만 운용하지 않고 Tiny / Small / Base / Large / Gundam / Gundam-M 식의 multi-resolution regime으로 설계해, 연구용 compression study와 실제 문서 파싱을 동시에 지원한다.
- 다섯째, OCR 1.0 / OCR 2.0 / general vision / text-only 데이터를 함께 써서, 단순 free OCR뿐 아니라 layout-aware OCR, chart parsing, formula parsing, geometry parsing, multilingual OCR, 제한된 general vision understanding까지 묶는다.
2-2. Design intuition
- 이 논문의 설계 직관은 꽤 선명하다. 고해상도 문서를 다루려면 초반에는 로컬한 시각 인식이 많이 필요하지만, 그 상태 그대로 dense global attention으로 넘기면 token 수도 activation도 너무 커진다.
- 그래서 DeepSeek-OCR은 먼저 많이 보고, 그다음 강하게 압축한 뒤, 마지막에 전역적으로 이해한다는 순서를 택한다.
- SAM 기반 local/window attention이 먼저 세밀한 시각 패턴을 받아들이고,
- convolutional compressor가 token 수를 16x 줄인 뒤,
- CLIP 기반 global attention이 더 압축된 표현 위에서 전역적 지식을 붙인다.
- 이 구조는 “좋은 encoder 하나”보다, 어느 stage에서 token을 줄일 것인가를 먼저 생각한 설계다.
- 그래서 DeepSeek-OCR을 OCR 모델로만 보기보다, token-budget-aware VLM construction manual로 읽는 편이 더 유익하다.
3. Architecture / Method
3-1. Overview
| Item | Description |
|---|---|
| Goal | 긴 문서 정보를 적은 vision token으로 표현하면서도 OCR/문서 파싱 품질을 유지하는 것 |
| Key module | DeepEncoder (SAM + 16x compressor + CLIP) + DeepSeek-3B-MoE decoder |
| Core design principle | high-resolution local perception 이후 token을 강하게 압축하고, 그 뒤에 dense global attention을 적용 |
| Difference from prior work | OCR 정확도뿐 아니라 compression ratio, activation memory, multi-resolution support를 동시에 최적화 |
3-2. Module breakdown
1) OCR as optical compression
- DeepSeek-OCR의 encoder는 단순 feature extractor가 아니다.
- 이 encoder의 역할은 이미지를 tokenizing하는 동시에, 텍스트를 담고 있는 시각 표현을 강하게 압축하는 것이다.
- decoder는 이 압축된 latent vision token을 받아, 다시 텍스트 표현으로 복원한다.
- 즉 전체 시스템은 image-to-text OCR이지만, 개념적으로는 text -> image-like storage -> text reconstruction에 더 가깝다.
- 이 점이 중요하다. 그래서 이 논문의 실험은 accuracy leaderboard보다 압축률 대비 정보 보존 곡선에 더 큰 의미가 있다.
2) DeepEncoder
- DeepEncoder는 DeepSeek-OCR의 핵심이다.
- 전체 encoder는 약 380M parameters 규모이고, 대략 SAM-base 80M + CLIP-large 300M을 직렬로 연결한 구조다.
- 앞단의 SAM은 window/local attention 중심으로 고해상도 perception을 담당한다.
- 뒷단의 CLIP은 dense global attention으로 더 압축된 표현 위에서 지식과 전역 관계를 붙인다.
- CLIP은 원래 이미지를 직접 받는 patch embedding layer를 제거하고, 앞단에서 나온 token을 입력으로 받도록 바뀐다.
- 두 모듈 사이에는 2-layer convolutional compressor가 들어가며, vision token을 16x downsample한다.
- 예를 들어 1024x1024 이미지는 patch 기준으로 4096 token이 되지만, compressor 뒤에서는 256 token 수준으로 줄어 global attention에 들어간다.
- 이 구조 덕분에 “큰 이미지를 보고도 activation을 감당할 수 있고, 동시에 적은 수의 vision token만 decoder로 넘길 수 있는” operating point가 만들어진다.
3) Multiple resolution support
- 이 논문의 또 다른 핵심은 한 모델이 여러 vision-token budget을 지원하도록 설계했다는 점이다.
- native resolution 모드는 다음과 같다.
- Tiny: 512x512, 64 tokens
- Small: 640x640, 100 tokens
- Base: 1024x1024, 256 tokens
- Large: 1280x1280, 400 tokens
- 여기에 dynamic resolution 모드로 Gundam과 Gundam-M이 추가된다.
- Gundam은 local tiles + global view를 결합해 nx100 + 256 token 형태를 만든다. 특히 신문처럼 해상도는 높고 텍스트 밀도도 높은 문서에 대응하기 위한 모드다.
- Gundam-M은 더 큰 local/global 조합을 쓰는 continued training 버전이다.
- 즉 DeepSeek-OCR은 단순히 “모델 하나”가 아니라, 같은 architecture 위에서 token budget을 가변적으로 운영하는 실험 프레임워크이기도 하다.
4) The MoE decoder
- decoder는 DeepSeek-3B-MoE를 쓴다.
- 추론 시에는 64 routed experts 중 6개 + 2 shared experts를 활성화하며, 활성 파라미터 수는 약 570M 수준이다.
- 저자들의 해석대로 보면, 이 decoder는 3B model의 표현력과 500M급 small model에 가까운 inference 효율 사이의 타협점이다.
- 설계상 포인트는, 복잡한 reconstruction을 아주 큰 dense decoder로 미는 대신, domain-centric OCR/VLM에 맞는 작은 MoE decoder를 붙였다는 점이다.
- 결과적으로 encoder가 information bottleneck을 잘 만들면, decoder는 그 압축 표현을 텍스트로 되돌리는 역할에 집중할 수 있다.
5) Promptable OCR and deep parsing
- DeepSeek-OCR은 단일 free OCR 모델로만 동작하지 않는다.
- prompt를 통해 layout-aware output / non-layout OCR / figure parsing을 제어할 수 있다.
- 특히 저자들이 “deep parsing”이라고 부르는 기능이 흥미롭다. 문서 안의 차트, 화학식, 기하 이미지, 자연 이미지에 대해 2차 model call로 더 깊은 구조화 결과를 뽑는다.
- 이 부분은 그냥 부가 기능이라기보다, OCR 1.0을 넘어 OCR 2.0 / document figure understanding까지 한 interface 안에 넣으려는 시도라고 보는 편이 맞다.
4. Training / Data / Recipe
4-1. Data
-
데이터 엔진은 크게 OCR 1.0 / OCR 2.0 / general vision / text-only 네 축으로 구성된다.
- OCR 1.0 data는 전통적인 문서 OCR과 scene OCR 중심이다.
- 인터넷에서 수집한 PDF 문서 30M pages를 사용하며, 약 100 languages를 포함한다.
- 이 중 중국어/영어가 약 25M pages, 그 외 언어가 5M pages다.
- 문서 데이터는 coarse annotation과 fine annotation 두 종류로 구성된다.
- fine annotation은 중국어/영어 각각 2M pages 규모이며, layout model과 OCR model을 이용해 layout + text가 interleaved된 sequence로 만든다.
- minority language 쪽은 small patch data로 GOT-OCR2.0 스타일 recognition 모델을 학습해 600K data flywheel을 돌린다.
- 추가로 3M Word data를 수집해 layout 없는 고품질 image-text pair도 만든다. 이 데이터는 formula나 HTML table 쪽에 특히 도움이 된다고 적는다.
- 자연 장면 OCR은 중국어/영어 각각 10M 샘플을 사용하며, LAION/Wukong 이미지에 PaddleOCR 라벨을 붙인다.
- OCR 2.0 data는 더 구조적인 artificial image parsing을 겨냥한다.
- chart parsing은 pyecharts와 matplotlib로 10M images를 렌더링한다.
- 이때 OneChart의 dictionary format 대신 HTML table format을 라벨로 써 token을 절약한다.
- chemical formula parsing은 PubChem의 SMILES를 RDKit으로 렌더링해 5M image-text pairs를 만든다.
- plane geometry parsing은 Slow Perception 방식을 따라 1M samples를 만들고, translation-invariant augmentation도 넣는다.
- general vision data는 caption, detection, grounding 같은 작업을 위해 들어간다.
- 다만 중요한 점은, 저자들이 직접 DeepSeek-OCR is not a general VLM model이라고 선을 긋는다는 것이다.
- 이 데이터는 전체의 20%만 차지하며, 목적도 general vision SOTA가 아니라 general vision interface를 보존하는 것이다.
- text-only data도 별도로 들어간다.
- 전체의 10%를 차지하고, 길이는 8192 tokens로 맞춘다.
- 결국 최종 DeepSeek-OCR 학습에서 데이터 비율은 OCR 70% / general vision 20% / text-only 10%다.
4-2. Training strategy
- 학습 파이프라인은 크게 두 단계다.
- DeepEncoder를 독립적으로 학습
- 완성된 DeepEncoder 위에 DeepSeek-OCR 전체를 학습
- DeepEncoder 학습은 Vary를 따라 compact language model + next-token prediction 프레임워크를 사용한다.
- 여기에는 OCR 1.0, OCR 2.0, 그리고 LAION에서 샘플한 100M general data가 들어간다.
-
이 단계는 2 epochs, batch size 1280, AdamW + cosine annealing, learning rate 5e-5, sequence length 4096로 진행된다.
- 이후 DeepSeek-OCR 전체 학습은 HAI-LLM 플랫폼에서 수행된다.
- 전체 모델은 4-way pipeline parallelism으로 나뉜다.
- PP0: SAM + compressor (vision tokenizer, frozen)
- PP1: CLIP part (unfrozen)
- PP2 / PP3: DeepSeek-3B-MoE decoder 12 layers를 6층씩 분할
- 학습 자원은 20 nodes x 8 A100-40G, data parallelism은 40, global batch size는 640이다.
- optimizer는 AdamW, scheduler는 step-based, initial learning rate는 3e-5다.
-
보고된 처리량은 text-only 90B tokens/day, multimodal 70B tokens/day다.
- 연구용 확장 모드인 Gundam-M은 별도 구조가 아니라, 이미 학습된 DeepSeek-OCR 위에서 6M sampled data로 continued training한 버전이다.
- 이 점도 실용적이다. 해상도 모드를 전부 한 번에 키우는 대신, load balancing이 가능한 범위에서 기본 모델을 만들고, 더 무거운 모드는 후속 적응으로 해결한다.
4-3. Engineering notes
- 이 논문은 architecture novelty 못지않게 training/deployment practicality를 강하게 의식한다.
- DeepEncoder 앞단의 SAM과 compressor를 frozen vision tokenizer처럼 쓰고, CLIP 이후부터 학습하는 방식은 꽤 실용적이다. 계산과 안정성을 동시에 잡으려는 선택으로 보인다.
- coarse label과 fine label, layout output과 non-layout output을 prompt로 구분하는 방식도 중요하다. annotation schema 차이를 별도 모델이 아니라 interface 차원에서 흡수한다.
- multi-resolution 지원도 연구용 gimmick이 아니라, 실제 문서 종류별 token budget 조정이라는 practical need와 이어져 있다.
- production 관점의 메시지도 강하다. abstract에서는 single A100-40G로 200k+ pages/day의 data generation 능력을 언급하고, 본문에서는 20 nodes 기준 33M pages/day 규모의 LLM/VLM pretraining data production 가능성을 말한다. 즉 이 모델은 online OCR engine인 동시에 data factory 역할도 의식한 설계다.
5. Evaluation
5-1. Main results
| Setting | What the paper reports | Why it matters |
|---|---|---|
| Fox compression study | 10x 이내 압축에서는 decoding precision이 약 97% 수준까지 가능하고, 20x 근처 압축에서도 약 60%를 유지 | 단순 OCR 정확도보다 compression boundary를 계량화했다는 점이 핵심 |
| OmniDocBench practical OCR | 100 vision tokens로 GOT-OCR2.0(256 tokens)을 넘고, 400 tokens로 강한 비교군에 근접하며, 800 미만 token으로 MinerU2.0(약 7000 tokens)을 앞선다고 보고 | 문서 OCR에서도 token efficiency가 실제 성능과 함께 중요하다는 점을 보여줌 |
| Document-type analysis | 슬라이드는 64 tokens, 책/리포트는 100 tokens로도 괜찮지만, 신문은 Gundam/Gundam-M 수준이 필요 | 문서 종류에 따라 필요한 token budget이 크게 달라짐 |
- Fox benchmark 실험은 이 논문의 핵심 메시지를 가장 직접적으로 보여준다.
- 저자들은 Fox의 English documents 100 pages를 골라, ground-truth text를 tokenizer로 다시 토큰화한 뒤 text token 수가 600-1300인 구간만 따로 평가한다.
- 여기서 Tiny(64 tokens)와 Small(100 tokens) 모드의 precision/compression 곡선을 측정한다.
- 논문이 내리는 결론은 단순하다.
- 10x 전후 압축까지는 상당히 높은 precision을 기대할 수 있고,
- 그 이상에서는 성능이 떨어지지만,
- 20x 가까이 압축해도 완전히 붕괴하지는 않는다.
-
이건 long-context 연구 관점에서 꽤 중요한 신호다. 완전 무손실이 아니어도, 과거 context를 “읽을 수는 있지만 조금 흐린 형태”로 저장할 수 있다는 뜻이기 때문이다.
- OmniDocBench 결과는 practical value를 보여준다.
- 논문 기준으로 보면,
- Small / 100 tokens는 GOT-OCR2.0의 256-token 설정보다 낫고,
- Large / 400 tokens (285 valid)는 강한 end-to-end 비교군에 근접하며,
- Gundam / 795 tokens는 약 6790 tokens를 쓰는 MinerU2.0보다 낮은 edit distance를 보고한다.
-
여기서 중요한 건 headline SOTA보다, 비슷하거나 더 나은 품질을 얼마나 적은 vision token으로 냈는가다.
- qualitative study도 의외로 중요하다.
- DeepSeek-OCR은 차트, 화학식, 기하 이미지, 자연 이미지를 deep parsing 모드로 처리할 수 있고,
- multilingual 쪽에서는 nearly 100 languages를 다룬다고 적는다.
- 또 general vision understanding도 일부 지원한다.
- 이건 “범용 VLM을 대체했다”는 뜻은 아니지만, 최소한 OCR 전용 박스 안에 갇히지 않게 설계했다는 뜻이다.
5-2. What really matters in the experiments
- 이 논문에서 진짜 중요한 지표는 edit distance 자체보다 compression ratio 대비 recoverability다.
- 보통 OCR 모델은 “얼마나 정확한가”만 보면 되지만, DeepSeek-OCR은 거기에 몇 개의 vision token으로 그 정확도를 냈는가가 추가된다.
- 그래서 동일한 OmniDocBench 점수라도, 수천 token을 쓰는 모델과 수백 token을 쓰는 모델은 해석이 다르다.
- 또 Fox 실험은 단순 accuracy benchmark가 아니라, vision token budget을 바꿨을 때 precision이 어떻게 무너지는지를 보여주는 boundary study다.
- 이 점에서 DeepSeek-OCR은 OCR 논문인 동시에, VLM token allocation study이기도 하다.
- 다만 practical OCR benchmark와 long-context compression benchmark는 아직 동일하지 않다. 저자들 스스로도 OCR은 proof-of-concept일 뿐이고, 진짜 context compression 검증은 future work라고 인정한다.
6. Limitations
- OCR만으로 true context compression을 다 검증한 것은 아니다. 저자들도 OCR alone is insufficient하다고 적고, 향후 digital-optical text interleaved pretraining이나 needle-in-a-haystack 평가가 필요하다고 말한다.
- Fox compression study의 범위가 좁다. English document subset, 100 pages, 600-1300 tokens 구간에 한정된 실험이라서, 이것만으로 일반적인 long-context 기억 곡선을 단정하긴 어렵다.
- “좋은 OCR”과 “좋은 long-context memory”는 아직 같은 문제가 아니다. 문서를 이미지로 렌더링해 저장하는 방식이 multi-turn dialogue, code context, tool traces 같은 비문서형 이력에도 잘 작동하는지는 아직 검증되지 않았다.
- general vision capability는 제한적이다. 저자들도 이 모델을 general VLM이 아니라고 분명히 적는다. general vision data는 interface preservation용 20% 정도일 뿐이다.
- 데이터 엔진의 재현 비용이 높다. 30M document pages, OCR 2.0 synthetic data, multilingual flywheel, layout/OCR teacher model 활용 등은 아이디어는 공개돼도 실제로 재구현하려면 상당한 데이터/엔지니어링 비용이 든다.
- benchmark headline은 비교 조건을 조심해서 읽어야 한다. 논문은 주로 end-to-end 모델 안에서의 경쟁력을 강조하므로, classical pipeline OCR이나 proprietary OCR 전체를 한 줄로 정리해 해석하면 과장이 될 수 있다.
7. My Take
7-1. Why this matters for my work
- 내가 이 논문을 흥미롭게 본 이유는, OCR을 다시 LLM systems problem으로 돌려놨기 때문이다.
- 요즘 long-context는 attention kernel, state-space model, retrieval memory 쪽으로 많이 논의되는데, 이 논문은 훨씬 다른 축에서 접근한다. 어차피 오래된 문맥은 완전한 텍스트 fidelity가 꼭 필요하지 않을 수도 있다는 가정이다.
- Document AI 관점에서도 의미가 있다. 보통 OCR/VLM 논문은 읽기 성능만 강조하지만, 실제 문서 시스템은 token budget, latency, activation memory, multi-resolution serving이 더 중요할 때가 많다.
- 그래서 이 논문은 OCR 논문이면서도, VLM encoder design과 memory system design을 동시에 생각하게 만드는 문서다.
7-2. Reuse potential
- 바로 재사용 가능한 포인트가 꽤 많다.
- window attention -> early compression -> global attention이라는 encoder 설계 원리
- single model, multiple token budgets라는 multi-resolution regime
- layout-aware / non-layout / figure parsing을 prompt interface로 분리한 방식
- OCR를 data generation engine으로 보는 관점
- 특히 encoder 설계는 OCR 외에도 document-heavy MLLM에 바로 응용할 수 있다. 고해상도 perception을 먼저 하고, global reasoning은 압축 뒤에 하라는 메시지는 꽤 보편적이다.
- 더 흥미로운 건 long-context memory 쪽이다. 이 논문 마지막의 “forgetting mechanism” 해석은 아직 speculative하지만, 오래된 context를 progressively blurred image로 바꾸는 메모리 계층은 agent 시스템에서도 실험해볼 가치가 있다.
- 다만 전체 recipe를 그대로 복제하기보다는, optical compression이라는 개념을 자기 시스템에 어디까지 이식할 수 있는지를 따져 읽는 편이 낫다.
7-3. Follow-up papers
- GOT-OCR 2.0
- OLMOCR
- Qwen2.5-VL Technical Report
- PaddleOCR 3.0 Technical Report
8. Summary
- DeepSeek-OCR은 OCR을 contexts optical compression의 proof-of-concept로 재해석한 논문이다.
- 핵심은 SAM + 16x compressor + CLIP으로 이루어진 DeepEncoder와 DeepSeek-3B-MoE decoder 조합이다.
- 이 구조는 high-resolution 입력을 감당하면서도 vision token 수를 강하게 줄여, compression ratio와 OCR 품질 사이의 경계를 계량한다.
- practical OCR 관점에서도 적은 vision token으로 강한 OmniDocBench 성능을 보이며, 문서 종류별 token budget 차이도 보여준다.
- 다만 아직은 OCR 기반 초기 탐색에 가깝고, true long-context memory나 general multimodal context compression으로 일반화하려면 후속 검증이 더 필요하다.
댓글남기기