11 분 소요

0. Introduction

Paper link

최근 Document AI 이야기를 하다 보면 곧바로 거대한 멀티모달 모델로 점프하는 경우가 많지만, 실제 시스템은 여전히 텍스트 인식, 문서 구조 복원, 정보 추출, 배포/서빙이라는 서로 다른 층위를 동시에 설계해야 한다. 이 리포트의 흥미로운 점은, 그 문제를 단일 거대 VLM으로 해결하는 것이 아니라 specialized pipeline + selective LLM use라는 방향으로 푼다는 데 있다.

특히 이 논문은 PP-OCRv5, PP-StructureV3, PP-ChatOCRv4 세 모델/시스템만 소개하는 데서 멈추지 않는다. 코드베이스 구조, inference library, deployment, MCP server까지 함께 다뤄서, “좋은 OCR 모델”보다 LLM 시대의 document AI 인프라를 어떻게 설계할 것인가에 더 가까운 문서가 된다.

이 리포트의 핵심 메시지는 꽤 선명하다. 큰 모델을 버리자는 게 아니라, 큰 모델을 어디에 배치해야 하는지를 다시 정의하자는 것이다. PaddleOCR 3.0은 거대 VLM/LLM을 온라인 OCR 엔진 자체로 쓰기보다, teacher model, auto-labeler, retrieval-backed extractor, fusion module로 배치하고, 실제 인식/파싱의 런타임은 가볍고 특화된 모델로 유지한다.

한 줄 요약: PaddleOCR 3.0은 PP-OCRv5, PP-StructureV3, PP-ChatOCRv4, 그리고 재설계된 inference/deployment stack을 통해, LLM 시대의 OCR은 거대 VLM 하나보다 specialized pipeline과 선택적 LLM 활용의 문제라는 점을 보여주는 기술 보고서다.

이 논문을 지금 볼 가치가 있는 이유는 다음과 같음.

  • 요즘 RAG/LLM 시스템에서 OCR은 단순 전처리가 아니라 지식 수집과 document ingestion의 병목이 되는 경우가 많다.
  • 이 리포트는 OCR 정확도만이 아니라 문서 파싱, KIE, 코드 구조, 서빙, 모바일 배포, MCP 연동까지 함께 다룬다.
  • “범용 VLM이 모든 문서 문제를 대체할 것인가?”라는 질문에 대해, 작고 특화된 모델이 여전히 강한 이유를 꽤 설득력 있게 보여준다.

1. Problem Setting

1-1. Problem definition

  • 이 리포트가 겨냥하는 문제는 단순한 scene text OCR이 아니다. 목표는 현실 문서를 안정적으로 인식하고, 구조화하고, 추출 가능한 형태로 바꾸는 end-to-end document AI stack을 만드는 것이다.
  • 따라서 요구사항도 많다. 다국어 인식, 손글씨, 희귀 문자, 고문헌 같은 OCR 자체의 어려움뿐 아니라, 복잡한 레이아웃, 표/수식/차트/도장, multi-page PDF, reading order 복원, key information extraction까지 함께 처리해야 한다.
  • 여기에 LLM/RAG 시대의 요구까지 붙는다. OCR 결과는 이제 사람이 읽는 문자열이 아니라, 검색 가능한 지식 베이스와 생성 모델의 입력 컨텍스트가 된다.
  • 결국 문제 설정은 “문자 인식률을 조금 더 올리자”가 아니라, 문서 이미지를 LLM이 쓸 수 있는 구조적 자산으로 바꾸는 것에 가깝다.

1-2. Why previous approaches are insufficient

  • 기존 전통적 OCR 파이프라인은 저화질 스캔, 복잡한 배경, 다양한 언어/서체, 문서 구조 복원 같은 현실 문제에서 쉽게 무너진다.
  • 반대로 최근의 범용 VLM은 문서 이해에 강해 보이지만, 비용, 지연시간, 배포 유연성, 디버깅 가능성 면에서 항상 실서비스 친화적이지는 않다.
  • 특히 document parsing은 단순 질의응답과 다르다. 텍스트를 읽는 것만으로는 부족하고, 레이아웃 감지, 항목별 전용 인식기, 읽기 순서 복원, 구조적 출력 포맷이 필요하다.
  • PaddleOCR 2.x 관점에서도 한계가 있었다. 리포트는 기존 inference library가 CLI 파라미터가 한 namespace에 뒤엉켜 있고, 구성 공유/재현성이 약하며, training toolkit과 inference library의 경계가 불명확했다고 지적한다.
  • 결국 이전 접근의 부족함은 모델 하나의 정확도 문제가 아니라, 문서 인식 -> 구조화 -> 정보 추출 -> 배포를 하나의 시스템으로 설계하지 못했다는 데 있다.

2. Core Idea

2-1. Main contribution

  • PaddleOCR 3.0의 핵심 기여는 하나의 새 아키텍처보다 계층 분리된 document AI stack을 제시했다는 데 있다.
  • 첫째, PP-OCRv5가 다국어/손글씨/희귀 문자까지 감당하는 경량 OCR front-end를 맡는다.
  • 둘째, PP-StructureV3가 layout analysis, table/formula/chart/seal recognition, reading order recovery를 담당하며 문서를 JSON/Markdown으로 구조화한다.
  • 셋째, PP-ChatOCRv4가 구조화된 문서와 LLM/VLM을 결합해 key information extraction을 수행한다.
  • 넷째, 이 모든 것을 받치는 새 inference library, codebase 구조, 배포/서빙/MCP까지 함께 제공한다.

2-2. Design intuition

  • 이 리포트의 설계 직관은 꽤 실용적이다. 문서 AI는 “하나의 거대한 모델이 모든 것을 해결한다”보다, 어떤 단계에 어떤 종류의 모델을 둘 것인가의 문제라는 것이다.
  • OCR와 layout parsing은 상대적으로 작고 특화된 모델이 여전히 강하다. 반면 semantic extraction이나 long-context reasoning은 LLM/VLM이 더 유리하다.
  • 그래서 PaddleOCR 3.0은 거대 모델을 배제하지 않는다. 오히려 teacher model, data filtering, auto-labeling, retrieval-backed reasoning, image-text fusion처럼 더 적절한 위치에 배치한다.
  • 이 점이 중요하다. 실제로 PP-OCRv5의 detection/recognition 쪽은 distillation과 ERNIE 기반 데이터 정제의 도움을 받고, PP-ChatOCRv4는 retrieval + LLM + document VLM의 조합으로 돌아간다.
  • 즉 이 리포트는 “작은 모델 vs 큰 모델”의 대립이 아니라, 작은 모델은 런타임, 큰 모델은 supervision과 semantic tail에 배치하는 시스템 설계를 보여준다.

3. Architecture / Method

3-1. Overview

Item Description
Goal OCR, document parsing, KIE, deployment까지 포괄하는 practical open document AI stack을 구축하는 것
Key module PP-OCRv5 + PP-StructureV3 + PP-ChatOCRv4 + 재설계된 inference/deployment stack
Core design principle 인식과 파싱은 특화 모델로, semantic extraction은 LLM/VLM과 결합해 해결
Difference from prior work 모델 성능뿐 아니라 codebase 구조, serving, on-device, MCP까지 함께 제시

3-2. Module breakdown

1) PP-OCRv5

  • PP-OCRv5는 image preprocessing -> text detection -> text line orientation classification -> text recognition의 4단계로 구성된 high-precision OCR pipeline이다.
  • 배포 환경에 따라 server versionmobile version을 나누고, 서버 쪽은 PP-HGNetV2, 모바일 쪽은 PP-LCNetV3 계열을 사용하는 식으로 속도/정확도 trade-off를 조정한다.
  • detection 쪽은 PP-OCRv4 대비 세 가지 축에서 강화된다.
    • backbone을 더 강한 PP-HGNetV2로 교체
    • GOT-OCR2.0 visual encoder를 teacher로 쓰는 distillation
    • ERNIE-4.5-VL 기반 hard case mining과 multilingual augmentation
  • recognition 쪽은 dual-branch 구조가 핵심이다. GTC-NRTR branch가 attention-based training으로 sequence modeling을 보강하고, SVTR-HGNet branch는 CTC 기반의 가벼운 추론을 담당한다. 학습 중에는 전자가 후자를 guide하지만, 추론 시에는 가벼운 branch만 남겨 정확도와 속도를 동시에 챙긴다.
  • 또 이 리포트에서 인상적인 부분은 데이터 구성이다. 손글씨와 희귀 문자 샘플을 ERNIE-4.5-VL로 자동 라벨링/필터링하고, PDF/e-book 파싱 결과를 edit-distance filtering으로 정제해 대규모 학습 데이터를 만든다.
  • 결과적으로 PP-OCRv5는 Simplified Chinese / Traditional Chinese / Chinese Pinyin / English / Japanese를 하나의 모델 안에 통합하면서도, 논문 기준으로 모델 크기를 100MB 이하 수준으로 유지한다.

2) PP-StructureV3

  • PP-StructureV3는 문서를 JSON/Markdown 형태의 구조적 표현으로 바꾸는 multi-model pipeline이다.
  • 전체 흐름은 preprocessing -> OCR -> layout analysis -> document item recognition -> postprocessing으로 이어진다.
  • 여기서 가장 중요한 부분은 layout analysis다. 단순 layout detection만 하는 것이 아니라,
    • PP-DocLayout-plus로 복잡한 문서 레이아웃을 감지하고,
    • 별도의 layout region detection으로 하나의 페이지 안에 여러 기사/섹션이 섞인 상황을 분리해,
    • 이후 reading order 복원 에러를 줄인다.
  • document item recognition 단계도 일반적인 OCR 파이프라인보다 훨씬 넓다.
    • PP-TableMagic: 표 방향/프레임 분류, cell detection, structure recognition으로 HTML 구조 복원
    • PP-FormulaNet_plus: 수식 이미지를 LaTeX로 변환
    • PP-Chart2Table: 차트 이미지를 markdown table로 변환
    • PP-OCRv4_seal: 곡선 텍스트를 포함한 도장 인식
  • 특히 PP-Chart2Table은 별도 문장 없이 지나치기 아까운 구성이다. 이 모듈은 chart understanding을 위해 Shuffled Chart Data Retrieval task, token masking, synthetic data pipeline, RAG with high-quality seeds, LLM persona design, two-stage distillation을 결합한다. 즉 PaddleOCR 3.0은 “차트도 결국 읽을 수 있어야 한다”는 현실적인 document AI 요구를 꽤 정면으로 다룬다.
  • 마지막 post-processing에서는 요소 간 관계를 복원하고, figure/table caption 연결과 reading order recovery를 수행한다. 논문은 여기서 X-Y Cut 개선판을 사용해 잡지, 신문, 세로쓰기 문서 같은 복잡한 레이아웃에 대응한다고 설명한다.

3) PP-ChatOCRv4

  • PP-ChatOCRv4는 document KIE 솔루션이다. 핵심은 문서 QA를 곧바로 거대 VLM 하나에 던지는 대신, text route와 image route를 병렬로 구성한 뒤 fusion하는 것이다.
  • text route는 대략 다음 순서다.
    • PP-Structure 기반 문서 파싱
    • 파싱된 텍스트로 vector DB 구성
    • retrieval된 텍스트를 prompt에 넣어 ERNIE 4.5로 정보 추출
  • image route는 PP-DocBee2 (3B) 가 질문을 받은 문서 이미지에서 직접 답을 생성한다.
  • 마지막으로 두 route의 결과를 result fusion 모듈이 합쳐 최종 답을 만든다.
  • 이 구조는 꽤 실용적이다. 텍스트로 충분히 풀리는 질문은 retrieval-backed LLM이 처리하고, 레이아웃/시각 정보가 본질적인 질문은 문서 지향 VLM이 보완한다.
  • 즉 PP-ChatOCRv4의 진짜 기여는 “더 큰 모델”보다, 문서 구조화 + retrieval + language model + document VLM을 어떻게 조합할 것인가에 있다.

4) Codebase architecture and deployment

  • 이 기술 보고서가 재미있는 이유 중 하나는, 모델 얘기만 하고 끝나지 않는다는 점이다.
  • PaddleOCR 3.0의 codebase는 model training toolkitinference library를 분리하고, 그 아래를 다시 interface layer / wrapper layer / foundation layer로 나눈다.
  • foundation layer는 PaddleX 3.0 위에 올라가고, 이 구조 덕분에 inference optimization과 deployment 기능을 자연스럽게 흡수한다.
  • interface layer는 backward-compatible Python API와 새 CLI subcommand를 제공하고, wrapper layer는 pipeline/model wrapper와 config-based 실행 방식을 제공한다.
  • 이런 구조적 정리는 단순 리팩터링이 아니라, 재현성, 유지보수성, 배포 용이성을 높이는 방향이다. 특히 기존 PaddleOCR 2.x가 안고 있던 global argument namespace와 training/inference 경계 문제를 직접 겨냥하고 있다.

4. Training / Data / Recipe

4-1. Data

  • PP-OCRv5 detection은 데이터 측면에서 꽤 공격적이다. 리포트에 따르면 ERNIE-4.5-VL 비교를 이용한 hard case mining, 그리고 multilingual random synthesis, rotation, blurring, geometric transform 같은 augmentation이 포함된다.
  • recognition 데이터는 더 흥미롭다.
    • 손글씨 샘플은 기존 모델과 ERNIE-4.5-VL-424B-A47B를 함께 이용해 자동 라벨링/필터링하고,
    • 희귀 문자는 synthesis로 보강하며,
    • PDF/e-book을 자동 파싱한 뒤 edit-distance filtering으로 대규모 라벨 데이터를 만든다.
  • 즉 PP-OCRv5의 개선은 backbone 교체만이 아니라, large model을 supervision engine으로 사용한 data factory에 크게 기대고 있다.
  • PP-StructureV3는 하나의 통합 데이터셋이나 통합 학습 recipe보다, 각 item recognizer별 데이터/학습 설계가 더 중요해 보인다.
    • formula recognition은 token length를 2560까지 늘리고 복잡한 수식 데이터를 추가한다.
    • 중국어가 들어간 수식도 별도로 대량 수집해 학습한다.
    • chart parsing은 synthetic chart data 생성, RAG seed 활용, persona 설계, OOD unlabeled data distillation까지 사용한다.
  • PP-ChatOCRv4는 end-to-end training recipe를 상세하게 공개하기보다, parsed text retrieval + prompt engineering + image-based document VLM + fusion이라는 운영 구조를 강조한다.

4-2. Training strategy

  • PP-OCRv5 detection은 teacher-student distillation과 data augmentation이 중심이다. 단순히 작은 detector를 직접 학습시키기보다, 강한 teacher의 feature를 활용해 robustness를 끌어올린다.
  • recognition은 guided training 성격이 강하다. attention-based branch가 sequence understanding을 담당하고, lightweight branch가 추론 효율을 맡는 구조는 “train heavy, infer light”의 전형적인 설계다.
  • PP-StructureV3는 end-to-end 하나의 거대 파서라기보다, specialist ensemble이다. layout, formula, chart, seal, table을 각기 다른 강한 모듈로 푼다.
  • PP-Chart2Table의 경우 training story가 특히 선명하다. synthetic data pipeline과 two-stage distillation까지 설명하는 걸 보면, PaddleOCR 팀은 차트 파싱도 단순 OCR의 연장이 아니라 작은 VLM을 위한 별도 task design 문제로 보고 있다.
  • PP-ChatOCRv4는 training보다 system orchestration이 핵심이다. retrieval로 텍스트 경로를 좁히고, prompt engineering으로 LLM extraction을 안정화하며, VLM 결과와 최종 fusion하는 구조다.

4-3. Engineering notes

  • PaddleOCR 3.0은 학습/평가/export를 one-command workflow로 정리하려고 한다.
  • inference library는 argument-only 방식뿐 아니라 config file 기반 설정도 지원해서, 파이프라인 재현성과 이식성을 높인다.
  • high-performance inference는 enable_hpi 스위치로 활성화할 수 있고, 내부적으로 Paddle Inference, OpenVINO, ONNX Runtime, TensorRT 등을 상황에 따라 선택한다.
  • serving은 FastAPI 기반 basic servingTriton 기반 high-stability serving으로 나뉘고, on-device deployment는 Paddle-Lite와 연결된다.
  • 추가로 MCP server를 제공해 OCR/PP-StructureV3 pipeline을 MCP-compatible host에 tool로 연결할 수 있게 한 점도 실무적으로 흥미롭다.

5. Evaluation

5-1. Main results

Module Benchmark / Setting What the paper reports
PP-OCRv5 17 OCR scenarios, 1-EditDist 평균 1-EditDist 기준으로 테스트된 OCR/VLM 계열 중 가장 높은 성능을 보고하며, 비정형 손글씨에서는 이전 모델 대비 오류율 26% 감소를 주장함
PP-StructureV3 OmniDocBench, Edit (lower is better) EN/ZH에서 0.145 / 0.206을 기록하며, MinerU-1.3.11 (0.166 / 0.310), Gemini 2.5 Pro (0.148 / 0.212), Qwen2.5-VL-72B (0.214 / 0.261), GPT-4o (0.233 / 0.399)보다 낮은 edit를 보고함
PP-ChatOCRv4 Custom 638 docs / 1,196 QA pairs, Recall@1 85.55%를 기록하며 GPT-4o 63.47%, PP-ChatOCRv3 70.08%, Qwen2.5-VL-72B 80.26%보다 높게 보고됨
Deployment NVIDIA Tesla T4, HPI enabled PP-OCRv5_mobile_rec latency 73.1% 감소, PP-OCRv5_mobile_det latency 40.4% 감소를 보고함
  • PP-OCRv5 쪽에서 가장 중요한 메시지는, 0.07B 수준의 OCR 모델이 범용 거대 VLM보다 평균 OCR metric에서 더 강할 수 있다는 점이다.
  • PP-StructureV3는 더 인상적이다. OmniDocBench에서 pipeline tools뿐 아니라 expert VLM, general VLM과 비교했을 때도 낮은 edit를 보고한다.
  • PP-ChatOCRv4는 “파싱된 텍스트 기반 retrieval + LLM + image-based VLM fusion”이 단일 대형 VLM 호출보다 document KIE에서 유리할 수 있음을 보여준다.
  • deployment 결과까지 넣었다는 점도 좋다. 이 리포트는 성능 보고서인 동시에 production-readiness 보고서이기도 하다.

5-2. What really matters in the experiments

  • 이 실험에서 진짜 중요한 것은 단순 leaderboard가 아니다. PaddleOCR 3.0은 전반적으로 specialized front-end가 여전히 유효하다는 메시지를 준다.
  • PP-OCRv5와 PP-StructureV3 결과는 “문서 인식/파싱을 전부 거대 VLM 하나로 처리하는 것”이 항상 최적은 아니라는 점을 보여준다.
  • 또 metric을 구분해서 읽어야 한다. PP-OCRv5는 1-EditDist, PP-StructureV3는 Edit, PP-ChatOCRv4는 Recall@1을 쓴다. 각 모듈이 푸는 문제가 다르므로 성능을 한 축으로 뭉뚱그리면 해석이 꼬인다.
  • 실험에서 더 흥미로운 건, 리포트 전반이 “큰 모델이 필요 없다”는 이야기를 하지 않는다는 점이다. 오히려 큰 모델을 teacher / labeler / reasoner로 쓰고, 런타임은 작게 유지하는 설계가 성능과 효율을 동시에 만든다는 걸 보여준다.
  • 실무 관점에선 deployment 실험도 꽤 중요하다. 문서 AI는 accuracy만으로 끝나지 않고 latency, throughput, hardware compatibility를 같이 봐야 하기 때문이다.

6. Limitations

  1. 평가셋의 외부 검증성이 제한적이다. PP-OCRv5의 대표 비교는 self-built evaluation set을 사용하고, PP-ChatOCRv4도 638개 문서 / 1,196개 QA의 custom benchmark 위에서 평가된다. 따라서 강한 숫자들은 의미가 있지만, 외부 독립 벤치마크에서의 재현성은 따로 봐야 한다.
  2. 리포트가 넓고, ablation은 상대적으로 얕다. distillation, ERNIE 기반 data filtering, region detection, reading order post-processing, retrieval, result fusion 등 개선 포인트가 많은데, 각각이 성능에 얼마나 기여했는지까지 세밀하게 분해되진 않는다.
  3. “가볍다”는 메시지의 적용 범위를 구분해야 한다. PP-OCRv5와 PP-StructureV3 쪽은 확실히 소형/경량의 장점이 강하지만, PP-ChatOCRv4는 ERNIE 4.5와 PP-DocBee2 3B를 함께 쓰는 hybrid stack이다. 즉 PaddleOCR 3.0 전체를 통째로 “sub-100M system”으로 읽으면 오해가 생긴다.
  4. 완전한 재현성의 관점에서는 내부 모델 의존성이 남아 있다. PP-OCRv5 데이터 구축/필터링 단계에서 ERNIE-4.5-VL 같은 내부 대형 모델이 중요한 역할을 하므로, open runtime과 fully open recipe는 엄밀히 동일하지 않다.
  5. multi-model pipeline의 운영 복잡도도 비용이다. 정확도와 디버깅 가능성은 좋아질 수 있지만, 모듈 orchestration, failure propagation, component versioning을 같이 관리해야 한다.

7. My Take

7-1. Why this matters for my work

  • 내가 이 리포트를 좋게 본 이유는, OCR을 “옛날 CV 문제”가 아니라 LLM/RAG 시스템의 ingestion infrastructure로 다시 정의하기 때문이다.
  • 요즘 많은 멀티모달 논문이 end-to-end 모델의 능력을 강조하지만, 실제 서비스에서는 여전히 파싱 가능성, 추적 가능성, 배포 가능성이 중요하다. PaddleOCR 3.0은 그 현실을 잘 반영한다.
  • 특히 perception / structure / semantic extraction을 분리하는 사고방식은 LLM 시스템 설계에도 그대로 연결된다. 모든 걸 한 모델에 몰아넣는 대신, 어느 단계의 실패를 어디서 교정할 것인가를 설계하게 만든다.

7-2. Reuse potential

  • 재사용 포인트가 꽤 많다.
    • large model as supervision engine: teacher distillation, auto-labeling, hard case mining
    • layout region detection + reading order recovery: 문서 파싱에서 매우 실용적인 조합
    • retrieval-backed text path + visual fallback: document QA/KIE에 바로 이식 가능한 구조
    • inference/deployment abstraction: 모델 논문보다 실제 시스템 설계 문서로 읽을 가치가 큼
  • 특히 PP-ChatOCRv4의 text route와 image route를 분리한 구조는, 앞으로 document agent나 enterprise RAG를 만들 때 꽤 참고할 만하다. 먼저 파싱된 텍스트로 해결하고, 안 되는 경우에만 이미지 reasoning으로 넘어가는 식의 비용 제어 전략이 자연스럽다.
  • 다만 training recipe를 그대로 재현하려면 내부 모델 의존성과 데이터 팩토리 비용을 같이 감수해야 한다. 그래서 “그대로 복제”보다는 아이디어를 추출해서 자기 파이프라인에 이식하는 식으로 읽는 편이 낫다.

7-3. Follow-up papers

  • PP-StructureV2: A Stronger Document Analysis System
  • OmniDocBench
  • GOT-OCR 2.0
  • PP-DocBee2

8. Summary

  • PaddleOCR 3.0은 OCR 성능 보고서라기보다 document AI system report에 가깝다.
  • 핵심은 PP-OCRv5, PP-StructureV3, PP-ChatOCRv4를 계층적으로 연결해 인식 -> 구조화 -> 추출을 분리했다는 점이다.
  • 이 리포트는 범용 거대 VLM을 부정하지 않고, teacher/labeler/reasoner로 재배치하는 방식으로 활용한다.
  • 실험은 specialized small models가 여전히 OCR/document parsing에서 매우 강하다는 점을 보여주고, deployment 숫자까지 함께 제시한다.
  • 결국 이 논문이 던지는 메시지는, LLM 시대의 OCR은 모델 하나의 문제가 아니라 pipeline design의 문제라는 것이다.

댓글남기기