Skip to content
logo

OmniDocBench로 측정한 PDF 파서별 파싱 성능 - 텍스트, 테이블, 수식, 읽기 순서

2026-03-267 min read·
#pdf-parser
#benchmark
#omnidocbench
#document-ai
#rag
#mineru
#docling
#marker

OmniDocBench(CVPR 2025)로 MinerU, Docling, Marker 3개 파서의 요소별 파싱 성능을 측정한다. 텍스트 정확도, 테이블 TEDS, 수식 인식, 읽기 순서를 분리하여 평가하며, MinerU가 텍스트/테이블/읽기순서에서 압도적 1위, Marker는 수식에서 강점을 보인다.

Summary

OmniDocBench(CVPR 2025)에서 93개 샘플로 MinerU, Docling, Marker의 요소별 파싱 성능을 측정했다. MinerU가 텍스트, 테이블, 읽기 순서에서 1위, Marker는 수식에서 강점. Docling은 이미지 기반 파싱에서 OCR 한계.

왜 OmniDocBench인가

이전 글들에서 READoc 벤치마크(Edit Similarity)로 파서를 비교했지만, 이 메트릭은 전체 텍스트 유사도만 측정한다. 테이블 구조가 정확한지, 수식이 LaTeX로 변환되었는지, 읽기 순서가 맞는지는 알 수 없다.

OmniDocBench(CVPR 2025)는 이 한계를 해결한다:

  • 텍스트: Normalized Edit Distance
  • 테이블: TEDS (Tree Edit Distance-based Similarity) — HTML 트리 구조 비교
  • 수식: Edit Distance (LaTeX 비교)
  • 읽기 순서: 요소 순서 Edit Distance

벤치마크 데이터

항목내용
데이터셋OmniDocBench v1.5
전체1,355 페이지, 9종 문서, 영어+중국어
샘플93개 (문서 유형별 균등 샘플링, seed=42)
입력JPG 페이지 이미지 (PDF 아님)
GTJSON (텍스트, 테이블 HTML, 수식 LaTeX, 읽기 순서)
평가 도구OmniDocBench 공식 evaluator

이미지 기반 = OCR 필수

OmniDocBench는 PDF가 아닌 이미지를 입력으로 사용한다. 따라서:

  • PyMuPDF4LLM, LiteParse → 이미지 파싱 불가 (PDF 텍스트 추출 방식)
  • MinerU, Docling, Marker → 이미지 OCR 가능 (이 3개만 테스트)

테스트 환경

항목스펙
머신Apple Silicon Mac
MinerUv2.7.6, pipeline 백엔드, MPS — 70/93 성공 (파일명 충돌로 23개 누락)
Doclingv2.81.0, CPU — 91/93 성공
Markerv1.10.1, CPU — 90/93 성공 (단일 이미지라 토큰 제한 문제 거의 없음)
평가OmniDocBench 공식 evaluator (quick_match)

메트릭 설명

결과를 보기 전에 각 메트릭의 의미를 이해해야 한다.

Normalized Edit Distance (텍스트, 수식, 읽기 순서)

Edit Distance = Levenshtein Distance(예측, 정답) / max(len(예측), len(정답))
  • 범위: 0.0 ~ 1.0
  • 0.0 = 완벽 (예측과 정답이 동일)
  • 1.0 = 최악 (완전히 다름)
  • 0.073 = 텍스트의 7.3%만 틀림 → 매우 좋음
  • 0.607 = 텍스트의 60.7%가 틀림 → 매우 나쁨

직관적으로 1 - Edit Distance를 정확도로 생각할 수 있다: 0.073이면 92.7% 정확.

TEDS (Tree Edit Distance-based Similarity) — 테이블

테이블의 HTML 트리 구조를 비교한다. 단순 텍스트 비교가 아니라 <tr>, <td>, rowspan, colspan 등의 트리 구조적 유사도를 측정한다.

  • 범위: 0.0 ~ 1.0
  • 1.0 = 완벽 (테이블 구조+내용 완전 일치)
  • 0.0 = 최악
  • 0.633 = 테이블의 63.3%를 정확히 재현 → 괜찮음
  • 0.300 = 30%만 맞음 → 나쁨

TEDS-S (Structure Only)

TEDS와 같지만 셀 내용은 무시하고 구조만 비교한다. rowspan, colspan, 행/열 수가 맞는지만 본다. TEDS보다 항상 같거나 높다.

OmniDocBench 리더보드 기준

공식 리더보드의 상위 파서들 점수 (참고용):

파서Overall비고
PaddleOCR-VL92.86상용, 리더보드 1위
MinerU 2.590.67전체 1,355페이지 기준
Qwen3-VL-235B89.15235B VLM

우리 테스트는 93개 샘플이므로 공식 리더보드와 직접 비교는 불가능하지만, 상대적 순위를 파악하기에 충분하다.


결과

OmniDocBench 요소별 성능 레이더 차트

요소별 비교

요소메트릭MinerUMarkerDocling최고해석
텍스트Edit Dist ↓0.0730.2200.607MinerUMinerU 92.7% 정확, Docling 39.3%
수식Edit Dist ↓0.4210.258-MarkerMarker 74.2% 정확, MinerU 57.9%
테이블TEDS ↑0.6330.5620.300MinerUMinerU 63.3% 구조+내용 일치
테이블 구조TEDS-S ↑0.6700.6510.469MinerU내용 무시시 MinerU와 Marker 비슷
읽기 순서Edit Dist ↓0.0920.2300.395MinerUMinerU 90.8% 정확

↓ = 낮을수록 좋음 (0이 완벽), ↑ = 높을수록 좋음 (1이 완벽)

Overall Score 계산

OmniDocBench 공식 리더보드 공식: ((1 - Text_ED) × 100 + Table_TEDS × 100 + Formula_CDM) / 3

CDM 환경이 없어 (1 - Formula_ED) × 100으로 근사:

파서텍스트 점수테이블 점수수식 점수Overall해석
MinerU92.763.357.971.3텍스트/테이블 강함, 수식 보통
Marker78.056.274.269.5수식 강함, 나머지 보통
Docling39.330.0023.1이미지 OCR에서 전반적 약함

참고: 공식 리더보드에서 MinerU 2.5는 전체 데이터 기준 90.67점이다. 우리 테스트에서 71.3점인 이유는 (1) 93개 샘플만 사용, (2) CDM 대신 근사 사용, (3) MinerU 2.7.6과 2.5 모델 차이 때문이다.


분석

MinerU가 강한 이유

MinerU의 Pipeline 백엔드는 각 요소에 전용 모델을 사용한다:

  • 텍스트: PytorchPaddleOCR (109개 언어, PyTorch 재구현)
  • 테이블: PP-LCNet 분류 → SLANET+ / UNet 구조 인식
  • 수식: YOLOv8 MFD 감지 → UniMERNet 인식
  • 레이아웃: DocLayout-YOLO (YOLOv10)

이 다단계 파이프라인이 이미지 기반 파싱에서 강력한 성능을 보인다.

Marker의 수식 강점

Marker(Surya OCR)는 수식 인식에서 MinerU를 앞섰다 (0.258 vs 0.421). Surya의 Recognition 모델이 수식 텍스트를 LaTeX로 변환하는 능력이 UniMERNet보다 좋을 수 있다.

Docling의 한계

Docling은 이미지 기반 파싱에서 전반적으로 낮은 점수를 보였다. EasyOCR의 OCR 정확도가 PaddleOCR(MinerU)이나 Surya(Marker)보다 약한 것이 원인으로 보인다. Docling의 강점은 PDF 텍스트 추출(READoc 74.3%)이지 이미지 OCR이 아니다.


이미지 추출 비교 (OmniDocBench에 없는 항목)

OmniDocBench는 텍스트/테이블/수식/읽기순서만 평가하고, 이미지(Figure) 추출 정확도는 측정하지 않는다. OmniDocBench GT에 figure 어노테이션(1,249개)이 있지만 공식 evaluator에 이미지 메트릭이 없다.

READoc 92개 문서에서 각 파서가 Markdown에 삽입한 이미지 참조(![) 수를 세어 간접 비교했다:

파서이미지 참조 수 (92문서 합계)방식
MinerU506레이아웃 감지(YOLO)로 Figure 영역 추출 → JPG 저장
Marker172Surya 레이아웃으로 Figure 감지 → JPEG 저장
PyMuPDF4LLM3 (기본값은 0)PDF 내장 이미지 직접 추출 (write_images=True 필요)
Docling0기본 Markdown export에 이미지 미포함
LiteParse0이미지 추출 기능 없음

이 수치는 "얼마나 많이 추출했는가"이지 "얼마나 정확하게 추출했는가"는 아니다. 잘못된 영역을 이미지로 추출하면 수치만 높아진다. 정확한 평가는 GT figure 바운딩박스와 추출된 이미지의 IoU를 비교해야 하지만, 이는 현재 벤치마크 범위를 벗어난다.

관찰:

  • MinerU가 가장 적극적으로 이미지를 추출한다 (YOLO 레이아웃 감지의 ImageBody 카테고리)
  • Marker도 이미지를 추출하지만 MinerU의 1/3 수준
  • PyMuPDF4LLM은 설정을 켜야 하고, Docling/LiteParse는 기본 Markdown에 이미지가 없다
  • RAG 시스템에서 이미지 정보가 중요하다면 MinerU나 Marker를 선택해야 한다

READoc vs OmniDocBench 비교

두 벤치마크에서 파서 순위가 다르다:

파서READoc (PDF 텍스트)OmniDocBench (이미지 OCR)
MinerU77.2% (1위)71.3 (1위)
Marker80.6%* (성공분 최고)69.5 (2위)
Docling74.3% (3위)23.1 (3위)

*Marker READoc 성공률 34%

핵심 발견:

  • MinerU는 PDF 텍스트와 이미지 OCR 모두 안정적으로 1위
  • Marker는 PDF에서 성공하면 최고지만 실패율이 높고, 이미지에서도 강하지만 2위
  • Docling은 PDF 텍스트에서 강하지만 이미지 OCR에서는 취약

용도별 추천

상황추천 파서이유
스캔 문서 / 이미지 PDFMinerUOCR 성능 압도적
텍스트 기반 PDF, 상용 프로젝트Docling (MIT)라이선스 자유, PDF 텍스트에서 강함
수식 많은 학술 논문Marker (짧은 문서)수식 인식 최고, 단 안정성 주의
대량 배치 처리Docling 또는 PyMuPDF4LLM속도 + 안정성

정리

OmniDocBench로 요소별 파싱 성능을 분리 측정한 결과, MinerU의 다단계 전용 모델 파이프라인이 이미지 기반 파싱에서 가장 강력함을 확인했다. 특히 텍스트(0.073), 읽기 순서(0.092)에서 2위 대비 3배 이상의 격차를 보였다.

다만 이 결과는 이미지 입력 기준이다. PDF 텍스트 추출에서는 Docling, PyMuPDF4LLM도 충분히 좋은 성능을 보이므로, 사용 사례에 따라 적절한 파서를 선택해야 한다.


참고

Linked from (1)

Comments