pdf-parser

9 notes

OpenDataLoader PDF v2 - Java 기반 Apache 2.0 PDF 파서2026-03-27

OpenDataLoader PDF v2.1.1의 READoc 벤치마크 결과와 파싱 예시를 분석한다. Java 기반 Apache 2.0 파서로, 72.6% Edit Similarity에 ~3초/문서 속도를 보여주지만, 테이블 구조 보존과 수식 LaTeX 변환에 한계가 있다.

#pdf-parser

Docling - IBM의 MIT 라이선스 문서 파서, 가성비 최강2026-03-26

Docling v2.81.0의 내부 구조를 분석하고 READoc 벤치마크로 성능을 평가한다. IBM Research가 개발한 MIT 라이선스 파서로, Heron 레이아웃 모델과 Granite-Docling VLM을 사용하며, GPU 없이 4.9초/문서에 74.3% Edit Similarity를 달성한다.

LiteParse - LlamaIndex가 오픈소스로 공개한 초경량 PDF 파서2026-03-26

LiteParse는 LlamaIndex가 LlamaParse의 오픈소스 코어로 공개한 TypeScript 기반 PDF 파서다. PDF.js + Tesseract.js로 구현되어 ML 모델 없이 0.1초/문서의 극한 속도를 달성하지만, Markdown 구조화 없이 순수 텍스트만 추출하는 한계가 있다. READoc 벤치마크 결과 50.7%로 구조화 파서 대비 낮은 품질.

Marker - 품질은 최고지만 안정성이 발목 잡는 PDF 파서2026-03-26

Marker v1.10.1의 내부 구조를 분석하고 READoc 벤치마크로 성능을 평가한다. Surya OCR 기반의 ML 파서로, 성공한 문서에서 80.6% Edit Similarity(5개 파서 중 최고)를 달성하지만, 63%의 문서에서 에러가 발생하여 안정성에 문제가 있다.

OmniDocBench로 측정한 PDF 파서별 파싱 성능 - 텍스트, 테이블, 수식, 읽기 순서2026-03-26

OmniDocBench(CVPR 2025)로 MinerU, Docling, Marker 3개 파서의 요소별 파싱 성능을 측정한다. 텍스트 정확도, 테이블 TEDS, 수식 인식, 읽기 순서를 분리하여 평가하며, MinerU가 텍스트/테이블/읽기순서에서 압도적 1위, Marker는 수식에서 강점을 보인다.

PDF 파서 5종 비교 분석 - 같은 문서, 다른 결과2026-03-26

동일한 PDF 문서(Attention Is All You Need)를 MinerU, Docling, Marker, PyMuPDF4LLM, LiteParse 5개 파서로 파싱한 결과를 요소별(헤딩, 테이블, 수식, 이미지)로 직접 비교한다.

PyMuPDF4LLM - 경량 GNN으로 GPU 없이 가장 빠른 PDF 파서2026-03-25

PyMuPDF4LLM v1.27.2.2의 내부 구조를 분석하고, 4종 문서(영문 논문, 한국어 보고서, PPT 슬라이드, 복잡한 레이아웃)로 성능을 테스트한다. 경량 GNN 모델(ONNX)로 레이아웃을 분석하고 규칙 기반으로 텍스트를 추출하여, 페이지당 0.05~0.25초의 압도적 속도를 보여준다.

MinerU 2.x 파이프라인 분석 - 달라진 PDF 파서의 내부 구조와 성능 테스트2026-03-23

MinerU 2.7.6의 내부 파싱 파이프라인을 분석한다. YOLOv10 레이아웃 감지, SLANET+ 테이블 인식, UniMERNet 수식 인식 등 각 모델의 역할과 흐름을 정리하고, Apple Silicon MPS vs CPU 성능을 실측 비교한다.