Skip to content
logo

pdf-parser

8 notes

Docling - IBM의 MIT 라이선스 문서 파서, 가성비 최강2026-03-26

Docling v2.81.0의 내부 구조를 분석하고 READoc 벤치마크로 성능을 평가한다. IBM Research가 개발한 MIT 라이선스 파서로, Heron 레이아웃 모델과 Granite-Docling VLM을 사용하며, GPU 없이 4.9초/문서에 74.3% Edit Similarity를 달성한다.

#pdf-parser
#document-ai
#rag
#docling
#ibm
#layout-analysis
#ocr
LiteParse - LlamaIndex가 오픈소스로 공개한 초경량 PDF 파서2026-03-26

LiteParse는 LlamaIndex가 LlamaParse의 오픈소스 코어로 공개한 TypeScript 기반 PDF 파서다. PDF.js + Tesseract.js로 구현되어 ML 모델 없이 0.1초/문서의 극한 속도를 달성하지만, Markdown 구조화 없이 순수 텍스트만 추출하는 한계가 있다. READoc 벤치마크 결과 50.7%로 구조화 파서 대비 낮은 품질.

#pdf-parser
#document-ai
#rag
#llamaindex
#typescript
#ocr
Marker - 성공하면 최고, 하지만 안정성이 문제인 PDF 파서2026-03-26

Marker v1.10.1의 내부 구조를 분석하고 READoc 벤치마크로 성능을 평가한다. Surya OCR 기반의 ML 파서로, 성공한 문서에서 80.6% Edit Similarity(5개 파서 중 최고)를 달성하지만, 63%의 문서에서 에러가 발생하여 안정성에 문제가 있다.

#pdf-parser
#document-ai
#rag
#marker
#surya-ocr
#layout-analysis
OmniDocBench로 측정한 PDF 파서별 파싱 성능 - 텍스트, 테이블, 수식, 읽기 순서2026-03-26

OmniDocBench(CVPR 2025)로 MinerU, Docling, Marker 3개 파서의 요소별 파싱 성능을 측정한다. 텍스트 정확도, 테이블 TEDS, 수식 인식, 읽기 순서를 분리하여 평가하며, MinerU가 텍스트/테이블/읽기순서에서 압도적 1위, Marker는 수식에서 강점을 보인다.

#pdf-parser
#benchmark
#omnidocbench
#document-ai
#rag
#mineru
#docling
#marker
PDF 파서 5종 비교 분석 - 같은 문서, 다른 결과2026-03-26

동일한 PDF 문서(Attention Is All You Need)를 MinerU, Docling, Marker, PyMuPDF4LLM, LiteParse 5개 파서로 파싱한 결과를 요소별(헤딩, 테이블, 수식, 이미지)로 직접 비교한다.

#pdf-parser
#benchmark
#document-ai
#rag
#comparison
#mineru
#docling
#marker
#pymupdf4llm
#liteparse
PyMuPDF4LLM - 경량 GNN으로 GPU 없이 가장 빠른 PDF 파서2026-03-25

PyMuPDF4LLM v1.27.2.2의 내부 구조를 분석하고, 4종 문서(영문 논문, 한국어 보고서, PPT 슬라이드, 복잡한 레이아웃)로 성능을 테스트한다. 경량 GNN 모델(ONNX)로 레이아웃을 분석하고 규칙 기반으로 텍스트를 추출하여, 페이지당 0.05~0.25초의 압도적 속도를 보여준다.

#pdf-parser
#document-ai
#rag
#pymupdf
#ocr
#markdown
MinerU 2.x 파이프라인 분석 - 달라진 PDF 파서의 내부 구조와 성능 테스트2026-03-23

MinerU 2.7.6의 내부 파싱 파이프라인을 분석한다. YOLOv10 레이아웃 감지, SLANET+ 테이블 인식, UniMERNet 수식 인식 등 각 모델의 역할과 흐름을 정리하고, Apple Silicon MPS vs CPU 성능을 실측 비교한다.

#mineru
#pdf-parser
#document-ai
#layout-analysis
#ocr
#yolo
#rag
#multimodal
#apple-silicon
#mps
MinerU - 고품질 PDF 변환 및 데이터 추출 도구2025-04-03

MinerU는 PDF 문서를 Markdown과 JSON으로 고품질 변환해주는 오픈소스 데이터 추출 도구이다.

#pdf-converter
#pdf-parser
#data-extraction
#markdown
#ocr
#ai
#PDF
#rag
#document-ai
#layout-analysis