Recent Notes

335 notes

PDF 파서 5종 비교 분석 - 같은 문서, 다른 결과2026-03-26

동일한 PDF 문서(Attention Is All You Need)를 MinerU, Docling, Marker, PyMuPDF4LLM, LiteParse 5개 파서로 파싱한 결과를 요소별(헤딩, 테이블, 수식, 이미지)로 직접 비교한다.

FlexSearch에서 Pagefind로: nuartz 검색 엔진 마이그레이션2026-03-26

nuartz의 검색 엔진을 FlexSearch에서 Pagefind로 마이그레이션한 과정과 비교 분석

PyMuPDF4LLM - 경량 GNN으로 GPU 없이 가장 빠른 PDF 파서2026-03-25

PyMuPDF4LLM v1.27.2.2의 내부 구조를 분석하고, 4종 문서(영문 논문, 한국어 보고서, PPT 슬라이드, 복잡한 레이아웃)로 성능을 테스트한다. 경량 GNN 모델(ONNX)로 레이아웃을 분석하고 규칙 기반으로 텍스트를 추출하여, 페이지당 0.05~0.25초의 압도적 속도를 보여준다.

Clidex 검색 개선: 커버리지 43% → 91%, 정확도 47% → 82%2026-03-25

Clidex의 검색 성능을 실전 테스트로 진단하고, 데이터 파이프라인과 검색 알고리즘을 전면 개편한 과정. 485개 → 5,260개 도구, 커버리지 43% → 91%.

#Semantic-Search

MinerU 2.x 파이프라인 분석 - 달라진 PDF 파서의 내부 구조와 성능 테스트2026-03-23

MinerU 2.7.6의 내부 파싱 파이프라인을 분석한다. YOLOv10 레이아웃 감지, SLANET+ 테이블 인식, UniMERNet 수식 인식 등 각 모델의 역할과 흐름을 정리하고, Apple Silicon MPS vs CPU 성능을 실측 비교한다.

#layout-analysis

RAG-Anything 파헤치기 - 멀티모달 GraphRAG의 구조와 원리2026-03-22

RAG-Anything의 내부 구조를 파헤쳐본다. MinerU 파서, LightRAG 기반 지식 그래프 구축, 멀티모달 처리, VLM 강화 쿼리까지 전체 파이프라인을 상세히 분석한다.

#knowledge-graph

Clidex: AI 에이전트를 위한 CLI 도구 검색 시스템2026-03-14

AI 에이전트가 CLI 도구를 발견하고, 비교하고, 설치할 수 있도록 설계한 CLI 도구 인덱스. 검색 전략 선택 과정과 BM25 기반 구현 결과를 기록한다.

blog-rag 프로젝트 개요: 블로그 기반 Modular RAG 시스템2026-03-06

개인 블로그를 지식 베이스로 삼아 Modular RAG 아키텍처를 구축하고, 다양한 검색 모듈 조합을 실험하는 프로젝트.

왜 블로그를 RAG 대상으로, 왜 Modular RAG인가2026-03-06

블로그를 RAG 지식 베이스로 쓰기로 결정한 이유, 그리고 검색 모듈을 조합 가능하게 만들어야 하는 이유.

Nuartz 첫 배포: 구현 내용과 Vercel에서 만난 것들2026-03-06

Phase 1 구현 내용 정리, 그리고 Vercel 배포 과정에서 만난 workspace 프로토콜, Turbopack, 각종 버그들을 기록한다.