AI
56 notes
인테이크와 데이터를 아무리 잘 갖춰도 사양은 100%를 못 덮는다. 고객은 결과를 봐야 비로소 "이것도 돼? 저건 왜 안 돼?"가 나온다. 이건 공정 실패가 아니라 25년 전 명명된 법칙(Boehm의 IKIWISI)이다. 빈틈을 싸게 드러내는 프로토타입 발굴, 과잉일반화 함정의 원리적 해법(좁은 코어 + 변화가 싼 구조), 그리고 빈틈과 경계 결정을 ADR로 흡수해 다음 인터뷰로 되먹이는 루프를 정리한다
개인에서 팀, 다시 조직으로 지식을 합치는 일의 어려움은 저장이 아니라 부분적 관점을 평탄화 없이 올리는 데 있다. 이건 중앙집중 문제가 아니라 federation 문제다. 업계가 파는 단일 진실 공급원(SSOT)이 아니라 단일 종합 공급원이 목표여야 하고, 자발적 수평 구조는 딜리버리 압력에 붕괴하므로(Spotify 길드 실패) 집계는 회의가 아니라 워크플로우에 배선돼야 한다
이 시리즈가 만든 모든 앞단 산출물(인테이크 양식, as-is 맵, 위임 결정, 데이터 계약, feed-forward ADR, federation 규칙)은 도구가 아니라 기질(substrate)에 산다. AI 코딩 도구는 소모 레이어이고, durable substrate는 데이터와 그것이 사는 open format, 접근을 중개하는 open protocol, 그리고 도메인 엔티티 모델이다. tool line이라는 멘탈 모델 하나와 세 가지 내구성 테스트로 정리한다
무엇을 AI에 맡길지는 75년 된 function allocation 문제다. 하지만 AI 능력의 경계(jagged frontier)는 들쭉날쭉하고 보이지 않아 직관으로 미리 정할 수 없다. 2026년의 재정의는 명확하다. 위임은 능력이 아니라 검증 비용으로 정한다. 검증할 수 없는 건 맡기지 마라. 그리고 위임 결과를 결정 기록으로 남기면 보이지 않던 경계가 팀이 공유하는 지도가 된다
"우리 데이터를 AI-ready로 만들어 달라"는 청소 작업이 아니라 발굴 질문이다. Gartner조차 데이터는 사전에 일반적으로 AI-ready가 될 수 없고 용도가 정해져야 정의된다고 못 박는다. 데모 위의 마법 아래에는 빙산 같은 기반이 있고(Sculley), 업스트림 데이터 준비와 다운스트림 컨텍스트 엔지니어링은 같은 문제의 양 끝이며, 이미 만든 LLM Wiki와 ADR이 곧 그 조직의 AI-ready 데이터 프로덕트다
AX 프로젝트에서 고객도 개발자도 자기가 원하는 걸 모른다. 고전 요구공학은 이 문제를 40년 전에 암묵지 추출 기법으로 풀었고, Palantir는 같은 이유로 고객사에 엔지니어를 심었다. 고객이 AI를 만능으로 오해할수록 요구사항을 덜 말하게 되고, 그래서 인터뷰는 받아쓰기가 아니라 암묵지를 캐내는 컴파일 작업이 된다
AX 딜리버리의 가장 흔한 실패는 사람들이 회의실에서 설명하는 절차(Work-as-Imagined)를 자동화하고, 실제로 일이 되게 만드는 암묵적 적응(Work-as-Done)을 놓치는 것이다. IBM Watson과 McDonald's 드라이브스루가 그렇게 무너졌다. 현행 업무를 제대로 포착하는 도구상자(SIPOC, BPMN, CTA/CDM, process mining)와, 그 산출물이 Wiki/ADR로 흘러드는 방식을 정리한다
1편(인터뷰)과 2편(현행 업무)에서 캔 것을 복사해 쓰는 한 장짜리 AI 프로젝트 인테이크 양식으로 굳힌다. 고객과 개발자가 같은 양식의 다른 칸을 채우고, 각 칸은 출처가 분명한 디스커버리 도구(AI Canvas, ML Canvas, Event Storming, pre-mortem)의 산출물이며, 양식의 출력은 frontmatter를 가진 마크다운으로서 Wiki와 ADR로 승격된다
Multica의 커뮤니티 반응, 기능, 멀티 디바이스/팀 협업 활용법을 정리하고 OpenHands, Devin, Claude Code GitHub Actions, Cline, Cursor Cloud Agents, Codex, Aider, SWE-agent와 비교한다.
Slack, 회의록, 고객 문서, PR, Linear/Jira, AI 코딩 대화에서 생기는 의사결정을 Hermes Agent로 수집하고 프로젝트·팀·조직 단위 지식으로 통합하는 운영 모델을 정리한다.
레포, 논문, 뉴스, 블로그, 소셜 신호와 공모전/해커톤/설명회 같은 기회 정보를 자동으로 수집하고 계속 업데이트되는 지식으로 관리하기 위한 기술 정보 레이더 설계안.
Karpathy의 LLM Wiki 패턴에 ADR(Architecture Decision Records)을 결합해 개인 블로그를 누적 지식베이스로 발전시키는 방법. 패턴의 원전, 실제 사례 3종, 2026 연구 결과, 실패 모드와 스케일 한계까지 정리한다
2026년 GitHub을 휩쓴 자가 개선 AI 에이전트 5종 - OpenClaw, Hermes Agent, QwenPaw, Claude Code, Codex - 를 아키텍처, 코드 구조, 메모리·스킬 설계, 최신 논문, 커뮤니티 반응까지 깊게 비교한다
챗은 빨라야 하고 long-running 작업은 끊겨도 이어져야 한다. 두 요구를 한 시스템에서 어떻게 reconcile하는가 - 흔한 dual-path 구현의 한계부터 LangGraph Platform / OpenAI Responses / Vercel AI SDK / Cloudflare Agents의 패턴, 그리고 정반대로 가는 OpenAI Realtime까지.
프로덕션 환경에서 LLM 기반 Text-to-SQL을 구축하면서 배운 것들. 동적 스키마 조회, COMMENT 기반 zero-shot, 보안 레이어, 그리고 52문항 5모델 Eval 결과까지 정리한다.
280개 한국어+영어 블로그 포스트를 테스트베드로 활용하여 다양한 검색 방법론을 실험하는 시리즈의 첫 번째 글. 키워드 검색부터 벡터 검색, 하이브리드 검색까지 각 방법의 원리를 정리하고, 실험 설계와 평가 기준을 수립한다.
OpenDataLoader PDF v2.1.1의 READoc 벤치마크 결과와 파싱 예시를 분석한다. Java 기반 Apache 2.0 파서로, 72.6% Edit Similarity에 ~3초/문서 속도를 보여주지만, 테이블 구조 보존과 수식 LaTeX 변환에 한계가 있다.
Docling v2.81.0의 내부 구조를 분석하고 READoc 벤치마크로 성능을 평가한다. IBM Research가 개발한 MIT 라이선스 파서로, Heron 레이아웃 모델과 Granite-Docling VLM을 사용하며, GPU 없이 4.9초/문서에 74.3% Edit Similarity를 달성한다.
LiteParse는 LlamaIndex가 LlamaParse의 오픈소스 코어로 공개한 TypeScript 기반 PDF 파서다. PDF.js + Tesseract.js로 구현되어 ML 모델 없이 0.1초/문서의 극한 속도를 달성하지만, Markdown 구조화 없이 순수 텍스트만 추출하는 한계가 있다. READoc 벤치마크 결과 50.7%로 구조화 파서 대비 낮은 품질.
Marker v1.10.1의 내부 구조를 분석하고 READoc 벤치마크로 성능을 평가한다. Surya OCR 기반의 ML 파서로, 성공한 문서에서 80.6% Edit Similarity(5개 파서 중 최고)를 달성하지만, 63%의 문서에서 에러가 발생하여 안정성에 문제가 있다.
OmniDocBench(CVPR 2025)로 MinerU, Docling, Marker 3개 파서의 요소별 파싱 성능을 측정한다. 텍스트 정확도, 테이블 TEDS, 수식 인식, 읽기 순서를 분리하여 평가하며, MinerU가 텍스트/테이블/읽기순서에서 압도적 1위, Marker는 수식에서 강점을 보인다.
동일한 PDF 문서(Attention Is All You Need)를 MinerU, Docling, Marker, PyMuPDF4LLM, LiteParse 5개 파서로 파싱한 결과를 요소별(헤딩, 테이블, 수식, 이미지)로 직접 비교한다.
PyMuPDF4LLM v1.27.2.2의 내부 구조를 분석하고, 4종 문서(영문 논문, 한국어 보고서, PPT 슬라이드, 복잡한 레이아웃)로 성능을 테스트한다. 경량 GNN 모델(ONNX)로 레이아웃을 분석하고 규칙 기반으로 텍스트를 추출하여, 페이지당 0.05~0.25초의 압도적 속도를 보여준다.
MinerU 2.7.6의 내부 파싱 파이프라인을 분석한다. YOLOv10 레이아웃 감지, SLANET+ 테이블 인식, UniMERNet 수식 인식 등 각 모델의 역할과 흐름을 정리하고, Apple Silicon MPS vs CPU 성능을 실측 비교한다.
RAG-Anything의 내부 구조를 파헤쳐본다. MinerU 파서, LightRAG 기반 지식 그래프 구축, 멀티모달 처리, VLM 강화 쿼리까지 전체 파이프라인을 상세히 분석한다.
AI 코딩 도구가 넘쳐나는 시대, 실제로 개발 워크플로우를 바꿀 수 있는 방법론 4가지 - BMAD Method, MoAI-ADK, GitHub Spec Kit, Get Shit Done - 를 철학, 워크플로우, 커뮤니티 반응까지 철저하게 비교한다.
헬스케어 챗봇 개발 중 발견한 LLM의 고유명사 오표기 문제의 근본 원인을 분석하고, 다양한 해결 방법을 실험한 과정을 정리한다.
LangChain과 Manus 웨비나에서 배운 AI 에이전트의 컨텍스트 엔지니어링 핵심 전략. 컨텍스트 오프로딩, 축소(압축 vs 요약), 격리(통신 vs 메모리 공유), 계층형 액션 공간 등 실전 검증된 기법과 '덜 구축하고 더 이해하라'는 철학을 다룬다.
PostgreSQL에서 벡터 검색을 가능하게 하는 pgvector 익스텐션의 개념, 작동 원리, 인덱스 알고리즘(HNSW), 그리고 다른 벡터 데이터베이스와의 비교를 다룬다.
2025년 최신 버전을 기준으로 pgvector (PostgreSQL 18), Qdrant 1.15, Milvus 2.6의 실제 성능, 기능, 비용을 상세 비교한다. 데이터 삽입, 검색 속도, 필터링, 확장성, 실전 시나리오별 권장사항을 다룬다.
학술 논문을 위한 전문 문서 파싱 및 RAG 시스템 구축 프로젝트 분석. Upstage Document Parse와 LLM을 활용한 고품질 멀티모달 콘텐츠 추출, 벡터 데이터베이스 구축, 그리고 Multi-Query + Reranker 기반 하이브리드 검색 시스템 구현까지 포괄적으로 다룬다.
AI 챗봇의 비용을 최대 90%까지 절감하고 응답 속도를 80% 향상시키는 프롬프트 캐싱, 시맨틱 캐싱, 딕셔너리 캐싱 전략을 상세히 분석하고 실제 구현 방법을 제시합니다.
멀티에이전트 시스템의 핵심 아키텍처 패턴들과 대규모 환경에서의 구현 전략을 분석하고, 최신 통신 프로토콜과 확장성 해결책을 포괄적으로 다룬 가이드
워크플로우와 에이전트의 차이점, 그리고 ReAct, Plan-and-Execute, Supervisor 아키텍처의 특징과 장단점을 체계적으로 비교 분석한 포괄적 가이드
다중공선성의 개념, 탐지 방법, 해결 방법 및 관련 작업들에 대한 포괄적인 가이드
MinerU는 PDF 문서를 Markdown과 JSON으로 고품질 변환해주는 오픈소스 데이터 추출 도구이다.
Anthropic에서 개발한 MCP(Model Context Protocol)의 개념, 구조 및 활용에 대한 설명
LLM 기능 호출을 병렬로 처리하여 지연 시간과 비용을 줄이는 LLM Compiler 연구에 대한 검토
RAG(Retrieval-Augmented Generation) 시스템에서 지식 그래프 활용 방법과 Neo4j 구현
빠르게 대화형 AI 애플리케이션을 개발할 수 있는 Chainlit 라이브러리 사용법
멀티모달 RAG를 활용한 PDF 문서 내 시각 자료와 텍스트 추출 및 활용 기법
멀티모달 RAG를 통한 문서 내 텍스트와 이미지 추출 및 활용 연구
LangChain에서 사용 가능한 다양한 PDF Loader 라이브러리들의 특징과 성능을 비교 분석한 문서
LangChain Agent와 Tavily 검색 엔진을 활용한 고급 RAG 시스템 구현 방법과 활용 사례 분석
Groq LPU 모델을 활용한 RAG 시스템 구축 및 성능 특징 설명
LangChain의 ConversationalRetrievalChain을 활용한 대화형 RAG 시스템 구현 방법과 주요 기능 설명
LayoutLM의 발전 과정과 시각적으로 풍부한 문서 이해를 위한 다양한 버전별 특징 및 성능 분석
불균형 데이터에서의 이상치 탐지를 위한 다양한 모델과 기법을 비교 분석한 글이다.
고차원 데이터를 효과적으로 시각화하는 비선형 차원 축소 기법인 t-SNE의 원리와 활용법을 설명한 글이다.
이상 탐지(Anomaly Detection)의 주요 방법론과 기법을 정리하고 각 접근법의 장단점을 비교한 글이다.
LangGraph 라이브러리의 개념과 다중 에이전트 협업 시스템 구현 방법 설명
LangChain 프레임워크의 기본 개념, 활용 방법 및 LLama2와 결합한 실전 프로젝트 구현 과정 설명
데이터의 복잡성을 줄이는 주요 차원 축소 기법인 PCA, t-SNE, UMAP의 개념과 활용법을 정리한 글이다.
SAM을 비디오에 적용한 Track Anything Model(TAM)의 특징과 활용 방안을 정리한 글이다.
컴퓨터 비전에서 객체 탐지(Object Detection)와 위치 찾기(Localization) 개념 및 Region Proposal 방식에 대해 설명한 글이다.
딥러닝 기반 컴퓨터 비전의 객체 탐지(Object Detection)와 세그멘테이션(Segmentation)에 대한 기본 개념과 발전 과정을 정리한 글이다.