본문으로 건너뛰기
강홍재/ James
← Work
MVP2026 · Founder · Product · Engineer

DocuStory

한국 부동산 등기부 PDF를 위험 신호로 정리해주는 분석 엔진 - 파서·룰·분석기·플랫폼·인프라·샘플이 별도 레포로 분리된 멀티-레포 구조.

  • Python
  • FastAPI
  • PDF
  • Real Estate
Context

등기부 위험 판단을 "룰"로 분리해서, 같은 문서에 대해 같은 점수가 나오도록 만드는 실험.

What I did
  • Parser - 한국어 등기부 PDF를 ParsedDocument 구조(테이블·날짜·말소 플래그)로 변환
  • Rules - 근저당·압류·가압류 등 위험 신호를 선언적 JSON 룰로 카탈로그화하고 ParsedDocument를 RuleHits로 평가
  • Analyzer - ParsedDocument + RuleHits를 위험도·가중 점수·한 줄 한국어 요약·타임라인으로 변환
  • Platform - POST /v1/documents:analyze HTTP 표면 (FastAPI)
  • Infra - dev compose로 4개 컴포넌트를 로컬에서 함께 띄움
  • Samples - 안전/주의/위험/허위 4단계 ground truth + OCR 난이도·회귀 세트
Product decisions
  • 한 레포가 아닌 6개 레포로 분리 - 파서·룰·분석기·플랫폼의 책임 경계를 코드 레벨로 강제
  • ParsedDocument · Rule · RuleHit · AnalysisResult 4가지 계약을 SoT(Source of Truth)로 명시
  • Ground truth 데이터셋을 별도 레포로 - 회귀 테스트가 코드 변경과 독립적으로 진화
QA 관점이 제품 판단에 기여한 부분

위험 판단을 룰로 분리하면 "왜 위험인지"가 회귀 테스트 가능해진다. QA 관점에서 의사결정의 근거가 자동화 검증되지 않으면 점수만 남고 신뢰는 떨어진다는 가설로 멀티-레포 구조를 택했다.

Tech stack
  • Python
  • FastAPI
  • pdfplumber
  • Docker Compose