← Work
MVP2026 · Founder · Product · Engineer
DocuStory
한국 부동산 등기부 PDF를 위험 신호로 정리해주는 분석 엔진 - 파서·룰·분석기·플랫폼·인프라·샘플이 별도 레포로 분리된 멀티-레포 구조.
- Python
- FastAPI
- Real Estate
- Context
등기부 위험 판단을 "룰"로 분리해서, 같은 문서에 대해 같은 점수가 나오도록 만드는 실험.
- What I did
- Parser - 한국어 등기부 PDF를 ParsedDocument 구조(테이블·날짜·말소 플래그)로 변환
- Rules - 근저당·압류·가압류 등 위험 신호를 선언적 JSON 룰로 카탈로그화하고 ParsedDocument를 RuleHits로 평가
- Analyzer - ParsedDocument + RuleHits를 위험도·가중 점수·한 줄 한국어 요약·타임라인으로 변환
- Platform - POST /v1/documents:analyze HTTP 표면 (FastAPI)
- Infra - dev compose로 4개 컴포넌트를 로컬에서 함께 띄움
- Samples - 안전/주의/위험/허위 4단계 ground truth + OCR 난이도·회귀 세트
- Product decisions
- 한 레포가 아닌 6개 레포로 분리 - 파서·룰·분석기·플랫폼의 책임 경계를 코드 레벨로 강제
- ParsedDocument · Rule · RuleHit · AnalysisResult 4가지 계약을 SoT(Source of Truth)로 명시
- Ground truth 데이터셋을 별도 레포로 - 회귀 테스트가 코드 변경과 독립적으로 진화
- QA 관점이 제품 판단에 기여한 부분
위험 판단을 룰로 분리하면 "왜 위험인지"가 회귀 테스트 가능해진다. QA 관점에서 의사결정의 근거가 자동화 검증되지 않으면 점수만 남고 신뢰는 떨어진다는 가설로 멀티-레포 구조를 택했다.
- Tech stack
- Python
- FastAPI
- pdfplumber
- Docker Compose