Naver Place / Treatment / Promotion / Beauty Product Data

Domain Data Collection and Verification Pipeline

네이버 플레이스 피부과 4,255건을 시작으로 병원 상세, 피부 시술, 이벤트·프로모션, 뷰티 제품, 리뷰, 채널·성과 데이터처럼 회사 업무 도메인에 필요한 외부 데이터를 수집·검증하기 위해 HTTP-only crawler, Playwright worker, Gemini/Codex CLI, Cloud SQL, R2, SQLite checkpoint를 조합한 데이터 파이프라인을 구축했습니다.

2026

PythonPlaywrighthttpxPostgreSQLSQLiteCloud SQLR2Gemini CLI

Problem

회사 업무 도메인에 필요한 데이터는 병원 상세, 피부 시술, 이벤트·프로모션, 뷰티 제품, 리뷰, 채널·성과 데이터처럼 출처와 형태가 계속 달라집니다.

외부 플랫폼 데이터는 중복, 동명 객체, DOM 변경, 일부 실패가 항상 발생하기 때문에 수집 결과가 현업 리포트에 쓰이려면 실패 재시도와 검증 가능성이 필요했습니다.

Approach

수집 단계를 skill 단위로 나누고, SQLite checkpoint와 split DB를 적용했습니다.

좌표 기반 matching, APOLLO_STATE parsing, structured validation, 실행 산출물 저장을 통해 데이터 품질을 추적했습니다.

Result

단발성 크롤링이 아니라 중단 후 재개, 실패 재시도, 병합, 보정, export가 가능한 운영 파이프라인을 만들었습니다.

수집 데이터를 리포트와 대시보드에 연결할 수 있는 형태로 정리했습니다.

Next case study

Domain Data Collection and Verification Pipeline

Problem

Approach

Result

PromptOps and Content Test & Learn