Problem
도메인 데이터는 웹 페이지, 이미지, OCR, 리뷰성 텍스트, 다국어 별칭처럼 형태가 흩어져 있어 LLM 서비스가 바로 신뢰하고 쓰기 어렵습니다.
수집 대상 페이지마다 DOM 구조가 다르고, LLM 추출 결과도 schema, selector, 비용, 실패 재시도 기준이 없으면 운영 파이프라인으로 반복 실행하기 어렵습니다.
Entity / Attribute / Alias / Search Data Layer
병원·미용·뷰티 도메인에서 웹 페이지, 이미지, OCR, ARIA snapshot, DOM 후보를 수집하고 Gemini/Claude Structured Output으로 도메인 엔티티와 속성을 추출하는 데이터 파이프라인을 구축했습니다.
2026
도메인 데이터는 웹 페이지, 이미지, OCR, 리뷰성 텍스트, 다국어 별칭처럼 형태가 흩어져 있어 LLM 서비스가 바로 신뢰하고 쓰기 어렵습니다.
수집 대상 페이지마다 DOM 구조가 다르고, LLM 추출 결과도 schema, selector, 비용, 실패 재시도 기준이 없으면 운영 파이프라인으로 반복 실행하기 어렵습니다.
Playwright로 ARIA snapshot, screenshot, DOM 후보를 수집하고 Gemini/Claude Structured Output으로 crawl structure와 이벤트·시술 속성을 추출했습니다.
Pydantic schema, selector validation, retry, checkpoint, token/cost tracking을 함께 설계해 LLM extraction을 일회성 프롬프트가 아니라 반복 가능한 데이터 파이프라인으로 만들었습니다.
표준 엔티티, 다국어 번역, alias coverage, search dictionary를 정리해 AI 상담과 검색이 재사용할 수 있는 데이터 계층으로 연결했습니다.
비정형 도메인 데이터를 AI 제품이 사용할 수 있는 entity, attribute, alias, search index 단위로 정리했습니다.
쇼포트의 상품/시각/판매/체감 속성 추출과 유사한 문제를 병원·미용 도메인에서 먼저 다뤄본 경험입니다.
Next case study