0 투표

1 답변

0 투표

답변 :
요즘 “최신 기술로 수집”이라고 하면, 무작정 HTML 긁어오는 것보다 안정적으로 데이터 흐름을 잡는 쪽이 훨씬 중요해요. 결론부터 말하면 추천 순서는 API → 피드/공식 데이터 → 정적 크롤링 → 동적(렌더링) 크롤링 순입니다.

  1. API가 있으면 API가 정답
    요즘 사이트들은 화면(UI)보다 내부 데이터 API가 따로 있는 경우가 많아서, 가능하면 공식 API(또는 공개된 엔드포인트)로 받는 게 제일 안정적이고 유지보수도 편합니다. 데이터가 자주 바뀌거나 정확도가 중요한 경우 특히요.
  2. RSS, Sitemap, 공개 데이터 먼저 확인
    뉴스/블로그/쇼핑/커뮤니티는 RSS나 사이트맵(sitemap.xml)만 잘 써도 수집이 훨씬 깨끗해집니다. 검색엔진에 노출되는 구조를 그대로 따라가면 페이지 변화에도 강해요.
  3. 정적 페이지면 가볍게: requests + 파서
    렌더링 없이 HTML에 데이터가 들어있는 타입이면, 네트워크 비용이 적어서 대량 수집에 유리합니다. 이때는 BeautifulSoup 같은 파서로 필요한 영역만 뽑는 방식이 가장 효율적이에요.
  4. SPA/동적 페이지면 헤드리스 자동화가 표준
    React/Vue 같은 SPA는 화면 렌더링 후에 데이터가 붙는 경우가 많아서, Playwright 같은 최신 브라우저 자동화 도구를 쓰는 게 일반적입니다. Selenium보다 설정이 간단하고 안정성이 좋은 편이라 최근엔 Playwright를 많이 씁니다.
    다만 “막아놓은 걸 우회”하려고 하기보다는, 필요한 데이터가 어떤 요청으로 내려오는지 먼저 구조를 파악하고 최소한의 페이지 이동만 자동화하는 게 핵심이에요.
  5. 운영 관점에서 제일 중요한 것
  • robots.txt, 이용약관, 저작권/개인정보 범위 준수
  • 과도한 요청 금지(속도 제한, 재시도, 백오프)
  • 변경에 대비(선택자 하드코딩보다 데이터 키/구조 중심)
  • 실패 로그/모니터링(사이트가 바뀌면 바로 감지)

정리하면, 최신 수집은 “화면을 긁는 기술”보다 “변경에 강한 데이터 파이프라인”을 만드는 쪽으로 가고 있어요. 사이트 유형(정적/동적), 수집 목적(검색/분석/모니터링), 빈도(실시간/일배치)에 맞춰 방식만 고르면 됩니다.

구로역 맛집 시흥동 맛집
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다.
...