ssung_데이터 엔지니어링/2주차_파이썬으로 웹 다루기

웹 스크래핑과 웹 크롤링

ssungcohol 2023. 10. 24. 15:15

웹 스크래핑

  • 특정한 목적으로 특정 웹 페이지에서 데이터를 추출하는 것 -> 데이터 추출
    Ex_) 날씨 데이터 가져오기, 주식 데이터 가져오기

 

웹 크롤링

  • URL을 타고 다니며 반복적으로 데이터를 가져오는 과정 -> 데이터 색인 (indexing)
    Ex_) 검색 엔진의 웹 크롤러

로봇 배제 프로토콜 (REP)

  • 로봇이 모든 사이트에 대해 모든 정보를 취득하는 것을 막기 위함
  • 1994년, REP (Robot Exclusion Protocol) 탄생
  • 설정을 통해 접근 권한 
# 모든 user-agent에 대해서 접근 거부

User-agent: *
Disallow: /

# 모든 user-agent에 대해서 접근 허가

User-agent: *
allow: /

# 특정 user-agent에 대해서 접근 불허

User-agent: ssung
Disallow: /

DOM (Doucument Object Model)

  • 브라우저 (크롬, 사파리, 파이어 폭스...) 의 렌더링 엔진이 웹 문서를 로드한 후 파싱을 진행하여 웹 페이지 표시
  • 이를, DOM 이라고 함
  • 브라우저가 HTML을 DOM으로 바꾸는 이유
    • 원하는 요소를 동적으로 변경해줄 수 있음
    • 원하는 요소를 쉽게 찾을 수 있음
  • 파이썬으로 HTML을 분석하기 위해서는 HTML Parser 가 필요!!
728x90