웹 스크래핑
- 특정한 목적으로 특정 웹 페이지에서 데이터를 추출하는 것 -> 데이터 추출
Ex_) 날씨 데이터 가져오기, 주식 데이터 가져오기
웹 크롤링
- URL을 타고 다니며 반복적으로 데이터를 가져오는 과정 -> 데이터 색인 (indexing)
Ex_) 검색 엔진의 웹 크롤러
로봇 배제 프로토콜 (REP)
- 로봇이 모든 사이트에 대해 모든 정보를 취득하는 것을 막기 위함
- 1994년, REP (Robot Exclusion Protocol) 탄생
- 설정을 통해 접근 권한
# 모든 user-agent에 대해서 접근 거부
User-agent: *
Disallow: /
# 모든 user-agent에 대해서 접근 허가
User-agent: *
allow: /
# 특정 user-agent에 대해서 접근 불허
User-agent: ssung
Disallow: /
DOM (Doucument Object Model)
- 브라우저 (크롬, 사파리, 파이어 폭스...) 의 렌더링 엔진이 웹 문서를 로드한 후 파싱을 진행하여 웹 페이지 표시
- 이를, DOM 이라고 함
- 브라우저가 HTML을 DOM으로 바꾸는 이유
- 원하는 요소를 동적으로 변경해줄 수 있음
- 원하는 요소를 쉽게 찾을 수 있음
- 파이썬으로 HTML을 분석하기 위해서는 HTML Parser 가 필요!!
728x90
'ssung_데이터 엔지니어링 > 2주차_파이썬으로 웹 다루기' 카테고리의 다른 글
Seaborn - 스크래핑 결과 시각화 (1) | 2023.10.27 |
---|---|
Selenium 설치 및 사용법 (0) | 2023.10.26 |
HTML Parser, BeautifulSoup (0) | 2023.10.25 |
HTML (Hypertext Markup Language) (2) | 2023.10.23 |