본문 바로가기
DATA/[ 모각코+ 12월 과정 ] 웹 크롤링

[ 모각코+ 8일차 ] 정적 크롤링 사용해보기 ③

by 2CHAE._.EUN 2021. 12. 29.

정적 크롤링은 주소값을 사용하기 때문에 한 페이지 내부에서만 원하는 데이터를 받아올 수 있음

 

하지만 정적 크롤링에서도 URL 주소값의 패턴을 파악해서 페이지 이동과 유사한 기능을 구현할 수 있음

 

 URL 주소의 패턴 파악하기

 

네이버 TV : https://tv.naver.com/

네이버 TV TOP 100 : https://tv.naver.com/r

네이버 TV TOP 100 1 : https://tv.naver.com/v/24333117

 

URL 주소의 패턴을 파악하는 이유는 여러개의 URL 주소를 대상으로 정적 크롤링을 여러 번 하기 위해서임

 

 

태그 및 선택자 확인

 

정적 크롤링을 여러번 하기 위해서는 URL 주소 패턴을 파악하고 그 패턴 안에 우리가 원하는

데이터가 갖고 있는 태그를 정확하게 찾아야함 ( 포함 관계 정리 )

 

 

* 데이터를 추출하는 방식은 다양함

  find 함수를 사용해서 데이터를 감싸는 큰 틀을 먼저 추출할 수 있고, find_all을 사용해서 바로 각각의 데이터를

  추출할 수 있음


[ 8일차 문제 ]

 


 

< 마스크를 검색했을 때의 URL >

< 마스크를 검색하고 판매 인기순으로 정렬했을 때의 URL >

< 마스크를 검색하고 낮은 가격순으로 정렬했을 때의 URL >

 

정렬을 다르게 하여 URL 패턴을 분석했을 때 &s=숫자 등의 형태로

정렬 URL의 패턴이 바뀌는 것을 확인할 수 있음



 

 

저작권 출처 : https://cafe.naver.com/codeuniv

 

코딩 커뮤니티 - 코뮤니티 [파이썬/... : 네이버 카페

코뮤니티 [코딩공부/독학/스터디/대외활동] : python, C언어, java, 자바스크립트, HTML, CSS, 웹/앱개발

cafe.naver.com