웹 사이트 주소에 접속하면, 한 페이지에 있는 원하는 데이터를 모두 확인 가능
원하는 데이터의 태그를 확인해서 별다른 이동 및 변화없이 데이터 수집 가능
정적 크롤링을 위한 requests 라이브러리
requests 라이브러리 : http 요청을 쉽게 사용하기 위해 만들어진 라이브러리
* request 라이브러리 설치 방법 : https://2chaechae.tistory.com/51
[ 모각코+ 3일차 ] 설치 및 준비
[ 라이브러리 ] 라이브러리 : 필요한 기능을 수행할 수 있도록 준비된 함수와 메소드의 집합 정적 크롤링 라이브러리 [ requests ] http 요청을 쉽게 사용하기위해 만들어진 라이브러리 → 파이썬과
2chaechae.tistory.com
get() 함수
request 라이브러리의 get() 함수는 웹 페이지의 내용을 요청하는 함수
입력 변수로 데이터를 요청할 URL을 넣어줘야 함
requests.get('원하는 데이터가 들어있는 URL')
정적 크롤링 코드 작성하기
import requests # 라이브러리 불러오기
URL = '데이터를 받아오고 싶은 사이트'
raw = requests.get(URL) # get 함수 사용
print(raw) # 요청 성공 여부 출력
print(raw.text) # HTML 코드 출력
# 원하는 데이터 추출하기
target = '<div class="nums">'
if target in raw.text :
idx = raw.text.index(target)
print(raw.text[idx : idx + 100 ] ) # 100은 임의의 숫자( 원하는 HTML 태그까지 출력하기 )
* print(raw)를 실행했을 때 <Response [200]> 이 출력되어야 함
<Response [200]> 은 get 함수를 통해 보낸 요청이 정상적으로 처리되었다는 의미
* 200 등의 숫자는 상태 응답 코드임
[ 6일차 미션 ]


저작권 출처 : https://cafe.naver.com/codeuniv
'DATA > [ 모각코+ 12월 과정 ] 웹 크롤링' 카테고리의 다른 글
| [ 모각코+ 8일차 ] 정적 크롤링 사용해보기 ③ (0) | 2021.12.29 |
|---|---|
| [ 모각코+ 7일차 ] 정적 크롤링 사용해보기 ② (0) | 2021.12.28 |
| [ 모각코+ 5일차 ] 선택자 (0) | 2021.12.25 |
| [ 모각코+ 4일차 ] HTML (0) | 2021.12.24 |
| [ 모각코+ 3일차 ] 설치 및 준비 (0) | 2021.12.23 |