[ 모각코+ 6일차 ] 정적 크롤링 사용해보기 ①

웹 사이트 주소에 접속하면, 한 페이지에 있는 원하는 데이터를 모두 확인 가능

원하는 데이터의 태그를 확인해서 별다른 이동 및 변화없이 데이터 수집 가능

정적 크롤링을 위한 requests 라이브러리

requests 라이브러리 : http 요청을 쉽게 사용하기 위해 만들어진 라이브러리

* request 라이브러리 설치 방법 : https://2chaechae.tistory.com/51

[ 모각코+ 3일차 ] 설치 및 준비

[ 라이브러리 ] 라이브러리 : 필요한 기능을 수행할 수 있도록 준비된 함수와 메소드의 집합 정적 크롤링 라이브러리 [ requests ] http 요청을 쉽게 사용하기위해 만들어진 라이브러리 → 파이썬과

2chaechae.tistory.com

get() 함수

request 라이브러리의 get() 함수는 웹 페이지의 내용을 요청하는 함수

입력 변수로 데이터를 요청할 URL을 넣어줘야 함

requests.get('원하는 데이터가 들어있는 URL')

정적 크롤링 코드 작성하기

import requests # 라이브러리 불러오기

URL = '데이터를 받아오고 싶은 사이트'
raw = requests.get(URL) # get 함수 사용

print(raw) # 요청 성공 여부 출력
print(raw.text) # HTML 코드 출력


# 원하는 데이터 추출하기
target = '<div class="nums">'

if target in raw.text :
    idx = raw.text.index(target)
    print(raw.text[idx : idx + 100 ] ) # 100은 임의의 숫자( 원하는 HTML 태그까지 출력하기 )

* print(raw)를 실행했을 때 <Response [200]> 이 출력되어야 함

<Response [200]> 은 get 함수를 통해 보낸 요청이 정상적으로 처리되었다는 의미

* 200 등의 숫자는 상태 응답 코드임

[ 6일차 미션 ]

'DATA > [ 모각코+ 12월 과정 ] 웹 크롤링' 카테고리의 다른 글

[ 모각코+ 8일차 ] 정적 크롤링 사용해보기 ③ (0)	2021.12.29
[ 모각코+ 7일차 ] 정적 크롤링 사용해보기 ② (0)	2021.12.28
[ 모각코+ 5일차 ] 선택자 (0)	2021.12.25
[ 모각코+ 4일차 ] HTML (0)	2021.12.24
[ 모각코+ 3일차 ] 설치 및 준비 (0)	2021.12.23

2CHAECHAE._.

[ 모각코+ 6일차 ] 정적 크롤링 사용해보기 ①

'DATA > [ 모각코+ 12월 과정 ] 웹 크롤링' 카테고리의 다른 글

티스토리툴바

[ 모각코+ 6일차 ] 정적 크롤링 사용해보기 ①

'DATA > [ 모각코+ 12월 과정 ] 웹 크롤링' 카테고리의 다른 글

관련글

티스토리툴바