본문 바로가기
DATA/[ 모각코+ 12월 과정 ] 웹 크롤링

[ 모각코+ 6일차 ] 정적 크롤링 사용해보기 ①

by 2CHAE._.EUN 2021. 12. 28.

웹 사이트 주소에 접속하면, 한 페이지에 있는 원하는 데이터를 모두 확인 가능

원하는 데이터의 태그를 확인해서 별다른 이동 및 변화없이 데이터 수집 가능

 

정적 크롤링을 위한 requests 라이브러리

 

requests 라이브러리 : http 요청을 쉽게 사용하기 위해 만들어진 라이브러리

* request 라이브러리 설치 방법 : https://2chaechae.tistory.com/51

 

[ 모각코+ 3일차 ] 설치 및 준비

[ 라이브러리 ] 라이브러리 : 필요한 기능을 수행할 수 있도록 준비된 함수와 메소드의 집합 정적 크롤링 라이브러리 [ requests ] http 요청을 쉽게 사용하기위해 만들어진 라이브러리 → 파이썬과

2chaechae.tistory.com

 

get() 함수

 

request 라이브러리의 get() 함수는 웹 페이지의 내용을 요청하는 함수

입력 변수로 데이터를 요청할 URL을 넣어줘야 함

 

requests.get('원하는 데이터가 들어있는 URL')

 

정적 크롤링 코드 작성하기

 

import requests # 라이브러리 불러오기

URL = '데이터를 받아오고 싶은 사이트'
raw = requests.get(URL) # get 함수 사용

print(raw) # 요청 성공 여부 출력
print(raw.text) # HTML 코드 출력


# 원하는 데이터 추출하기
target = '<div class="nums">'

if target in raw.text :
    idx = raw.text.index(target)
    print(raw.text[idx : idx + 100 ] ) # 100은 임의의 숫자( 원하는 HTML 태그까지 출력하기 )

 

* print(raw)를 실행했을 때 <Response [200]> 이 출력되어야 함

 <Response [200]> 은 get 함수를 통해 보낸 요청이 정상적으로 처리되었다는 의미

* 200 등의 숫자는 상태 응답 코드임


[ 6일차 미션 ]

 


 

 

저작권 출처 : https://cafe.naver.com/codeuniv