[ 라이브러리 ]
라이브러리 : 필요한 기능을 수행할 수 있도록 준비된 함수와 메소드의 집합
정적 크롤링 라이브러리
[ requests ]
http 요청을 쉽게 사용하기위해 만들어진 라이브러리 → 파이썬과 웹을 연결
① cmd 관리자 권한으로 실행
② pip install requests
③ 파이썬 작성시 import requests
[ beautifulsoup4 ]
requests로 받아온 HTML 데이터를 다루기 위해 사용되는 라이브러리
→ 웹에 있는 데이터 중 원하는 데이터를 추출
① cmd 관리자 권한으로 실행
② pip install beautifulsoup4
③ 파이썬 작성시 import bs4
정적 크롤링을 위한 코드
< 상위 웹툰을 받아오는 정보 >
import requests
import bs4
req = requests.get("https://comic.naver.com/webtoon/weekday")
#print(req.text)
html = bs4.BeautifulSoup(req.text, 'html.parser')
#print(html)
columns = html.find_all('div', {'class':'col_inner'})
for column in columns:
day = column.find('h4').text
webtoons = column.find_all('a', {'class' : 'title'})[:5]
print(day)
for index in range(len(webtoons)):
title = webtoons[index].text
print(f"{index+1}. {title}")
print()
* req.text를 보면 html 데이터 확인 가능
[ 3일차 미션 ]

제가 크롤링 하고 싶던 웹 사이트는 디즈니플러스, 넷플릭스와 같은 OTT 서비스였습니다.
제가 즐겨 보았던 영화나 드라마의 유사한 장르, 줄거리, 평점, 인물 등 그 컨텐츠에 대한 대략적인
정보를 바로 알 수 있는 데이터를 얻고 싶습니다.
해당 데이터를 얻기 위해서는 즐겨보는 영화나 드라마로 페이지 이동을 해야된다는 점에서
동적 크롤링을 사용해야할 것 같습니다!
저작권 출처 : https://cafe.naver.com/codeuniv
'DATA > [ 모각코+ 12월 과정 ] 웹 크롤링' 카테고리의 다른 글
| [ 모각코+ 6일차 ] 정적 크롤링 사용해보기 ① (0) | 2021.12.28 |
|---|---|
| [ 모각코+ 5일차 ] 선택자 (0) | 2021.12.25 |
| [ 모각코+ 4일차 ] HTML (0) | 2021.12.24 |
| [ 모각코+ 2일차 ] 정적 크롤링 vs 동적 크롤링 (0) | 2021.12.21 |
| [ 모각코+ 1일차 ] 웹 크롤링의 정의 (0) | 2021.12.21 |