[ 모각코+ 3일차 ] 설치 및 준비

[ 라이브러리 ]

라이브러리 : 필요한 기능을 수행할 수 있도록 준비된 함수와 메소드의 집합

정적 크롤링 라이브러리

[ requests ]

http 요청을 쉽게 사용하기위해 만들어진 라이브러리 → 파이썬과 웹을 연결

① cmd 관리자 권한으로 실행

② pip install requests

③ 파이썬 작성시 import requests

[ beautifulsoup4 ]

requests로 받아온 HTML 데이터를 다루기 위해 사용되는 라이브러리

→ 웹에 있는 데이터 중 원하는 데이터를 추출

① cmd 관리자 권한으로 실행

② pip install beautifulsoup4

③ 파이썬 작성시 import bs4

정적 크롤링을 위한 코드

< 상위 웹툰을 받아오는 정보 >

import requests
import bs4

req = requests.get("https://comic.naver.com/webtoon/weekday")
#print(req.text)

html = bs4.BeautifulSoup(req.text, 'html.parser')
#print(html)

columns = html.find_all('div', {'class':'col_inner'})

for column in columns:
    day = column.find('h4').text
    webtoons = column.find_all('a', {'class' : 'title'})[:5]
    print(day)
    for index in range(len(webtoons)):
        title = webtoons[index].text
        print(f"{index+1}. {title}")
    print()

* req.text를 보면 html 데이터 확인 가능

[ 3일차 미션 ]

제가 크롤링 하고 싶던 웹 사이트는 디즈니플러스, 넷플릭스와 같은 OTT 서비스였습니다.

제가 즐겨 보았던 영화나 드라마의 유사한 장르, 줄거리, 평점, 인물 등 그 컨텐츠에 대한 대략적인

정보를 바로 알 수 있는 데이터를 얻고 싶습니다.

해당 데이터를 얻기 위해서는 즐겨보는 영화나 드라마로 페이지 이동을 해야된다는 점에서

동적 크롤링을 사용해야할 것 같습니다!

'DATA > [ 모각코+ 12월 과정 ] 웹 크롤링' 카테고리의 다른 글

[ 모각코+ 6일차 ] 정적 크롤링 사용해보기 ① (0)	2021.12.28
[ 모각코+ 5일차 ] 선택자 (0)	2021.12.25
[ 모각코+ 4일차 ] HTML (0)	2021.12.24
[ 모각코+ 2일차 ] 정적 크롤링 vs 동적 크롤링 (0)	2021.12.21
[ 모각코+ 1일차 ] 웹 크롤링의 정의 (0)	2021.12.21

2CHAECHAE._.

[ 모각코+ 3일차 ] 설치 및 준비

'DATA > [ 모각코+ 12월 과정 ] 웹 크롤링' 카테고리의 다른 글

티스토리툴바

[ 모각코+ 3일차 ] 설치 및 준비

'DATA > [ 모각코+ 12월 과정 ] 웹 크롤링' 카테고리의 다른 글

관련글

티스토리툴바