본문 바로가기
DATA/[ 모각코+ 12월 과정 ] 웹 크롤링

[ 모각코+ 3일차 ] 설치 및 준비

by 2CHAE._.EUN 2021. 12. 23.

[ 라이브러리 ]

 

라이브러리 : 필요한 기능을 수행할 수 있도록 준비된 함수와 메소드의 집합

 

정적 크롤링 라이브러리

 

[ requests ] 

 

http 요청을 쉽게 사용하기위해 만들어진 라이브러리 → 파이썬과 웹을 연결

 

① cmd 관리자 권한으로 실행

pip install requests

③ 파이썬 작성시 import requests

 

[ beautifulsoup4 ]

 

requests로 받아온 HTML 데이터를 다루기 위해 사용되는 라이브러리

→ 웹에 있는 데이터 중 원하는 데이터를 추출

 

① cmd 관리자 권한으로 실행

pip install beautifulsoup4

③ 파이썬 작성시 import bs4

 

정적 크롤링을 위한 코드 

 

< 상위 웹툰을 받아오는 정보 >

 

import requests
import bs4

req = requests.get("https://comic.naver.com/webtoon/weekday")
#print(req.text)

html = bs4.BeautifulSoup(req.text, 'html.parser')
#print(html)

columns = html.find_all('div', {'class':'col_inner'})

for column in columns:
    day = column.find('h4').text
    webtoons = column.find_all('a', {'class' : 'title'})[:5]
    print(day)
    for index in range(len(webtoons)):
        title = webtoons[index].text
        print(f"{index+1}. {title}")
    print()

 

* req.text를 보면 html 데이터 확인 가능

 


[ 3일차 미션 ]

 


제가 크롤링 하고 싶던 웹 사이트는 디즈니플러스, 넷플릭스와 같은 OTT 서비스였습니다.

제가 즐겨 보았던 영화나 드라마의 유사한 장르, 줄거리, 평점, 인물 등 그 컨텐츠에 대한 대략적인

정보를 바로 알 수 있는 데이터를 얻고 싶습니다.

해당 데이터를 얻기 위해서는 즐겨보는 영화나 드라마로 페이지 이동을 해야된다는 점에서

동적 크롤링을 사용해야할 것 같습니다!

 

 

저작권 출처 : https://cafe.naver.com/codeuniv