본문 바로가기

BeautifulSoup2

영화 리뷰 크롤링 오늘은 이전 포스팅에 이어, 영화 리뷰를 크롤링하고 워드 클라우드를 만들 것이다. 2021.06.07 - [분류 전체보기] - Python으로 크롤링(Crawling)하기 크롤링할 사이트는 '로튼 토마토(Rotten Tomatoes)'이다. 로튼 토마토는 영화에 대한 소식, 비평, 정보 등을 제공하고, Tomatometer 점수를 사용하여 긍정적인 리뷰(fresh)가 많은지, 부정적인 리뷰(rotten)가 많은 지 구분한다. 이제 영화 리뷰를 크롤링해보자! 1. Review 크롤링 리뷰 텍스트가 어떤 태그에 있는지 알아보기 위해, 영화 '크루엘라(Cruella)'의 리뷰 페이지를 확인했다. [그림 2]를 보면, class가 "the_review"인 태그에 영화 리뷰가 있다는 것을 알 수 있다. 따라서 이.. 2021. 6. 19.
Python으로 크롤링(Crawling)하기 이번 포스팅은 Python으로 크롤링하기 위해 함수 몇 가지를 다뤄볼 것이다. 그전에 이전 포스팅에서 작성한 HTTP 요청(GET, POST)과 태그 구조를 보고 오자. 2021.05.29 - [분류 전체보기] - 웹 기본 지식 웹 기본 지식 웹사이트와 관련된 기본 용어를 알아보자. HTML(Hyper Text Markup Language): 웹사이트를 생성하기 위한 언어로 문서와 문서가 링크로 연결되어 있고, 태그를 사용하는 언어 HTTP(Hyper Text Transfer Protocol):.. memoleeyu.tistory.com HTML 문서에서 원하는 내용을 크롤링하기 위해서는 아래와 같이 세 단계의 과정이 필요하다. HTTP 요청 태그 검색 내용 추출 HTTP 요청을 해서 크롤링할 페이지의 .. 2021. 6. 7.