본문 바로가기

크롤링4

Python으로 잔여백신 상태 확인하기 각 병원에서 잔여백신이 언제 풀리는지 알 수 없다. 컴퓨터가 자동으로 잔여백신 상태를 확인하도록 코딩하자. 웹 자동화 툴인 Selenium을 사용하고 이전에 포스팅한 크롤링을 응용할 것이다. Selenium에 대한 자세한 내용은 다음에 포스팅하겠다. 1. 네이버 로그인 from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by import By fro.. 2021. 7. 25.
영화 리뷰 크롤링 오늘은 이전 포스팅에 이어, 영화 리뷰를 크롤링하고 워드 클라우드를 만들 것이다. 2021.06.07 - [분류 전체보기] - Python으로 크롤링(Crawling)하기 크롤링할 사이트는 '로튼 토마토(Rotten Tomatoes)'이다. 로튼 토마토는 영화에 대한 소식, 비평, 정보 등을 제공하고, Tomatometer 점수를 사용하여 긍정적인 리뷰(fresh)가 많은지, 부정적인 리뷰(rotten)가 많은 지 구분한다. 이제 영화 리뷰를 크롤링해보자! 1. Review 크롤링 리뷰 텍스트가 어떤 태그에 있는지 알아보기 위해, 영화 '크루엘라(Cruella)'의 리뷰 페이지를 확인했다. [그림 2]를 보면, class가 "the_review"인 태그에 영화 리뷰가 있다는 것을 알 수 있다. 따라서 이.. 2021. 6. 19.
Python으로 크롤링(Crawling)하기 이번 포스팅은 Python으로 크롤링하기 위해 함수 몇 가지를 다뤄볼 것이다. 그전에 이전 포스팅에서 작성한 HTTP 요청(GET, POST)과 태그 구조를 보고 오자. 2021.05.29 - [분류 전체보기] - 웹 기본 지식 웹 기본 지식 웹사이트와 관련된 기본 용어를 알아보자. HTML(Hyper Text Markup Language): 웹사이트를 생성하기 위한 언어로 문서와 문서가 링크로 연결되어 있고, 태그를 사용하는 언어 HTTP(Hyper Text Transfer Protocol):.. memoleeyu.tistory.com HTML 문서에서 원하는 내용을 크롤링하기 위해서는 아래와 같이 세 단계의 과정이 필요하다. HTTP 요청 태그 검색 내용 추출 HTTP 요청을 해서 크롤링할 페이지의 .. 2021. 6. 7.
웹 기본 지식 웹사이트와 관련된 기본 용어를 알아보자. HTML(Hyper Text Markup Language): 웹사이트를 생성하기 위한 언어로 문서와 문서가 링크로 연결되어 있고, 태그를 사용하는 언어 HTTP(Hyper Text Transfer Protocol): HTML 문서 등의 리소스를 전송하는 통신규약 클라이언트가 서버에 페이지를 요청하면, 서버가 해당 페이지를 클라이언트에 응답한다. 이때, 클라이언트가 응답받은 페이지는 HTML이고, 이를 보기 쉽게 렌더링 한 결과가 우리가 보는 페이지다. 브라우저(클라이언트)가 서버에 요청하는 모든 기록은 개발자도구의 Network 탭에서 확인할 수 있다. [그림 2]는 www.google.com 페이지를 요청한 네트워크 기록이다. 구글 페이지 요청 및 구글 페이지를.. 2021. 5. 29.