파이썬/파이썬 활용
-
파이썬 활용 09 - 1 - 웹 스크래핑 (Headless/정리/프로젝트)파이썬/파이썬 활용 2021. 11. 9. 20:40
유투버 '나도코딩'님 강의 참조 01 Headless 지금까지 Selenium을 써서 스크래핑을 하면 웹을 띄우고 원하는 작업을 하는 등 메모리 + 속도에 차이가 났는데 서버에서 스크래핑을 하게되면 이러한 작업이 필요가 없다. Headless 라는 것이 이를 가능하게 해준다. 속도가 원래의 작업보다 훨씬 빠르다 headless를 쓰는 방법은 간단 하다. 라이브러리를 불러오고 webdriver로 웹을 열때 options를 설정 해주면 된다. 그리고 완료되면 스크린샷 기능으로 진행을 남길 수 있다 Headless를 쓸 때 몇몇의 웹사이트들은 headless를 감지 할 수 있다. 이때도 마찬가지로 UserAgent값을 바꿔서 사용해야 막힘없이 쓸 수 있다. from selenium import webdrive..
-
파이썬 활용 08 - 4 - 웹 스크래핑 (Selenium - 구글 무비)파이썬/파이썬 활용 2021. 11. 8. 17:30
유투버 '나도코딩'님 강의 참조 * 동적 웹페이지 스크래핑을 해볼 예정 01 구글 무비 훑어 보기 할인 중인 영화를 스크래핑 해보자 기본 세팅 import requests from bs4 import BeautifulSoup url = "https://play.google.com/store/movies/top" res = requests.get(url) res.raise_for_status() soup = BeautifulSoup(res.text, "lxml") 기본적인 내용을 긁기 위해 BeautifulSoup을 이용 영화 검사 1차 코드 시도 movies = soup.find_all("div", attrs={"class":"ImZGtf mpg5gc"}) print(len(movies)) 0 결과 ..
-
파이썬 활용 08 - 3 - 웹 스크래핑 (Selenium - 네이버 로그인)파이썬/파이썬 활용 2021. 11. 5. 18:44
유투버 '나도코딩'님 강의 참조 01 네이버 로그인 접근 웹 검사 코드로 접근 from selenium import webdriver #경로가 다르면 Chrome()안에 정확히 경로를 넣어 주자 browser = webdriver.Chrome() #"./chromedriver.exe" #1. 네이버 이동 browser.get("http://naver.com") #2. 로그인 버튼 클릭 elem = browser.find_element_by_class_name("link_login") elem.click() → 로그인 창까지 열림 다시 로그인 창에서 id, pw 입력창 검사 ID/PW 입력 후 로그인 버튼 클릭 까지 코드로 접근 from selenium import webdriver #경로가 다르면 Chr..
-
파이썬 활용 08 - 2 - 웹 스크래핑 (Selenium)파이썬/파이썬 활용 2021. 11. 5. 16:51
유투버 '나도코딩'님 강의 참조 *Selenium 이란? 주로 웹앱을 테스트하는 웹 프레임워크입니다. 또한 webdriver의 API를 통해 브라우저를 제어하기 때문에 자바스크립트에 의해 동적으로 생성되는 사이트의 데이터를 크롤링할 때 매우 유용하게 사용되는 스크래핑 도구 01 Selenium 세팅 Selenium 쓰기위한 라이브러리 설치 Selenium과 항상 같이 쓰는 webdriver를 설치 해 줘야 한다. (자기가 쓰는 브라우저에 따라 다르다) 테스트 from selenium import webdriver #경로가 다르면 Chrome()안에 정확히 경로를 넣어 주자 browser = webdriver.Chrome("./chromedriver.exe") browser.get("http://naver..
-
파이썬 활용 08 - 1 - 웹 스크래핑 (CSV - 네이버 금융)파이썬/파이썬 활용 2021. 11. 5. 11:21
유투버 '나도코딩'님 강의 참조 *CSV란? CSV(영어: comma-separated values)는 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일이다. 확장자는 .csv이며 MIME 형식은 text/csv이다. 01 코스피 정보 들고 오기 똑같이 이 웹페이지도 url을 보면 페이지 형태로 정보가 변한다 스크래핑을 위한 기본 세팅 import csv import requests from bs4 import BeautifulSoup url = "https://finance.naver.com/sise/sise_market_sum.nhn?sosok=0&page=" for page in range(1, 5): res = requests.get(url + str(page)) res.raise..
-
파이썬 활용 07 - 3 - 웹 스크래핑 (BeautifulSoup4 - 다음)파이썬/파이썬 활용 2021. 11. 5. 10:18
유투버 '나도코딩'님 강의 참조 01 이미지 크롤링 다음에서 영화를 검색하여 나오는 결과를 바탕으로 이미지 추출 이미지를 스크래핑 하기전에 이 이미지를 어떻게 일반적으로 받을 수 있나 라고 할 때 보통 '우클릭 → 이미지 저장' 순으로 하는데 다음에서 제공하는 페이지에서는 이게 불가능 하다. 그래서 이미지를 3번이나 타고들어가야 우클릭으로 저장이 가능하다. 다시 말해 수동으로 하나씩 이미지를 5년도치 꺼내온다면 25번을 한 년도당 15번씩 해야하는 번거로움이 생긴다. 이를 스크래핑으로 해결해 보자. URL 복사 스크래핑 기본 세팅 import requests from bs4 import BeautifulSoup res = requests.get("https://search.daum.net/search?w..
-
파이썬 활용 07 - 2 - 웹 스크래핑 (BeautifulSoup4 - 쿠팡)파이썬/파이썬 활용 2021. 11. 4. 20:04
유투버 '나도코딩'님 강의 참조 01 BeautifulSoup4 활용 2 이번에는 쿠팡을 스크래핑 해보자 정규식을 써서 쿠팡의 제품 이름들을 가져와 보자 스크래핑을 진행하려고하니 쿠팡에서 차단을 한거 같다. User Agent를 변경해서 사람이 직접 보는것처럼 변경해서 접근 해 보자! import requests import re from bs4 import BeautifulSoup url ="https://www.coupang.com/np/search?q=%EB%85%B8%ED%8A%B8%EB%B6%81&channel=user&component=&eventCategory=SRP&trcid=&traid=&sorter=scoreDesc&minPrice=&maxPrice=&priceRange=&filterT..
-
파이썬 활용 07 - 1 -웹 스크래핑 (BeautifulSoup4 - 네이버웹툰)파이썬/파이썬 활용 2021. 11. 4. 10:57
유투버 '나도코딩'님 강의 참조 01 BeautifulSoup4 기본 1 BeautifulSoup4 을 사용하기 위해서 2가지를 설치를 해줘야 한다! beautifulsoup4 - 실제로 스크래핑을 위한 패키지 lxml - lxml은 스크래핑시 구문들을 파싱하기 위한 패키지 간단 테스트 (네이버 웹툰) import requests from bs4 import BeautifulSoup url ="https://comic.naver.com/webtoon/weekday" res = requests.get(url) res.raise_for_status() #URL을 통해 가져온 HTML문서를 'lxml'을 통해 파싱을 하고 객체로 만듬 soup = BeautifulSoup(res.text, "lxml") pri..