빅데이터/BeautifulSoup
-
BeautifulSoup 04 - Basics of data science tasks (3) - 데이터 정제 3빅데이터/BeautifulSoup 2022. 1. 6. 12:37
유투버 'Keith Galli' 강의 참조 현재까지 'Running time', 'Budget', 'Box office' 부분을 따로 변수화 및 통일화 시켜 만들었다. 마지막으로 날짜를 통일화 시켜 보자 ♣ Release date 훑어 보기 쓰려고 하는 데이터 패턴이 제멋데로인걸 볼 수 있다. 통일화 시키자 1. 데이터 확인 # Convert Dates to datetiems print([movie.get('Release date', 'N/A') for movie in movie_info_list]) 2. 'datetime'을 이용하여 내용 보기 각각의 날짜를 뽑아와서 변수에 담기 #June 28, 1950 from datetime import datetime dates = [movie.get('Rele..
-
BeautifulSoup 04 - Basics of data science tasks (3) - 데이터 정제 2빅데이터/BeautifulSoup 2022. 1. 5. 19:38
유투버 'Keith Galli' 강의 참조 현재까지 'Running time' 부분을 따로 변수화 및 통일화 시켜 만들었다. 계속해서 필요한 데이터들을 추출하여 통일화 작업을 해보자 ♣ Budget / Box office 훑어 보기 현재 크롤링하여 JSON형태로 저장된 데이터에는 'Budget' 과 'Box office'에 대한 데이터들이 있다. 이들 또한 따로 통일화 시키는 작업이 필요하다 1. 데이터 확인 print([movie.get('Budget', 'N/A') for movie in movie_info_list]) 2. 정규식 're'를 이용하여 통일화 테스트 import re number = r"\d+(,\d{3})*\.*\d*" print(re.search(number, "790,000.25..
-
BueatifulSoup 기초 및 활용 하기 05 - 네이버 블로그 스크래핑빅데이터/BeautifulSoup 2021. 12. 29. 13:07
유투브 '이수안컴퓨터연구소' 참조 네이버 블로그에 특정 키워드를 검색하여 스크래핑 예정 역시나 강의는 1년전 강의이므로 현재 강의처럼 사이트가 나오지 않는다 https://search.naver.com/search.naver?where=post&query= 위와같이 타이핑 하게되면 아래처럼 강의와 비슷한 화면을 볼 수 있다 * 기본 세팅 from bs4 import BeautifulSoup import urllib.request from urllib.parse import quote import pandas as pd def get_posts(query): ▶ 강의가 바뀌었기때문에 역시나 다시 한번 혼자서 스스로 해보자! 01 URL 세팅 및 기본 내용 들고 오기 어떻게 구조가 되어있는지 먼저 찾아보자 ..
-
BueatifulSoup 기초 및 활용 하기 04 - 네이버 뉴스 스크래핑빅데이터/BeautifulSoup 2021. 12. 22. 17:58
유투브 '이수안컴퓨터연구소' 참조 뉴스를 검색하고 나오는 결과에서 '네이버뉴스' 라고 붙은 결과물의 내용을 스크래핑 할 예정 하지만 강의와 현재 사이트 내용이 바뀌었다.. 하.. 혼자서 다시 해보자! 스크래핑시 기억해야할 부분 하나! 내가 보고있는 화면과 봇이 긁어오는 결과가 다를 수 있다! * 기본 세팅 from bs4 import BeautifulSoup as bs import requests from urllib.parse import quote import pandas as pd def get_news(): 01 URL 세팅 def get_news(query): url_query = quote(query) url = "https://search.naver.com/search.naver?where=..
-
BueatifulSoup 기초 및 활용 하기 03 - 네이버 영화 스크래핑빅데이터/BeautifulSoup 2021. 12. 15. 15:25
유투브 '이수안컴퓨터연구소' 참조 네이벼 영화로 들어가 평점-리뷰 부분을 스크래핑 할 예정 * 기본 세팅 from bs4 import BeautifulSoup as bs import requests import pandas as pd from urllib.parse import quote headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36'} ▶ 이번 강의에서는 'from urllib.parse import quote' 라는것을 처음 써본다 01 URL 분석 하나의 평점-리뷰를 클릭하면 이런 화면으로 이동하면..
-
BueatifulSoup 기초 및 활용 하기 02 - 뮤직 순위 스크래링빅데이터/BeautifulSoup 2021. 12. 14. 15:03
유투브 '이수안컴퓨터연구소' 참조 1년전의 강의라 네이버 뮤직이 바뀌었고 동적 페이지는 'requests'로 파싱을 할 수 없다. 그대신 아래의 사이트로 대신 하자. * 기본 세팅 from bs4 import BeautifulSoup as bs import requests import pandas as pd headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36'} url = "https://www.billboard.com/charts/hot-100/" r = requests.get(url, headers=hea..
-
BueatifulSoup 기초 및 활용 하기 02 - 순위 스크래핑빅데이터/BeautifulSoup 2021. 12. 14. 11:32
유투브 '이수안컴퓨터연구소' 참조 전 세계 웹사이트 순위 스크래핑 01 기본 타이틀 세팅 * 기본 세팅 from bs4 import BeautifulSoup as bs import requests import pandas as pd r = requests.get("https://www.alexa.com/topsites") r.status_code 200 1) DF를 사용해서 데이터 만들기 soup = bs(r.content, 'html.parser') rank_df = pd.DataFrame(columns = ("Rank", "Site", "Daily Time on Site", "Daily Pageviews per Visitor", "% of Traffic From Search", "Total Sites..
-
BueatifulSoup 기초 및 활용 하기 01 - 기초 문법빅데이터/BeautifulSoup 2021. 12. 13. 17:23
유투브 '이수안컴퓨터연구소' 참조 Beautifulsoup은 HTML/XML에서 데이터를 뽑아내기 위한 파이썬 라이브러리 HTML/XML의 트리구조를 탐색 가능하며 다양한 파서를 써서 파싱 가능 → 여러 가지 파서가 있지만 주로 'html.parser' or 'lxml' 을 많이 씀 01 기본 *BeautifulSoup 기본 세팅 from bs4 import BeautifulSoup as bs import requests soup = bs(html_doc, 'html.parser') * (파싱용, 파서) 들을 라이브러리를 통해 넣으면 된다 soup.title #파싱하고자하는 태그 이름 들고 옴 soup.title.name soup.title.text soup.title.parent.name soup.di..