빅데이터/BeautifulSoup
-
웹 크롤링 - BeautifulSoup+Pandas를 이용한 데이터 분석 3빅데이터/BeautifulSoup 2021. 12. 13. 12:47
인프런 '코딩교양스쿨' 강의 참조 판다스를 이용하여 앞서 얻은 자료들로 데이터 분석을 해보자 판다스 - 데이터 조작 및 분석을 위해 파이썬 프로그래밍 언어로 작성된 라이브러리 01 Pandas DataFrame 만드는 방법 2 가지 df1 = pd.DataFrame( {"이름:":['Son', 'Messi', 'Ronaldo'], "나이:":[28, 33, 35], "소속:":['Tottenham', 'Barcelona', 'Juventus']} ) -> DF의 기본 형태. 인덱스를 따로 지정하고 싶으면 인덱스 지정 가능 df1 = pd.DataFrame( {"이름:":['Son', 'Messi', 'Ronaldo'], "나이:":[28, 33, 35], "소속:":['Tottenham', 'Barcel..
-
웹 크롤링 - BeautifulSoup+Pandas를 이용한 데이터 분석 2빅데이터/BeautifulSoup 2021. 12. 11. 14:52
인프런 '코딩교양스쿨' 강의 참조 01 데이터 프레임으로 저장 *현재 까지 BeautifulSoup으로 아래 까지 진행 import requests from bs4 import BeautifulSoup as bs import pandas as pd import time headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36'} url = "https://www.transfermarkt.com/spieler-statistik/wertvollstespieler/marktwertetop" r = requests.get..
-
웹 크롤링 - BeautifulSoup+Pandas를 이용한 데이터 분석빅데이터/BeautifulSoup 2021. 12. 11. 14:41
인프런 '코딩교양스쿨' 강의 참조 01 웹 크롤링 VS 웹 스크래핑 웹 크롤링 OR 웹 스크래핑은 거의 같은 개념이라고 보면 된다. 위키피디아에 따르면 웹 스크래핑은 웹에 있는 데이터를 수집하는 기술을 뜻하고 웹 크롤링은 스크래핑시에 사용되는 기술(봇, 크롤러 등)을 의미 웹 스크래핑/크롤링 시에는 데이터를 수집하고자 하는 사이트에 무리가 가지않도록 조금씩 작게 천천히 해야하며 저작권과 금지되어있는(로봇 배제 표준 robots.txt)것들은 하지 않아야 한다 02 웹의 구성 HTML/CSS/JS 로 구성되어있으며 HTML - 뼈대, CSS - 꾸미는 용도, JS - 동적으로 만드는 기술이라고 알면 쉽다 HTML은 요소(elements)와 속성(attributes)로 이루어져 있다. 요소 - 태그를 의미 ..
-
웹 크롤링 - BeautifulSoup 기초 개념빅데이터/BeautifulSoup 2021. 12. 9. 09:44
01 웹 크롤링 및 스크래핑 개요 웹 크롤링 (Web Crawling) 웹 크롤러가 정해진 규칙에 따라 복수 개의 웹 페이지를 브라우징하는 작업 웹 스크래핑 (Web Scraping) 웹 페이지 상에서 원하는 콘텐츠 정보를 컴퓨터로 하여금 자동으로 추출 및 수집하는 기술 (주로 웹페이지의 구성요소의 콘텐츠나 속성값을 읽어와서 작업이 이루어 짐(HTML/CSS 등)) Python에서는 BeautifulSoup/Scrapy를 주로 많이 씀 02 Crawling 저작권 모든 사이트가 크롤링을 허용하는것은 아니다. 각각의 사이트에서 크롤링 봇이나 사람이 아닌것에 대한 접근이 있으면 사이트에서 차단을 하게 된다. 이때 차단과 관계없이 크롤링을 진행하도록 가능하게 하는것이 'User-agent' 상태. 이를 바꿔주..
-
BeautifulSoup 03 - Basics of data science tasks (2) - 위키피디아 영화 관련 스크래핑빅데이터/BeautifulSoup 2021. 12. 8. 09:06
유투버 'Keith Galli' 강의 참조 아래 위키피디아 링크로 이동 하여 진행 (https://en.wikipedia.org/wiki/List_of_Walt_Disney_Pictures_films) 리스트의 링크들을 타고 들어가서 그 링크들이 가지고 있는 인포 박스 따오기 기본 세팅 from bs4 import BeautifulSoup as bs import reques # Load the webpage r = requests.get("https://en.wikipedia.org/wiki/List_of_Walt_Disney_Pictures_films") # Convert tp a beautifulsoup object soup = bs(r.content, "lxml") # Print contents =..
-
BeautifulSoup 03 - Basics of data science tasks (1) - 위키피디아 영화 관련 스크래핑빅데이터/BeautifulSoup 2021. 12. 1. 01:56
유투버 'Keith Galli' 강의 참조 이번 강의는 'Jupyter'를 사용 하므로 다음 링크를 통해 설치를 하자 (https://zidarn87.tistory.com/314) 설치가 완료되면 항상 아래 화면이 기본 세팅이다. 위키피디아 긁어 보기 아래 페이지로 이동하여 시작 하자 간단 테스트 ('Toy Story 3'를 검색 후 이동 하여 인포메이션 박스를 스크래핑 해보자) ※ 기본 세팅은 항상 같지만 정말 중요한 개념이다 ! #Import necessary librires from bs4 import BeautifulSoup as bs import requests # Load the webpage r = requests.get("https://en.wikipedia.org/wiki/Toy_Stor..
-
BeautifulSoup 02 - Code Navigation/Exercise - 2빅데이터/BeautifulSoup 2021. 11. 28. 10:12
유투버 'Keith Galli' 강의 참조 'Photos'의 src 들고 와 보기 # t1 = webpage.select("div.row") # t2 = webpage.select("div.column") t3 = webpage.select("div.column img") t4 = [tt['src'] for tt in t3] print(t4) ['images/italy/lake_como.jpg', 'images/italy/pontevecchio.jpg', 'images/italy/riomaggiore.jpg'] *리스트로 담기니 꺼내는거는 인덱스를 활용하거나 for문을 써서 꺼내면 된다. for i in t4: print(i) images/italy/lake_como.jpg images/italy/pon..
-
BeautifulSoup 02 - Code Navigation/Exercise - 1빅데이터/BeautifulSoup 2021. 11. 24. 04:21
유투버 'Keith Galli' 강의 참조 BeautifulSoup 기본 세팅 import requests from bs4 import BeautifulSoup as bs import re r = requests.get("https://keithgalli.github.io/web-scraping/example.html") r.raise_for_status() soup = bs(r.content, "lxml") Code Navigation의 역할은 앞서 했던 코딩을 일일히 하기 보다는 보다 간단히 찾기 위한 용도 a = soup.body.div.h1.string print(a) HTML Webpage 태그명과 내용 중복없이 명확하다면 일일이 find/select 할 필요 없이 이렇게 찾을 수 있다 Cod..