빅데이터
-
인구 통계 분석 - 위키피디아 크롤링 및 데이터 분석 02빅데이터/Data-Analysis 2022. 3. 5. 13:19
유투버 'todaycode오늘코드'님 강의 참조 통계청 데이터 '출생아수'로 진행 예정 01 데이터 준비 *데이터 다운로드 주소 https://kosis.kr/statHtml/statHtml.do?orgId=101&tblId=INH_1B81A01&vw_cd=MT_GTITLE01&list_id=101&seqNo=&lang_mode=ko&language=kor&obj_var_id=&itm_id=&conn_path=MT_GTITLE01 import pandas as pd df_kosis = pd.read_csv('출생아수_시도_시_군_구__20220305113211.csv',encoding='cp949') df_kosis.head() df_kosis.shape (19, 865) 02 데이터 전처리 분석전에는 ..
-
인구 통계 분석 - 위키피디아 크롤링 및 데이터 분석 01빅데이터/Data-Analysis 2022. 3. 4. 16:37
유투버 'todaycode오늘코드'님 강의 참조 위키피디아의 인구관련 페이지를 크롤링하고 그 데이터를 가지고 분석을 할 예정 01 크롤링 직접 크롤링을 돌려도 되나 판다스를 이용해서 더욱 더 편리하게 가능 하다. import pandas as pd url ='https://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%9D%B8%EA%B5%AC' pd.read_html(url) # 테이블 화 table = pd.read_html(url) len(table) # 리스트형태인 테이블을 인덱싱으로 각각 불러와진다 table[4] df = table[4] df.shape (97, 9) df.head() 02 시각화 및 분석 몇개의..
-
실전 예제 - 시계열 분석 13빅데이터/Data-Analysis 2022. 3. 3. 19:50
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 시계열 특성에 맞춰 적용 가능한 예측 모델을 만들어 볼 예정 01 시계열 예측 방법론 데이터 기반의 시계열 예측 방법론에는 금융/계량 분야와 딥러닝 분야로 나뉜다 최적화 기반의 시계열 예측 방법론 최적화 기반 - Dynamic Programming(동적 프로그래밍) 은 두가지가 있음 02 ARIMA 실습 지난시간에 했던 AR/MA 모델간의 장점을 합쳐 만든것이 ARMA모델인데 AR/MA/ARMA 모두 안정적이지 않기 때문에 차원을 넣어 몇 차원을 차분하면 안정적이게 될까 라고 해서 나온것이 'ARIMA' 모델 ARIMA 모델을 이용한 예측 모형을 만드는 순서는 다음과 같다 안정성 검토 → 데이터 특성에 맞는 모형 결정 (AR..
-
실전 예제 - 시계열 분석 13빅데이터/Data-Analysis 2022. 3. 3. 16:59
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 01 데이터 안정성 보장의 필요성 시계열 분석을 하다보면 시계열 모델은 'Stationary(변동이 없는)' 하다라는 말을 많이 듣는다. 즉 변동이 없고 시계열 데이터가 미래에 똑같은 모양일 확률이 매우 높다는 말이다. 즉 시계열이 안정적이지 않으면 현재의 패턴이 미래에 똑같이 재현되지 않으므로 안정적인 시계열을 써야 한다. 시계열의 안정성을 판별하는 방법은 '(Augmented) Dickey Fuller Test'라는 방법이 있다. 원 귀무가설은 원 계열은 안정적이지 않다라고 가정하에 시작한다. 예로 주가는 항상 올라갔다가 내려갔다가 안정적이지 않다는 것. 02 주기에 따른 특성 전시간에는 트렌드와 계절에 따른 요인을 분리..
-
실전 예제 - 시계열 분석 12빅데이터/Data-Analysis 2022. 3. 3. 11:36
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 01 시계열 분석이란? 금융분야에는 예전부터 데이터분석이 활발히 진행 되었다. 은행, 보험사, 카드사 등등 은행/카드사는 신용등급 평가 모형에 따른 대출 승인을 진행 카드사/핀테크사는 소비내역 기반으로 카드 추천, 가맹전 추천등에 활용 보험사는 가입자 생애주기 건강관련 모든것을 예측하려고 함 이렇게 금융사들은 자기들의 이익에 되는 부분에 데이터 분석은 필수. 뿐만 아니라 경기변동, 성장률, 환율, 주식가격등도 예측하고 여기에는 항상 시계열 분석이 주로 쓰임 시계열 분석은 과거 데이터를 분석하여 미래를 예측하는 경우를 칭함. 단순 눈으로 과거데이터에서 얻을 수 없는것들을 시계열 분석을 통해 인사이트를 발굴함 예로 증권사에서는 ..
-
실전 예제 - 온-오프라인 비지니스 분석 11빅데이터/Data-Analysis 2022. 3. 2. 19:56
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 01 월별 매출액 # for문을 이용해서 날짜데이터를 string으로 변환후 원하는 포맷으로 출력하기 # # row가 많아 시간이 조금 걸릴 수 있습니다. # # date.strftime(format) : 지정된 포맷에 맞춰 date 객체의 정보를 문자열로 반환합니다. for i in range(len(df_clean)): # i번째 'date'칼럼에 원하는 값 지정 date = df_clean['order_approved_at'][i].strftime('%Y%m') df_clean.loc[ i, 'order_date'] = date # apply lambda를 이용해서 날짜데이터를 string으로 변환후 원하는 포맷으로 출..
-
실전 예제 - 온-오프라인 비지니스 분석 10빅데이터/Data-Analysis 2022. 3. 2. 17:27
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 01 상품 주문 고객들 확인 (olist-customer_dataset) df = pd.read_csv('olist_customers_dataset.csv') df.head() # 데이터 확인 df.info() # Column Non-Null Count Dtype --- ------ -------------- ----- 0 customer_id 99441 non-null object 1 customer_unique_id 99441 non-null object 2 customer_zip_code_prefix 99441 non-null int64 3 customer_city 99441 non-null object 4 custom..
-
실전 예제 - 온-오프라인 비지니스 분석 09빅데이터/Data-Analysis 2022. 3. 1. 12:45
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 엑셀은 사람들이 가장 쉽게 접하고 데이터를 쉽게 다를 수 있는 툴이다. 하지만 어느정도 데이터를 다룰 수 있으나 데이터가 점점 방대해지면 한계점이 극명해진다. 각기 다른 데이터 형태, 시각화 등 엑셀에서 하기 정말 어려운 데이터들이 많이 있다. 파이썬은 엑셀의 단점을 완벽히 커버 할 수 있다 이번 강의는 이커머스 데이터와 패스트푸드점 데이터로 진행 될 예정 01 기본 설정 강의를 진행하기 위해서 두가지 라이브러리를 설치 해 주자 pip install missingno # 판다스의 데이터 프레임 결측치를 찾는 기능 제공 pip install squarify # 트리맵 시각화 라이브러리 필요 라이브러리 # 필수 라이브러리 imp..