전체 글
-
SQL 04 - SQL 조금 더 깊게 보기SQL 2022. 3. 9. 13:48
패스트 캠퍼스 '한번에 끝내는 데이터 분석 초격차 패키지 Online' 강의 참조 01 원하는 형식으로 컬럼 가공 하기 -- 주문 데이터로 데이터 가공하기 -- 1. 원하는 형식으로 컬럼 가공하기 -- 1) 숫자를 문자열로 바꿔주기 select dt, cast(dt as varchar) as date from online_order oo -- 2) 문자열 컬럼에서 일부만 잘라내기 -- 앞에서 단어 하나씩부터 1로 시작, left, substring, right의 위치로부터 문자 번호를 찍으면 된다 select dt, left(cast(dt as varchar),4) as yyyy, substring(cast(dt as varchar), 5, 2) as mm, right(cast(dt as varchar)..
-
SQL 03 - 기본 문법 (2) (JOIN)SQL 2022. 3. 8. 17:05
패스트 캠퍼스 '한번에 끝내는 데이터 분석 초격차 패키지 Online' 강의 참조 01 데이터 세팅 및 탐색 'Table'에서 우클릭 → 데이터 가져오기를 통해 나머지 CSV파일을 넣고 이름은 아래와 같이 통일 주문 데이터를 분석할 예정. 2021년 6월 1일 하루동안의 데이터. -- 1. 데이터 탐색 select * from online_order oo select * from item i select * from category c select * from user_info ui 02 JOIN 기본 개념 두개이상의 테이블 혹인 데이터베이스를 연결하여 데이터를 검색하는 방법. 여러개의 테이블에 자신이 검색하고 싶은 컬럼들이 흩어져 있으면 여러개의 테이블을 마치 하나의 테이블인것처럼 활용하는 방법 - I..
-
SQL 02 - 기본 문법 (1) (SELECT/WHERE/GROUP BY/HAVING/ORDER BY)SQL 2022. 3. 8. 11:25
패스트 캠퍼스 '한번에 끝내는 데이터 분석 초격차 패키지 Online' 강의 참조 01 거래 데이터를 이용한 기본 문법 아래 'gmv_trend'는 KOSIS 웹사이트를 통해 다운 받은 데이터 이 데이터를 통해 기본문법을 수행해 보자! -- 1. 모든 컬럼 추출하기 ('*' -> 모두) select * from gmv_trend -- 2. 특정 컬럼 추출하기 (원하는 컬럼'명'을 적으면 됨) select category, yyyy, mm from gmv_trend -- 3. 중복값 없이 특정 컬럼 추출 ('distinct' -> 중복값 없앰) select distinct category from gmv_trend select distinct yyyy, mm from gmv_trend -- 2) 특정 연도..
-
SQL 01 - 설치SQL 2022. 3. 7. 19:36
패스트 캠퍼스 '한번에 끝내는 데이터 분석 초격차 패키지 Online' 강의 참조 01 SQL 이란? 실무에 들어가게되면 데이터는 어느곳에 쌓여있다. 이 데이터를 가지고 엑셀 툴을 이용해 리포팅 또는 분석을 하고 파이썬/R 등의 프로그래밍 언어로 통계분석/시각화를 진행하고 Tableau/Power BI 등을 통해 데이터를 조금더 구체적으로 보기 좋게 시각화 한다. 하지만 데이터를 바로 가져와 쓰기 힘들다. 이때 중간에서 'SQL' 을 통해 데이터를 가공, 정제, 집계등을 통한 후에 쓰기 쉽도록 만든다. 즉 데이터를 만남에있어 가장 첫번째 관문이 'SQL' 이다. - SQL 장점 가장 쉬우면서 보편적이다. 엑셀보다 오히려 쉽고 오류가 생겼을때 처리하는 부분만 적응하면 가장 간편하게 쓸 수 있는 툴이다 가장..
-
인구 통계 분석 - 위키피디아 크롤링 및 데이터 분석 02빅데이터/Data-Analysis 2022. 3. 5. 13:19
유투버 'todaycode오늘코드'님 강의 참조 통계청 데이터 '출생아수'로 진행 예정 01 데이터 준비 *데이터 다운로드 주소 https://kosis.kr/statHtml/statHtml.do?orgId=101&tblId=INH_1B81A01&vw_cd=MT_GTITLE01&list_id=101&seqNo=&lang_mode=ko&language=kor&obj_var_id=&itm_id=&conn_path=MT_GTITLE01 import pandas as pd df_kosis = pd.read_csv('출생아수_시도_시_군_구__20220305113211.csv',encoding='cp949') df_kosis.head() df_kosis.shape (19, 865) 02 데이터 전처리 분석전에는 ..
-
인구 통계 분석 - 위키피디아 크롤링 및 데이터 분석 01빅데이터/Data-Analysis 2022. 3. 4. 16:37
유투버 'todaycode오늘코드'님 강의 참조 위키피디아의 인구관련 페이지를 크롤링하고 그 데이터를 가지고 분석을 할 예정 01 크롤링 직접 크롤링을 돌려도 되나 판다스를 이용해서 더욱 더 편리하게 가능 하다. import pandas as pd url ='https://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%9D%B8%EA%B5%AC' pd.read_html(url) # 테이블 화 table = pd.read_html(url) len(table) # 리스트형태인 테이블을 인덱싱으로 각각 불러와진다 table[4] df = table[4] df.shape (97, 9) df.head() 02 시각화 및 분석 몇개의..
-
실전 예제 - 시계열 분석 13빅데이터/Data-Analysis 2022. 3. 3. 19:50
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 시계열 특성에 맞춰 적용 가능한 예측 모델을 만들어 볼 예정 01 시계열 예측 방법론 데이터 기반의 시계열 예측 방법론에는 금융/계량 분야와 딥러닝 분야로 나뉜다 최적화 기반의 시계열 예측 방법론 최적화 기반 - Dynamic Programming(동적 프로그래밍) 은 두가지가 있음 02 ARIMA 실습 지난시간에 했던 AR/MA 모델간의 장점을 합쳐 만든것이 ARMA모델인데 AR/MA/ARMA 모두 안정적이지 않기 때문에 차원을 넣어 몇 차원을 차분하면 안정적이게 될까 라고 해서 나온것이 'ARIMA' 모델 ARIMA 모델을 이용한 예측 모형을 만드는 순서는 다음과 같다 안정성 검토 → 데이터 특성에 맞는 모형 결정 (AR..
-
실전 예제 - 시계열 분석 13빅데이터/Data-Analysis 2022. 3. 3. 16:59
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 01 데이터 안정성 보장의 필요성 시계열 분석을 하다보면 시계열 모델은 'Stationary(변동이 없는)' 하다라는 말을 많이 듣는다. 즉 변동이 없고 시계열 데이터가 미래에 똑같은 모양일 확률이 매우 높다는 말이다. 즉 시계열이 안정적이지 않으면 현재의 패턴이 미래에 똑같이 재현되지 않으므로 안정적인 시계열을 써야 한다. 시계열의 안정성을 판별하는 방법은 '(Augmented) Dickey Fuller Test'라는 방법이 있다. 원 귀무가설은 원 계열은 안정적이지 않다라고 가정하에 시작한다. 예로 주가는 항상 올라갔다가 내려갔다가 안정적이지 않다는 것. 02 주기에 따른 특성 전시간에는 트렌드와 계절에 따른 요인을 분리..