전체 글
-
유형별 데이터 분석 맛보기 03 - 분류분석 - 로지스틱스 회귀분석 (2)빅데이터/Machine-Learning 2022. 2. 16. 20:49
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 01 분류분석 말 그대로 어떠한 데이터에서 분류를 하는 모델을 말한다. 분류 분석 모델에는 로지스틱스, SVM, 의사결정나무, K군집 등이 있다. 분류분석에는 크게 이진 분류, 다중 분류, 군집 분류로 나뉜다 분류분석의 가장 큰 예시는 스팸메일 분류이다. 텍스트가 들어왔을때 텍스트의 특징을 분석하여 스팸인지 아닌지 분류 가능 하다. 스팸인지 아닌지라는 개념처럼 이진분류 기반이다. 이진분류에서 가장 유명한 분류는 '로지스틱 회귀 모델' 이다. 이진 분류에 사용 되며 일반 회귀모델과 개념은 비슷하나 그 회귀에서 조금 더 발전하여 분류하는쪽으로 사용하는 개념이다. 회귀분석은 수치형만 가지고 가능 했다면 로지스틱 회귀분석은 범주형에..
-
유형별 데이터 분석 맛보기 03 - 분류분석 (1)빅데이터/Machine-Learning 2022. 2. 16. 19:47
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 ▶ 이번 챕터에서 학습할 내용 탐색적 데이터 분석 (EDA) 데이터셋 기초 정보 탐색 개별 피처의 정보 탐색 그룹 단위 특성 탐색 이진 분류 분석 로지스텍 분류 모델에 대한 이해 분류 분석에 필요한 전처리 기법 분류 모델의 결과 해석과 평가 군집 분류 분석 비지도 학습과 군집 분류 분석 K-means를 활용한 군집 분류 군집 분류 결과 해석과 시각화 포켓몬 데이터를 가지고 이진분류, 군집분류를 할 예정! 01 탐색적 데이터 분석 (EDA) * 기초 필요 라이브러리 import pandas as pd import numpy as np import matplotlib.pylab as plt import seaborn as sns..
-
유형별 데이터 분석 맛보기 02 - EDA & 회귀분석(3)빅데이터/Machine-Learning 2022. 2. 16. 16:47
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 보스턴 데이터셋으로 회귀분석이 어떻게 쓰이는지를 알아 보자! 01 데이터 전처리 피처들의 회귀분석에 적합하게 만들어야 한다. 피처들의 단위 표준화가 필요하다 예로 아래 그래프를 보면 각각의 피처들의 값이 우후죽순이다. 'Sklearn' 패키지를 훑어볼때 배웠던 'Scaler'로 하면 된다. 여기서 Scaler는 중고등학교때 배웠던 'z'값(표준화) 구하기가 반영된 패키지다. z값 수치로 표본들이 평균으로부터 몇 구간의 표준 편차만큼 떨어져 있는지 알려주는 값 (Scaler를 하게되면 평균 0 을 기준으로 표준편차 -2~2 내외로 세팅됨) # 1. 데이터 전처리 - 피처들의 단위 표준화 from sklearn.preproces..
-
유형별 데이터 분석 맛보기 02 - EDA & 회귀분석(2)빅데이터/Machine-Learning 2022. 2. 15. 21:45
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 ▶ 머신러닝 필수 개념 다시 잡기 머신러닝이란? 데이터를 Y(알고 싶은 것), X(알고 있는 것)으로 나누어 보자 Y = F(X)+E (Y=wX+b) 이런 관계가 있다고 가정 하자 여기서 f를 추정하는 방법들을 머신러닝이라고 한다 머신러닝과 프로그래밍은 서로 반대개념이다. 프로그래밍의 경우 X값을 넣고 F를 정해주면 Y가 되도록 프로그래밍을 한다. 즉 값이 나오도록 처음부터 끝까지 짜주는것이다. 머신러닝은 직접 프로그래밍하지않고 데이터를 컴퓨터에게 스스로 학습을 시켜 값을 추론하여 나오도록 하는 것. 통계학에서는 'Y = F(X)+E (Y=wX+b)' 이것을 True 모델이라하고 그럴 것이라고 가정을 한다. 그리고 x,y에 ..
-
유형별 데이터 분석 맛보기 01 - EDA & 회귀분석(1)빅데이터/Machine-Learning 2022. 2. 15. 16:07
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 01 데이터 분석이란? 데이터로 할 수 있는 모든 것들 머신러닝, 딥러닝, AI, 비지니스 인사이트, 통계, 분석 등 분석의 목적, 분야에 따라 여러가지의 기술들이 필요함 직무별로도 데이터 분석이 나뉜다. BA, Data Analystics, ML Engineer, Data Engineer, Data Scientist etc.. 알맞은 데이터 분석을 하려면 1) 목표에 대한 문제 정의 2) 문제 해결에 필요한 탐색적 데이터 분석 3) 목표에 맞는 분석 기법 적용 (산업군 혹은 직무에 맞게 회귀분석, 딥러닝, 시각화 등이 있다) 02 데이터 분석 문제를 정의하는 방식과 유형들 탐색적 데이터 분석 ('Exploratory Dat..
-
머신러닝 06 - sklearn 알아 보기 (비지도 학습)빅데이터/Machine-Learning 2022. 2. 14. 23:04
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 01 비지도 학습이란? 기계 학습의 일종으로 데이터가 어떻게 구성되었는지를 알아내는 문제의 범주에 속한다. 이 방법은 지도학습 혹은 강화학습과 달리 입력값에 대한 목표치가 주어지지 않는다 방법으로는 차원축소, 군집화가 있다 02 차원축소 feature의 개수를 줄이는 것을 넘어 특징을 추출하는 역할 PCA, LDA, SVD 로 나뉨 계산 비용을 절감하고 전반적인 데이터에 대한 이해도를 높이는 효과 ▶ PCA 주성분 분석(PCA)는 선형 차원 축소 기법이다. 매우 인기 있게 사용되는 차원 축소 기법 중 하나. 주요 특징중 하나는 분산(variance)을 최대한 보존 한다는 점 참조 블로그 (https://excelsior-cj..
-
머신러닝 05 - sklearn 알아 보기 (앙상블)빅데이터/Machine-Learning 2022. 2. 14. 21:25
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 01 앙상블 이란? 여러개의 머신러닝 모델을 이용해 최적의 답을 찾아내는 기법 여러 모델을 이용하여 데이터를 학습하고 그 이후 모든 모델의 예측결과를 평균하여 예측함 앙상블 대표 기법은 다음과 같다 보팅(Voting) - 투표를 통해 결과 도출 배깅(Bagging) - 샘플 중복 생성을 통해 결과 도출 부스팅(Boosting) - 이전 오차를 보완하면서 가중치 부여 스태킹(Stacking) - 여러 모델을 기반으로 예측된 결과를 통해 meta 모델이 다시 한번 예측 02 앙상블 진행을 위한 세팅 - 필요 데이터 세팅 import pandas as pd import numpy as np from IPython.display i..
-
머신러닝 05 - sklearn 알아 보기 (회귀 - 2)빅데이터/Machine-Learning 2022. 2. 14. 17:23
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 * 모델 성능 확인을 위한 함수 더보기 from sklearn.metrics import mean_absolute_error, mean_squared_error import matplotlib.pyplot as plt import seaborn as sns my_predictions = {} colors = ['r', 'c', 'm', 'y', 'k', 'khaki', 'teal', 'orchid', 'sandybrown', 'greenyellow', 'dodgerblue', 'deepskyblue', 'rosybrown', 'firebrick', 'deeppink', 'crimson', 'salmon', 'darkred',..