빅데이터
-
머신러닝 06 - sklearn 알아 보기 (비지도 학습)빅데이터/Machine-Learning 2022. 2. 14. 23:04
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 01 비지도 학습이란? 기계 학습의 일종으로 데이터가 어떻게 구성되었는지를 알아내는 문제의 범주에 속한다. 이 방법은 지도학습 혹은 강화학습과 달리 입력값에 대한 목표치가 주어지지 않는다 방법으로는 차원축소, 군집화가 있다 02 차원축소 feature의 개수를 줄이는 것을 넘어 특징을 추출하는 역할 PCA, LDA, SVD 로 나뉨 계산 비용을 절감하고 전반적인 데이터에 대한 이해도를 높이는 효과 ▶ PCA 주성분 분석(PCA)는 선형 차원 축소 기법이다. 매우 인기 있게 사용되는 차원 축소 기법 중 하나. 주요 특징중 하나는 분산(variance)을 최대한 보존 한다는 점 참조 블로그 (https://excelsior-cj..
-
머신러닝 05 - sklearn 알아 보기 (앙상블)빅데이터/Machine-Learning 2022. 2. 14. 21:25
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 01 앙상블 이란? 여러개의 머신러닝 모델을 이용해 최적의 답을 찾아내는 기법 여러 모델을 이용하여 데이터를 학습하고 그 이후 모든 모델의 예측결과를 평균하여 예측함 앙상블 대표 기법은 다음과 같다 보팅(Voting) - 투표를 통해 결과 도출 배깅(Bagging) - 샘플 중복 생성을 통해 결과 도출 부스팅(Boosting) - 이전 오차를 보완하면서 가중치 부여 스태킹(Stacking) - 여러 모델을 기반으로 예측된 결과를 통해 meta 모델이 다시 한번 예측 02 앙상블 진행을 위한 세팅 - 필요 데이터 세팅 import pandas as pd import numpy as np from IPython.display i..
-
머신러닝 05 - sklearn 알아 보기 (회귀 - 2)빅데이터/Machine-Learning 2022. 2. 14. 17:23
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 * 모델 성능 확인을 위한 함수 더보기 from sklearn.metrics import mean_absolute_error, mean_squared_error import matplotlib.pyplot as plt import seaborn as sns my_predictions = {} colors = ['r', 'c', 'm', 'y', 'k', 'khaki', 'teal', 'orchid', 'sandybrown', 'greenyellow', 'dodgerblue', 'deepskyblue', 'rosybrown', 'firebrick', 'deeppink', 'crimson', 'salmon', 'darkred',..
-
머신러닝 04 - sklearn 알아 보기 (분류 - 3, 회귀 - 1)빅데이터/Machine-Learning 2022. 2. 11. 21:42
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 01 오차 및 정확도의 함정 분류함에 있어 평가지표가 중요하다. 그 중 하나가 정확도이다. 하지만 이 정확도에 함정이 있다 유방암 환자 데이터셋을 베이스로 알아 보자 from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split import numpy as np cancer = load_breast_cancer() print(cancer['DESCR']) cancer.keys() 이 키들을 합쳐서 데이터프레임화를 해보면.. data = cancer['data'] target = cancer['target'] ..
-
머신러닝 03 - sklearn 알아 보기 (분류 - 2 (몇가지 알고리즘))빅데이터/Machine-Learning 2022. 2. 8. 21:39
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 첫 강의에서 서술했듯이 sklearn은 많은 알고리즘을 제공 한다 01 회귀 알고리즘 로지스틱 회귀 (Logistic regression) - 독립 변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는 기법 로지스틱 회귀는 서포트 벡터 머신(SVM)과 같은 개념으로 2진 분류만 가능 (2개의 클래스 판별만 가능) 3개이상일 경우 아래와 같이 달라짐 ONE-VS-REST(OvR) - K개의 클래스가 존재할 때, 1개의 클래스를 제외한 다른 클래스를 K개 만들어, 각각의 이진 분류에 대한 롹률을 구하고 총합을 통해 최종 클래스를 판별 ONE-VS-ONE(OvO) - 4개의 계절을 구분하는 클래스가 존재한다고 가정했을때, 0..
-
머신러닝 03 - sklearn 알아 보기 (분류 - 1)빅데이터/Machine-Learning 2022. 2. 8. 16:33
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 머신러닝 분류는 sklearn에서 제공해주는 데이터 세트로 진행 예정 시작 전 경고 출력 방지 하나를 걸고 하자 import warnings # 불필요한 경고 출력 방지 warnings.filterwarnings('ignore') 01 꽃 종류 분류 하기 sklearn에서 제공하는 데이터 세트중 하나인 'iris'를 사용 붓꽃 데이터셋을 학습한 뒤 품종을 판별하는 모델 import pandas as pd from sklearn.datasets import load_iris iris = load_iris() data - feautre data feature_name - feature data의 컬럼 이름 target - lab..
-
머신러닝 02 - sklearn 알아 보기 (전처리)빅데이터/Machine-Learning 2022. 2. 7. 21:40
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 01 전처리 기본 전처리는 데이터를 분석에 적합하게 데이터를 가공/변형/처리/클리닝을 하는 작업이다 'Garbage in, Garbage out!' 데이터가 깔끔하지않으면(이상치가 많다거나) 성능이 현저하게 떨어진다. 분석가의 80%시간을 데이터 수집 및 전처리에 사용 한다고 전해진다. - 전처리 과정은 다음과 같다 결측치 (Imputer) - 데이터의 빠진 부분을 처리 이상치 - 데이터에 이상치가 있을때 처리 정규화(Normalization) 표준화(Standardization) 샘플링(over/under smapling) 피처 공학(Feature Enginerring) - feature 생성/연산 - 구간 생성, 스케일 ..
-
머신러닝 01 - 정의와 용어 그리고 sklearn 기본빅데이터/Machine-Learning 2022. 2. 4. 20:15
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 01 머신러닝이란? 알파고? 딥러닝? 머신러닝? 인공지능? 여러가지 단어들이 있다. 각각의 단어들이 뜻하는 바는 다르다 명확하게 하고 가자 인공지능 - 사람의 지능을 모방하여 사람이 하는것과 같이 복잡한 일을 할 수 있는 기계를 만드는 것 머신러닝 - 알고리즘을 이용해 데이터를 분석 및 학습하여 학습한 내용을 기반으로 판단 및 예측을 하게 함 딥러닝 - 인공신경망에서 발전한 형태의 인공 지능. 머신러닝 중 하나의 방법론 ▶ 즉 머신러닝이란 데이터를 기반으로 패턴을 학습하여 결과를 추론하는 것! 과거에는 데이터를 기반으로 사람이 알고리즘을 짜고 입력하여 예측을 했다면 머신러닝은 중간작업은 모르지만 데이터 + 예측값만 쥐어주면 ..