빅데이터/Machine-Learning
-
유형별 데이터 분석 맛보기 06 - 감성분석빅데이터/Machine-Learning 2022. 2. 18. 18:12
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 01 감성분류란? 문장들로부터 어떠한 특정 성향을 가지는지 알아보는 모델 감성분류는 3가지의 스텝으로 이루어 진다. 1) 텍스트 데이터 전처리 - 기계가 이해하도록 만듬 2) 이진 분류 - 특정 문장 혹은 단어를 분류형태로 만듬 3) 긍/부정 키워드 분석 - 분류된 이진 데이터에서 개수를 세어 긍정과 부정으로 나뉘는것들을 분석 02 EDA * 필수 라이브러리 %matplotlib inline import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings..
-
유형별 데이터 분석 맛보기 05 - 텍스트 마이닝빅데이터/Machine-Learning 2022. 2. 18. 13:46
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 01 텍스트 마이닝이란? 마이닝에서 알다싶이 무언가를 캐낸다라는 맥락이다. 즉 테스트 마이닝은 텍스트(텍스트 데이터)에서 무언가를, 인사이트를 캐낸다라는 뜻 텍스트 데이터는 비정형인데 텍스트 마이닝에서 가장 중요한 부분은 비정형 데이터를 사용 가능하도록 정형 데이터로 바꿔주는 작업이다 워드클라우드 시각화, 감성분류 등이 텍스트 마이닝을 혼합한 기법으로 볼 수 있다 02 텍스트를 계산 가능한 데이터로 처리하는 방법 BoW(Bag of Words) - 형태소를 추출하는 방법 "김기사 그 양반. 선을 넘을 듯, 말 듯 하면서 절대 넘지 않아. 근데, 냄새가 선을 넘지." 라는 문장에서 불용어가 아닌 형태소를 추출 → ['김기사',..
-
유형별 데이터 분석 맛보기 03 - 분류분석 - 로지스틱스 회귀분석 (3)빅데이터/Machine-Learning 2022. 2. 17. 15:15
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 로지스틱스 회귀분석 실습을 해보자 01 데이터 전처리 EDA가 완료된 포켓몬 데이터셋을 이용하여 레전더리 여부를 분류하는 실습! 현재의 레전더리 데이터 상태는 다음과 같다 숫자형을 제외하고 쓰고자하는 데이터는 타입을 알맞게 바꿔줘야 한다 # 데이터 타입 변경 df['Legendary'] = df['Legendary'].astype(int) df['Generation'] = df['Generation'].astype(str) preprocessed_df = df[['Type 1', 'Type 2','Total','HP','Attack','Defense','Sp. Atk','Sp. Def', 'Speed', 'Generation..
-
유형별 데이터 분석 맛보기 03 - 분류분석 - 로지스틱스 회귀분석 (2)빅데이터/Machine-Learning 2022. 2. 16. 20:49
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 01 분류분석 말 그대로 어떠한 데이터에서 분류를 하는 모델을 말한다. 분류 분석 모델에는 로지스틱스, SVM, 의사결정나무, K군집 등이 있다. 분류분석에는 크게 이진 분류, 다중 분류, 군집 분류로 나뉜다 분류분석의 가장 큰 예시는 스팸메일 분류이다. 텍스트가 들어왔을때 텍스트의 특징을 분석하여 스팸인지 아닌지 분류 가능 하다. 스팸인지 아닌지라는 개념처럼 이진분류 기반이다. 이진분류에서 가장 유명한 분류는 '로지스틱 회귀 모델' 이다. 이진 분류에 사용 되며 일반 회귀모델과 개념은 비슷하나 그 회귀에서 조금 더 발전하여 분류하는쪽으로 사용하는 개념이다. 회귀분석은 수치형만 가지고 가능 했다면 로지스틱 회귀분석은 범주형에..
-
유형별 데이터 분석 맛보기 03 - 분류분석 (1)빅데이터/Machine-Learning 2022. 2. 16. 19:47
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 ▶ 이번 챕터에서 학습할 내용 탐색적 데이터 분석 (EDA) 데이터셋 기초 정보 탐색 개별 피처의 정보 탐색 그룹 단위 특성 탐색 이진 분류 분석 로지스텍 분류 모델에 대한 이해 분류 분석에 필요한 전처리 기법 분류 모델의 결과 해석과 평가 군집 분류 분석 비지도 학습과 군집 분류 분석 K-means를 활용한 군집 분류 군집 분류 결과 해석과 시각화 포켓몬 데이터를 가지고 이진분류, 군집분류를 할 예정! 01 탐색적 데이터 분석 (EDA) * 기초 필요 라이브러리 import pandas as pd import numpy as np import matplotlib.pylab as plt import seaborn as sns..
-
유형별 데이터 분석 맛보기 02 - EDA & 회귀분석(3)빅데이터/Machine-Learning 2022. 2. 16. 16:47
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 보스턴 데이터셋으로 회귀분석이 어떻게 쓰이는지를 알아 보자! 01 데이터 전처리 피처들의 회귀분석에 적합하게 만들어야 한다. 피처들의 단위 표준화가 필요하다 예로 아래 그래프를 보면 각각의 피처들의 값이 우후죽순이다. 'Sklearn' 패키지를 훑어볼때 배웠던 'Scaler'로 하면 된다. 여기서 Scaler는 중고등학교때 배웠던 'z'값(표준화) 구하기가 반영된 패키지다. z값 수치로 표본들이 평균으로부터 몇 구간의 표준 편차만큼 떨어져 있는지 알려주는 값 (Scaler를 하게되면 평균 0 을 기준으로 표준편차 -2~2 내외로 세팅됨) # 1. 데이터 전처리 - 피처들의 단위 표준화 from sklearn.preproces..
-
유형별 데이터 분석 맛보기 02 - EDA & 회귀분석(2)빅데이터/Machine-Learning 2022. 2. 15. 21:45
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 ▶ 머신러닝 필수 개념 다시 잡기 머신러닝이란? 데이터를 Y(알고 싶은 것), X(알고 있는 것)으로 나누어 보자 Y = F(X)+E (Y=wX+b) 이런 관계가 있다고 가정 하자 여기서 f를 추정하는 방법들을 머신러닝이라고 한다 머신러닝과 프로그래밍은 서로 반대개념이다. 프로그래밍의 경우 X값을 넣고 F를 정해주면 Y가 되도록 프로그래밍을 한다. 즉 값이 나오도록 처음부터 끝까지 짜주는것이다. 머신러닝은 직접 프로그래밍하지않고 데이터를 컴퓨터에게 스스로 학습을 시켜 값을 추론하여 나오도록 하는 것. 통계학에서는 'Y = F(X)+E (Y=wX+b)' 이것을 True 모델이라하고 그럴 것이라고 가정을 한다. 그리고 x,y에 ..
-
유형별 데이터 분석 맛보기 01 - EDA & 회귀분석(1)빅데이터/Machine-Learning 2022. 2. 15. 16:07
패스트캠퍼스 '직장인을 위한 파이썬 데이터분석 올인원 패키치 Online' 참조 01 데이터 분석이란? 데이터로 할 수 있는 모든 것들 머신러닝, 딥러닝, AI, 비지니스 인사이트, 통계, 분석 등 분석의 목적, 분야에 따라 여러가지의 기술들이 필요함 직무별로도 데이터 분석이 나뉜다. BA, Data Analystics, ML Engineer, Data Engineer, Data Scientist etc.. 알맞은 데이터 분석을 하려면 1) 목표에 대한 문제 정의 2) 문제 해결에 필요한 탐색적 데이터 분석 3) 목표에 맞는 분석 기법 적용 (산업군 혹은 직무에 맞게 회귀분석, 딥러닝, 시각화 등이 있다) 02 데이터 분석 문제를 정의하는 방식과 유형들 탐색적 데이터 분석 ('Exploratory Dat..