빅데이터/Pandas
-
Pands 한번에 끝내기 03 - 데이터 과학의 핵심(문자열/시계열/데이터정제/파일 저장-열기)빅데이터/Pandas 2022. 1. 20. 12:10
유투버 '이수안컴퓨터연구소'님 강의 참조 01 문자열 연산 문자열 연산. 기존 파이썬에서 제공하는것들과 동일. 차이는 .str.'원하는 문자열 연산' 형식으로 코드 그외 기타 연산자도 있음 02 시계열 처리 시계열 처리 - 판다스는 보통 금융쪽에많이쓰는데 금융에서는 시계열 처리가 많이 필요 하다. 시계열 처리에서 가장 강점은 특정 시간대를 기준으로 처리가 가능하다는 점이다. 시계열 데이터 구조는 아래와 같다 - 시계열 기본 - 주기와 오프셋 - 시프트(Shift) - 시간대 처리 국제표준시 (UTF) 를 기준으로 떨어진 거리만큼 오프셋 적용 가능 'pytz'를 써서 처리 - 기간과 연산 - 리샘플링 리샘플링 - 시계열의 빈도 변환 다운샘플링 - 상위 빈도 데이터를 하위 빈도 데이터로 집계 업샘플링 - 하..
-
Pands 한번에 끝내기 02 - 데이터 과학의 핵심(연산/결합/그룹화)빅데이터/Pandas 2022. 1. 19. 20:25
유투버 '이수안컴퓨터연구소'님 강의 참조 01 데이터 연산 # .exp() - 지수함수(e^x)로 변환 np.exp(s) 0 1.000000 1 1096.633158 2 7.389056 3 20.085537 4 8103.083928 dtype: float64 np.cos(df * np.pi / 4) ABC 07.071068e-010.707107-0.707107 11.000000e+001.000000-0.707107 2-1.836970e-160.707107-0.707107 *2/3차원 연산도 가능하며 매칭이 안되는 부분은 NaN 처리 됨 #.add() - 덧셈 s1 = pd.Series([1,2,3], index=[0,1,2]) s2 = pd.Series([4,5,6], index=[1,2,3]) s1.a..
-
Pands 한번에 끝내기 01 - 데이터 과학의 핵심(인덱싱)빅데이터/Pandas 2022. 1. 19. 08:10
유투버 '이수안컴퓨터연구소'님 강의 참조 01 Pandas 관계 또는 레이블링 데이터로 쉽고 직관적으로 작업할 수 있도록 고안된 빠르고, 유연하고, 표현력이 뛰어난 데이터 구조를 제공하는 Python 패키지 - Pandas 특징 소수점이 아닌 데이터뿐만 아니라 부동 소수점 데이터에서도 결측 데이터 (NaN)을 쉽게 처리 크기 변이성(Size mutability): DataFrame으로 고차원 객체에서 열을 삽입 및 삭제 가능 자동 및 명시적 데이터 정렬 - 라벨로 정렬하거나 라벨을 무시하고 Series, DataFrame등의 계산에서 자동으로 조절 가능 데이터 세트에서 집계 및 변환을 위한 분할(split), 적용(apply), 결합(combine) 작업을 할 수 있는 'group-by' 함수 지원 누락..