판다스
-
[n113] Data Manipulation (concat, merge, melt, pivot, conditioning)AI 부트캠프 2021. 9. 13. 09:25
학습 내용 데이터를 concat / merge. tidy 데이터 에 대한 개념을 이해. melt와 pivot / pivot_table 함수를 사용. 여러개로 나뉘어 있는 데이터셋을 병합해야 하는 경우가 많다. 판다스를 통해 데이터를 합치는 과정을 배운다. Concat 2개의 문자열을 더하는 기능이다. data frame은 concat을 통해 붙일 수 있다. 문자를 더하는 다른 함수 예시 tostring join 문자를 나누는 함수 예시 split 코드 실행 pd.concat([x, y]) # column을 기준으로 붙일 때는 axis=1을 설정. df_stock_combined = pd.concat([df_stock, df_theme], axis=1) df_stock_combined axis=1로 설정하..
-
[판다스&Seaborn] 데이터 시각화 (line, bar, relplot, catplot, violinplot, boxplot)데이터 분석 2021. 9. 12. 18:48
선 그래프와 막대 그래프 판다스를 이용하여 그래프를 그리고자 한다. 데이터는 앞서 사용한 전국 아파트 분양 가격을 이용한다. # 지역명으로 분양 가격의 평균을 구하고 선 그래프로 시각화 한다. g = df_last.groupby(["지역명"])["평당분양가격"].mean().sort_values(ascending=False) g.plot() # 지역명으로 분양 가격의 평균을 구하고 막대 그래프로 시각화 한다. g.plot.bar(rot=0, figsize=(10, 3)) # 전용면적으로 분양가격의 평균을 구하고 막대그래프로 시각화 한다. df_last.groupby(["전용면적"])["평당분양가격"].mean().plot.bar() # 연도별 분양가격의 평균을 구하고 막대그래프(bar)로 시각화 합니다...
-
[판다스] pivot table로 데이터 집계하기데이터 분석 2021. 9. 12. 18:31
pivot table과 groupby 차이점 groupby 대신 pivot_table로 데이터 집계 가능하다. groupby를 사용하면 series 형태로 결과가 나온다. pivot_table 결과는 data frame 형태로 결과가 나온다. pivot_table 예시 평당분양가격의 평균값을 지역명에 따라 집계 하라. pd.pivot_table(df_last, index=["지역명"], values=["평당분양가격"], aggfunc="mean") # df_last.groupby(["전용면적"])["평당분양가격"].mean() # pivot과 pivot_table의 가장 큰 차이점은 aggregation 기능이 있느냐 없느냐 차이. # pivot_table의 aggregation default 값은 me..
-
[판다스] 아파트 분양 가격 데이터 분석데이터 분석 2021. 9. 10. 22:17
분석 내용 2013년부터 2019년까지의 전국 신규 민간 아파트의 분양 가격 동향을 분석한다. 다른 데이터셋을 가공하여 병합한다. 데이터 전처리 후에 시각화한다. 데이터셋은 공공데이터 포럼 (https://www.data.go.kr) 전국 평균 분양가격(2013년 9월부터 2015년 8월까지) 주택도시보증공사_전국 평균 분양가격(2019년 12월) 활용 functions concat, pivot, transpose in Pandas groupby, pivot_table, info, describe, value_counts bar plot, line plot, scatter plot, lm plot, 히트맵, 상자수염그림, swarm plot, 도수분포표, 히스토그램 import pandas as pd i..
-
[n112] Feature EngineeringAI 부트캠프 2021. 9. 10. 16:25
Feature Engineering란 무엇인가 Raw data에서 수학, 통계, 도메인 knowledge들을 이용하여 유용한 features를 재조합 및 추출하는 과정이다. 예를 들어, outlier detection, one hot encoding, handling missing values 등이 있다. Garbage In -> Garbage Out, 즉 정돈 되지 않은 데이터를 넣으면 결과값도 garbage일 수 밖에 없다. 그러므로 Feature engineering으로 유용한 데이터를 추출할 필요가 있다. DataFrame 간단히 설명하자면, 데이터 프레임은 테이블 형태의 데이터이다. NaN, Null, 0, Undefined 의 차이는 무엇인가 Nan는 float 타입을 갖는다. String R..
-
[n111] Pandas in ColabAI 부트캠프 2021. 9. 9. 18:02
데이터셋 불러오기 import pandas as pd travel_data_url = 'https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/stocks/Travel.xlsx' # 엑셀 파일의 첫번째 시트를 불러온다. df1 = pd.read_excel(travel_data_url, sheet_name=0) # row 와 column을 서로 transpose 한다. df1 = df1.T # 첫 번째 row를 df1_header에 입력한다. df1_header = df1.iloc[0] # 헤더 아래부터 데이터를 입력한다. df1 = df1[1:] # 첫 번째 row를 헤더로 설정한다. df1.columns = df1_header df1.head() 데이터 확인..