데이터 분석
-
[데이터전처리] 컬럼이 다른 데이터셋 병합하기데이터 분석 2021. 9. 12. 22:31
두 개의 데이터셋 살펴보기 두 개의 데이터셋 df_first, df_last는 다음과 같다. df_first.head() df_last.head() melt를 이용하여 reshaping 지역에 따라 각 기간별 평당분양가격으로 melt 한다. # pd.melt 를 사용하며, 녹인 데이터는 df_first_melt 변수에 담는다. df_first_melt = df_first.melt(id_vars="지역", var_name="기간", value_name="평당분양가격") df_first_melt.head() df_last 데이터셋의 column 이름에 맞춰 변경한다. # df_first_melt 변수에 담겨진 컬럼의 이름을 # ["지역명", "기간", "평당분양가격"] 으로 변경합니다. df_first_me..
-
[판다스&Seaborn] 데이터 시각화 (line, bar, relplot, catplot, violinplot, boxplot)데이터 분석 2021. 9. 12. 18:48
선 그래프와 막대 그래프 판다스를 이용하여 그래프를 그리고자 한다. 데이터는 앞서 사용한 전국 아파트 분양 가격을 이용한다. # 지역명으로 분양 가격의 평균을 구하고 선 그래프로 시각화 한다. g = df_last.groupby(["지역명"])["평당분양가격"].mean().sort_values(ascending=False) g.plot() # 지역명으로 분양 가격의 평균을 구하고 막대 그래프로 시각화 한다. g.plot.bar(rot=0, figsize=(10, 3)) # 전용면적으로 분양가격의 평균을 구하고 막대그래프로 시각화 한다. df_last.groupby(["전용면적"])["평당분양가격"].mean().plot.bar() # 연도별 분양가격의 평균을 구하고 막대그래프(bar)로 시각화 합니다...
-
[판다스] pivot table로 데이터 집계하기데이터 분석 2021. 9. 12. 18:31
pivot table과 groupby 차이점 groupby 대신 pivot_table로 데이터 집계 가능하다. groupby를 사용하면 series 형태로 결과가 나온다. pivot_table 결과는 data frame 형태로 결과가 나온다. pivot_table 예시 평당분양가격의 평균값을 지역명에 따라 집계 하라. pd.pivot_table(df_last, index=["지역명"], values=["평당분양가격"], aggfunc="mean") # df_last.groupby(["전용면적"])["평당분양가격"].mean() # pivot과 pivot_table의 가장 큰 차이점은 aggregation 기능이 있느냐 없느냐 차이. # pivot_table의 aggregation default 값은 me..
-
[판다스] 아파트 분양 가격 데이터 분석데이터 분석 2021. 9. 10. 22:17
분석 내용 2013년부터 2019년까지의 전국 신규 민간 아파트의 분양 가격 동향을 분석한다. 다른 데이터셋을 가공하여 병합한다. 데이터 전처리 후에 시각화한다. 데이터셋은 공공데이터 포럼 (https://www.data.go.kr) 전국 평균 분양가격(2013년 9월부터 2015년 8월까지) 주택도시보증공사_전국 평균 분양가격(2019년 12월) 활용 functions concat, pivot, transpose in Pandas groupby, pivot_table, info, describe, value_counts bar plot, line plot, scatter plot, lm plot, 히트맵, 상자수염그림, swarm plot, 도수분포표, 히스토그램 import pandas as pd i..