pandas
-
[상권 정보 분석] 기술 통계 분석데이터 분석 2021. 9. 14. 16:39
Describe로 요약하기 데이터의 갯수, 평균, 표준편차, 최솟값, 1사분위수(25%), 2사분위수(50%), 3사분위수(75%), 최댓값 등을 포함한다. # describe 로 기술통계값을 확인. # 25%: 1사분위수, 50%: 2사분위수, 75%: 3사분위수 df.describe() 데이터프레임은 2차 형태이므로, 리스트 형식으로 넣어준다. # 위도, 경도 데이터만 가져온다. df[['위도', '경도']].describe() 단변량 수치형 변수 시각화 # 위도의 distplot # 현재 데이터셋이 서울, 부산 지역이므로 두 개의 정규분포로 나온다. # 막대를 촘촘히 그리고 싶으로면 bins 값을 크게 잡는다. sns.displot(df["위도"]) # 위도의 평균, 중앙값을 표현. # Seabor..
-
[판다스&Seaborn] 데이터 시각화 (line, bar, relplot, catplot, violinplot, boxplot)데이터 분석 2021. 9. 12. 18:48
선 그래프와 막대 그래프 판다스를 이용하여 그래프를 그리고자 한다. 데이터는 앞서 사용한 전국 아파트 분양 가격을 이용한다. # 지역명으로 분양 가격의 평균을 구하고 선 그래프로 시각화 한다. g = df_last.groupby(["지역명"])["평당분양가격"].mean().sort_values(ascending=False) g.plot() # 지역명으로 분양 가격의 평균을 구하고 막대 그래프로 시각화 한다. g.plot.bar(rot=0, figsize=(10, 3)) # 전용면적으로 분양가격의 평균을 구하고 막대그래프로 시각화 한다. df_last.groupby(["전용면적"])["평당분양가격"].mean().plot.bar() # 연도별 분양가격의 평균을 구하고 막대그래프(bar)로 시각화 합니다...
-
[n111] EDA 데이터 전처리AI 부트캠프 2021. 9. 9. 10:27
데이터셋 불러오기 1. 데이터셋에 대한 정보를 파악한다. 행과 열의 수 열에 헤더가 있는가? 결측 데이터 (MIssing Data)가 있는가 원본의 형태 파악하기 : 빅데이터의 크기는 몇 기가~테라 단위인 경우가 있다. 미리 원본 형태를 파악 안하면 에러가 나도 알기 힘들다. 2. Pandas (데이터 관련된 함수를 모아 놓은 라이브러리) pandas.read_csv()로 데이터셋을 불러온다. 데이터셋을 colab에서 확인하는 방법 (권장하지 않는다) ktng_data_url = 'https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv' import pandas as pd # 데이터셋에 헤더 값을 넣어준다. column_he..