-
[도시공원 분석] Pandas Profiling데이터 분석 2021. 9. 22. 21:22
전국 도시 공원 데이터
- https://www.data.go.kr/dataset/15012890/standard.do
- 시간, 결측치, 이상치, 수치형, 범주형 데이터 처리.
- 정규표현식을 활용해서 텍스트 데이터 전처리와 데이터 마스킹 기법 활용.
- 전국 도시공원에 대한 분포를 시각화. (클러스터 형식)
워드 클라우드 설치
conda install -c conda-forge wordcloud
Pandas Profiling
인터렉션하며 데이터 보여주기 위함.
conda install -c conda-forge pandas-profiling
Pandas Profiling 불러오기
import pandas_profiling pandas_profiling.__version__
from pandas_profiling import ProfileReport import matplotlib matplotlib.font_manager._rebuild() plt.rc("font", family="AppleGothic") sns.set(font="AppleGothic") %time profile = ProfileReport(df, title="도시공원 표준 데이터") profile.to_file(output_file="전국 도시공원 데이터 분석.html") # 화면을 크게 보기 위해 html 파일에 저장해서 본다.
Pandas Profiling 생성
html파일로 profiling이 생성된다. 다음과 같은 내용을 포함한다.
GitHub - DAWUNHAN/DataAnalysisInPython
Contribute to DAWUNHAN/DataAnalysisInPython development by creating an account on GitHub.
github.com
'데이터 분석' 카테고리의 다른 글
[도시공원 분석] 정규표현식 및 워드 클라우드 (0) 2021.09.23 [프랜차이즈 분석] 파리바게트와 뚜레쥬르 위치 분석 (0) 2021.09.19 [프랜차이즈 분석] 배스킨라빈스와 던킨 위치 분석 (0) 2021.09.18 [상권 정보 분석] Folium으로 지도 시각화하기 (0) 2021.09.15 [상권 정보 분석] 기술 통계 분석 (0) 2021.09.14