시각화
-
[도시공원 분석] 정규표현식 및 워드 클라우드데이터 분석 2021. 9. 23. 21:12
텍스트 데이터 정규 표현식 (regexp) 텍스트 데이터를 정교하게 전처리 하기 위해 정규 표현식을 사용한다. # 정규표현식 라이브러리 로드 import re gym = df['공원보유시설(운동시설)'].unique().tolist() gym = str(gym) gym[:1000] 위와 같이 '+'로 연결되어 있거나 의미 없는 숫자가 붙어 있는 경우 제거해야 한다. 불필요한 문자들을 쉼표로 변경한다. # ','를 빈문자로, 공백을 ','를, +를 ','로 변경 gym = gym.replace('+', ",").replace("'", ",").replace(" ", ",").replace("/", ",") gym[:1000] # 특수문자, 숫자, nan, 대괄호 제거 gym = re.sub("[\[\d\-..
-
[프랜차이즈 분석] 배스킨라빈스와 던킨 위치 분석데이터 분석 2021. 9. 18. 21:59
데이터 불러오기공공데이터 포털 : https://www.data.go.kr/dataset/15012005/fileData.do공공데이터 포털에서 소상공인시장진흥공단 상가업소정보를 다운로드 받아 사용했습니다 df = pd.read_csv('data/상가업소정보_201912_01.csv', sep='|')df.head() 서울 데이터 서브셋으로 가져오기# 서브셋을 만들때 copy 하기! 데이터 오류 발생 방지df_seoul = df[df['시도명'] == '서울특별시'].copy()print(df_seoul.shape)df_seoul.head() 서울의 배스킨라빈스와 던킨도너츠 데이터 가져오기# 상호명을 소문자로 변경df_seoul["상호명_소문자"] = df_seoul["상호명"].st..
-
[판다스&Seaborn] 데이터 시각화 (line, bar, relplot, catplot, violinplot, boxplot)데이터 분석 2021. 9. 12. 18:48
선 그래프와 막대 그래프 판다스를 이용하여 그래프를 그리고자 한다. 데이터는 앞서 사용한 전국 아파트 분양 가격을 이용한다. # 지역명으로 분양 가격의 평균을 구하고 선 그래프로 시각화 한다. g = df_last.groupby(["지역명"])["평당분양가격"].mean().sort_values(ascending=False) g.plot() # 지역명으로 분양 가격의 평균을 구하고 막대 그래프로 시각화 한다. g.plot.bar(rot=0, figsize=(10, 3)) # 전용면적으로 분양가격의 평균을 구하고 막대그래프로 시각화 한다. df_last.groupby(["전용면적"])["평당분양가격"].mean().plot.bar() # 연도별 분양가격의 평균을 구하고 막대그래프(bar)로 시각화 합니다...