정규표현식
-
[도시공원 분석] 정규표현식 및 워드 클라우드데이터 분석 2021. 9. 23. 21:12
텍스트 데이터 정규 표현식 (regexp) 텍스트 데이터를 정교하게 전처리 하기 위해 정규 표현식을 사용한다. # 정규표현식 라이브러리 로드 import re gym = df['공원보유시설(운동시설)'].unique().tolist() gym = str(gym) gym[:1000] 위와 같이 '+'로 연결되어 있거나 의미 없는 숫자가 붙어 있는 경우 제거해야 한다. 불필요한 문자들을 쉼표로 변경한다. # ','를 빈문자로, 공백을 ','를, +를 ','로 변경 gym = gym.replace('+', ",").replace("'", ",").replace(" ", ",").replace("/", ",") gym[:1000] # 특수문자, 숫자, nan, 대괄호 제거 gym = re.sub("[\[\d\-..