분류 전체보기
-
[n131] 벡터 및 행렬AI 부트캠프 2021. 9. 28. 08:48
Data Structure 1D list 또는 set을 사용하여 데이터를 담는다. studentA = [89.9, 90.3, 85.1, 87.5] studentB = [80.1, 84.0, 85.9, 85] 2D 리스트 안에 리스트를 담는 리스트와는 다른 구조이다. 2차원 리스트, 2차원 배열, 2차원 매트릭스 등으로 표현 한다. import pandas as pd df = pd.DataFrame([ [89.9, 90.3, 85.1, 87.5], [80.1, 84.0, 85.9, 85] ], index = ['studentA', 'studentB'], columns = ['mid1', 'mid2', 'mid3', 'final']) df Matrix Calculation Matrix Multiplicati..
-
[백준] 2110 공유기 문제백준 Online Judge 2021. 9. 27. 17:29
1 문제 설명 백준 문제 난이도 : 중 문제 유형 : 이진 탐색 입력 : 첫째 줄에 집의 개수 N (2 ≤ N ≤ 200,000)과 공유기의 개수 C (2 ≤ C ≤ N)이 하나 이상의 빈 칸을 사이에 두고 주어진다. 둘째 줄부터 N개의 줄에는 집의 좌표를 나타내는 xi (0 ≤ xi ≤ 1,000,000,000)가 한 줄에 하나씩 주어진다. 출력 : 가장 입접한 두 공유기 사이의 최대 거리 2 문제풀이 아이디어 이진 탐색을 이용하여 O(N * logX)로 해결한다. (X = 집의 좌표) 20만 * log10억 = 약 600만 두 공유기 사이의 최대 간격을 이진 탐색으로 찾는다. 탐색 범위가 클 때는 logX를 요구한다고 가정한다. 이진 탐색 구현 방법 : 재귀적 or 반복적 3 이진 탐색 탐색 범위를 ..
-
[n124] 베이즈 정리AI 부트캠프 2021. 9. 24. 11:13
총 확률의 법칙 (The Law of Total Probability) 모든 가능한 이벤트의 총 확률은 1이다. 조건부 확률 B가 일어난 상태에서 A가 일어난 확률 베이지안 확률 B가 일어난 상태에서 A가 일어날 확률. 위 수식을 다음과 같이 구할 수 있다. 예시 At a certain stage of a criminal investigation, the inspector in charge is 60% convinced of the guilty of a certain suspect. Suppose now that a new piece of evidence that shows that the criminal has a left-handedness is uncovered. If 20% of populatio..
-
[도시공원 분석] 정규표현식 및 워드 클라우드데이터 분석 2021. 9. 23. 21:12
텍스트 데이터 정규 표현식 (regexp) 텍스트 데이터를 정교하게 전처리 하기 위해 정규 표현식을 사용한다. # 정규표현식 라이브러리 로드 import re gym = df['공원보유시설(운동시설)'].unique().tolist() gym = str(gym) gym[:1000] 위와 같이 '+'로 연결되어 있거나 의미 없는 숫자가 붙어 있는 경우 제거해야 한다. 불필요한 문자들을 쉼표로 변경한다. # ','를 빈문자로, 공백을 ','를, +를 ','로 변경 gym = gym.replace('+', ",").replace("'", ",").replace(" ", ",").replace("/", ",") gym[:1000] # 특수문자, 숫자, nan, 대괄호 제거 gym = re.sub("[\[\d\-..
-
[n123] 중심 극한 정리 및 신뢰 구간AI 부트캠프 2021. 9. 23. 09:55
중심 극한 정리 (Central Limit Theorem) 균일분포에서 뽑은 표본의 평균값은 정규분포를 따른다. 지수분포에서 뽑은 표본의 평균값 또한 정규분포를 따른다. 즉 어떠한 분포에서 뽑은 표본의 평균값은 정규분포를 따른다. 샘플 데이터 수가 많아 질 수록, 샘플의 평균은 정규분포에 근사한 형태로 나타난다. sample_means = [] for x in range(0, 1000): coinflips = np.random.binomial(n = 1, p = 0.5, size = 100) # binomial distribution sample_means.append(coinflips.mean()) pd.DataFrame(sample_means).hist(color = '#4000c7'); 정규 분포를..
-
[도시공원 분석] Pandas Profiling데이터 분석 2021. 9. 22. 21:22
전국 도시 공원 데이터 https://www.data.go.kr/dataset/15012890/standard.do 시간, 결측치, 이상치, 수치형, 범주형 데이터 처리. 정규표현식을 활용해서 텍스트 데이터 전처리와 데이터 마스킹 기법 활용. 전국 도시공원에 대한 분포를 시각화. (클러스터 형식) 워드 클라우드 설치 conda install -c conda-forge wordcloud Pandas Profiling 인터렉션하며 데이터 보여주기 위함. conda install -c conda-forge pandas-profiling Pandas Profiling 불러오기 import pandas_profiling pandas_profiling.__version__ from pandas_profiling i..
-
[인덱스] 코드 스테이츠 AI 부트캠프AI 부트캠프 2021. 9. 20. 22:13
배우는 내용 Section 1. 데이터 분석 입문 SPRINT 1. EDA SPRINT 2. Statistics SPRINT 3. 선형 대수 PROJECT DAY 1 EDA 데이터 전처리 Pandas in Colab 가설 검정 (t-test) T-Test 행렬 및 벡터 Game Sales 데이터 분석 DAY 2 Feature Engineering 자유도, Chi-square Test, ANOVA 분산 분석 선형 대수 DAY 3 Data Manipulation 중심 극한 정리 및 신뢰구간 고유벡터/고유값/PCA DAY 4 미분 개념과 경사하강법 베이지안 정리 Clustering DAY 5 회고 스프린트 챌린지 스프린트 챌린지 Section 2. 머신러닝 SPRINT 1. 선형 모델 SPRINT 2. 트리 ..
-
[프랜차이즈 분석] 파리바게트와 뚜레쥬르 위치 분석데이터 분석 2021. 9. 19. 20:22
파리바게트와 뚜레쥬르 매장 위치가 서로 어떤 관계를 갖는지 데이터 분석 해보자. 데이터 가져오기 df_seoul['상호명'].str.extract("뚜레(주|쥬)르")[0].value_counts() df_bread = df_seoul[df_seoul["상호명"].str.contains("뚜레(주|쥬)르|파리(바게|크라상)")].copy() df_bread.shape df_bread.head(10) 범주형 변수 빈도수 계산하기 # 비율을 알아본다. df_bread["브랜드명"].value_counts(normalize=True) sns.countplot(data=df_bread, x="브랜드명") plt.figure(figsize=(15, 4)) sns.countplot(data=df_bread, x="..