AI 부트캠프
-
[n211] Simple RegressionAI 부트캠프 2021. 10. 18. 15:10
Classification & Regression 지도 학습 (Supervised classification)은 크게 분류, 회귀로 나뉜다. 하지만 회귀는 다른 지도 학습과는 조금 다른 면이 있다. Property Supervised Classification Regression Output type 이산값 (category 값) 연속값 (숫자값) What are you trying to find Decision boundary "Best fit line" Evaluation Accuracy "Sum of Squared error" or R^2 기준 모델 (Baseline Model) 최소한의 성능을 나타내는 기준이 되는 모델로, 모델 성능을 판단할 때 기준이 되는 모델을 뜻한다. 예를 들어, 평균값을 ..
-
[프로젝트] 게임 설계를 위한 데이터 분석AI 부트캠프 2021. 10. 13. 21:18
섹션 1 프로젝트는 다음 분기에 설계할 게임을 위해 게임 출고량 데이터를 분석하는 것이다. 사용된 데이터는 1980년부터 2016년까지의 게임 출고량 데이터셋입니다. 먼저, 연도별 게임 장르 트렌드 그래프를 보면 액션, 어드벤쳐, 롤플레잉, 슈팅, 스포츠 장르가 크게 인기를 끌었습니다. 위 데이터의 연도를 10년 단위로 묶어, 네 분류로 나누었습니다. 파이팅, 플랫폼, 레이싱, 시뮬레이션, 전략 게임 출고량이 하락한 것을 확인할 수 있습니다. 각 지역별로 게임 출고량을 봤을 때, 파란색인 북미와 하늘색 유럽 출고량이 가장 높습니다. 전체 데이터인 노란색을 보면, 2010년 전후로 크게 하락한 것을 확인할 수 있습니다. 급격하게 출고량이 감소하는 원인을 찾고자 넷플릭스 수익 데이터를 가져왔습니다. 파란색 ..
-
[n134] ClusteringAI 부트캠프 2021. 10. 1. 11:27
Scree Plots R - 주성분분석 주성분분석(PCA : Principal component analysis)에 대해서 정리해보겠다. 내용이 방대하다보니 요약설... blog.naver.com Machine Learning 개요 지도 학습 (Supervised Learning) 데이터에 답, 라벨이 있을 대 사용 가능하다. 분류 (Classification) : 데이터를 기준에 따라 카테고리화 하기 위해 사용하는 알고리즘이다. 회귀 (Regression, Prediction) : 연속 데이터를 이용해서 결과를 예측하기 위한 알고리즘이다. 비지도 학습 (Unsupervised Learning) 클러스터링 (Clustering) : 데이터를 유사한 데이터끼리 그룹화 시키는 방법이다. 차원 축소 (Dime..
-
[n133] 고유벡터/고유값/PCAAI 부트캠프 2021. 9. 30. 11:52
Linear Transformation 선형 변환은 벡터들을 더하거나 스칼라 값을 곱하는 것으로, 선형 변환을 했을 때 방향은 변하지 않고 크기만 변한다. 고유 벡터 (Eigenvector) 고유 벡터는 선형 변환을 취했을 때, 방향은 변하지 않고 크기만 변하는 벡터이다. 그 변한 크기가 고유 값 (eigenvalue)이다. 정방행렬 A(n x n인 경우)에 대해 위 식이 성립하는 0이 아닌 벡터 x가 존재 할 때, 람다 상수를 행렬 A의 고유값이라고 하며, 벡터 x를 이에 대응하는 고유 벡터 라고 한다. 람다 상수 : 행렬 A의 고유 값 벡터 x : 고유 벡터 고유 값은 고유벡터 방향으로 얼만큼 크기가 커지는가를 의미한다. 고유값이 큰 순서대로 고유 벡터를 정렬하면, 중요한 순서대로 주성분을 구하는 것..
-
[n132] 선형 대수AI 부트캠프 2021. 9. 29. 10:02
선형 조합 (Linear Combination) 두 벡터를 스케일링하고 더하는 것을 선형 조합이라 한다. a, b는 scalars이다. Span 벡터들의 선형 조합의 결과, 모든 조합을 Span이라 한다. Basis 벡터 공간 V의 basis는 V를 채울 수 있는 선형 관계에 있지 않은 벡터들의 모음. (span과는 역개념) Rank 매트릭스의 rank는 매트릭스 열을 이루고 있는 벡터들도 만들 수 있는 span 공간의 차원. 선형 종속 (Linear Dependent) 벡터들 중 하나가 다른 벡터들의 선형 조합으로 표현 가능하다. 선형 독립 (Linear Independent) 각 각의 벡터가 기존 스팬에 또 다른 차원을 추가 가능한 경우. 정사영 (Projection) 분산 (Variance) 데이터..
-
[n131] 벡터 및 행렬AI 부트캠프 2021. 9. 28. 08:48
Data Structure 1D list 또는 set을 사용하여 데이터를 담는다. studentA = [89.9, 90.3, 85.1, 87.5] studentB = [80.1, 84.0, 85.9, 85] 2D 리스트 안에 리스트를 담는 리스트와는 다른 구조이다. 2차원 리스트, 2차원 배열, 2차원 매트릭스 등으로 표현 한다. import pandas as pd df = pd.DataFrame([ [89.9, 90.3, 85.1, 87.5], [80.1, 84.0, 85.9, 85] ], index = ['studentA', 'studentB'], columns = ['mid1', 'mid2', 'mid3', 'final']) df Matrix Calculation Matrix Multiplicati..
-
[n124] 베이즈 정리AI 부트캠프 2021. 9. 24. 11:13
총 확률의 법칙 (The Law of Total Probability) 모든 가능한 이벤트의 총 확률은 1이다. 조건부 확률 B가 일어난 상태에서 A가 일어난 확률 베이지안 확률 B가 일어난 상태에서 A가 일어날 확률. 위 수식을 다음과 같이 구할 수 있다. 예시 At a certain stage of a criminal investigation, the inspector in charge is 60% convinced of the guilty of a certain suspect. Suppose now that a new piece of evidence that shows that the criminal has a left-handedness is uncovered. If 20% of populatio..
-
[n123] 중심 극한 정리 및 신뢰 구간AI 부트캠프 2021. 9. 23. 09:55
중심 극한 정리 (Central Limit Theorem) 균일분포에서 뽑은 표본의 평균값은 정규분포를 따른다. 지수분포에서 뽑은 표본의 평균값 또한 정규분포를 따른다. 즉 어떠한 분포에서 뽑은 표본의 평균값은 정규분포를 따른다. 샘플 데이터 수가 많아 질 수록, 샘플의 평균은 정규분포에 근사한 형태로 나타난다. sample_means = [] for x in range(0, 1000): coinflips = np.random.binomial(n = 1, p = 0.5, size = 100) # binomial distribution sample_means.append(coinflips.mean()) pd.DataFrame(sample_means).hist(color = '#4000c7'); 정규 분포를..