분류 전체보기
-
[판다스] pivot table로 데이터 집계하기데이터 분석 2021. 9. 12. 18:31
pivot table과 groupby 차이점 groupby 대신 pivot_table로 데이터 집계 가능하다. groupby를 사용하면 series 형태로 결과가 나온다. pivot_table 결과는 data frame 형태로 결과가 나온다. pivot_table 예시 평당분양가격의 평균값을 지역명에 따라 집계 하라. pd.pivot_table(df_last, index=["지역명"], values=["평당분양가격"], aggfunc="mean") # df_last.groupby(["전용면적"])["평당분양가격"].mean() # pivot과 pivot_table의 가장 큰 차이점은 aggregation 기능이 있느냐 없느냐 차이. # pivot_table의 aggregation default 값은 me..
-
[판다스] 아파트 분양 가격 데이터 분석데이터 분석 2021. 9. 10. 22:17
분석 내용 2013년부터 2019년까지의 전국 신규 민간 아파트의 분양 가격 동향을 분석한다. 다른 데이터셋을 가공하여 병합한다. 데이터 전처리 후에 시각화한다. 데이터셋은 공공데이터 포럼 (https://www.data.go.kr) 전국 평균 분양가격(2013년 9월부터 2015년 8월까지) 주택도시보증공사_전국 평균 분양가격(2019년 12월) 활용 functions concat, pivot, transpose in Pandas groupby, pivot_table, info, describe, value_counts bar plot, line plot, scatter plot, lm plot, 히트맵, 상자수염그림, swarm plot, 도수분포표, 히스토그램 import pandas as pd i..
-
[n112] Feature EngineeringAI 부트캠프 2021. 9. 10. 16:25
Feature Engineering란 무엇인가 Raw data에서 수학, 통계, 도메인 knowledge들을 이용하여 유용한 features를 재조합 및 추출하는 과정이다. 예를 들어, outlier detection, one hot encoding, handling missing values 등이 있다. Garbage In -> Garbage Out, 즉 정돈 되지 않은 데이터를 넣으면 결과값도 garbage일 수 밖에 없다. 그러므로 Feature engineering으로 유용한 데이터를 추출할 필요가 있다. DataFrame 간단히 설명하자면, 데이터 프레임은 테이블 형태의 데이터이다. NaN, Null, 0, Undefined 의 차이는 무엇인가 Nan는 float 타입을 갖는다. String R..
-
[n111] Pandas in ColabAI 부트캠프 2021. 9. 9. 18:02
데이터셋 불러오기 import pandas as pd travel_data_url = 'https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/stocks/Travel.xlsx' # 엑셀 파일의 첫번째 시트를 불러온다. df1 = pd.read_excel(travel_data_url, sheet_name=0) # row 와 column을 서로 transpose 한다. df1 = df1.T # 첫 번째 row를 df1_header에 입력한다. df1_header = df1.iloc[0] # 헤더 아래부터 데이터를 입력한다. df1 = df1[1:] # 첫 번째 row를 헤더로 설정한다. df1.columns = df1_header df1.head() 데이터 확인..
-
[n111] EDA 데이터 전처리AI 부트캠프 2021. 9. 9. 10:27
데이터셋 불러오기 1. 데이터셋에 대한 정보를 파악한다. 행과 열의 수 열에 헤더가 있는가? 결측 데이터 (MIssing Data)가 있는가 원본의 형태 파악하기 : 빅데이터의 크기는 몇 기가~테라 단위인 경우가 있다. 미리 원본 형태를 파악 안하면 에러가 나도 알기 힘들다. 2. Pandas (데이터 관련된 함수를 모아 놓은 라이브러리) pandas.read_csv()로 데이터셋을 불러온다. 데이터셋을 colab에서 확인하는 방법 (권장하지 않는다) ktng_data_url = 'https://ds-lecture-data.s3.ap-northeast-2.amazonaws.com/kt%26g/kt%26g_0.csv' import pandas as pd # 데이터셋에 헤더 값을 넣어준다. column_he..
-
[백준] 11004 k번째 수백준 Online Judge 2021. 8. 31. 17:14
문제 해설 n개의 수를 오름차순으로 정렬 한 뒤, k 번째 수를 찾아라. 시간 복잡도 o(NlogN)의 정렬 알고리즘을 이용한다. 11004번: K번째 수 수 N개 A1, A2, ..., AN이 주어진다. A를 오름차순 정렬했을 때, 앞에서부터 K번째 있는 수를 구하는 프로그램을 작성하시오. www.acmicpc.net n, k = map(int, input().split()) array = list(map(int, input().split())) array = sorted(array) print(array[k-1]) GitHub - DAWUNHAN/Algorithms-and-DataStructure: Algorithms and DataStructure with Python Algorithms and D..
-
[백준] 2751 수 정렬하기 2백준 Online Judge 2021. 8. 31. 17:08
GitHub - DAWUNHAN/Algorithms-and-DataStructure: Algorithms and DataStructure with Python Algorithms and DataStructure with Python. Contribute to DAWUNHAN/Algorithms-and-DataStructure development by creating an account on GitHub. github.com 문제 해설 n개의 숫자를 입력 받은 뒤, 순서대로 출력하라. 데이터 개수가 최대 1,000,000개 일 때, 시간 복잡도 o(NlogN)의 정렬 알고리즘을 이용해야 한다. 병합 정렬을 직접 구현하는 방법 def merge_sort(array): if len(array)
-
[백준] ⭐⭐ 7490 0만들기백준 Online Judge 2021. 8. 31. 16:33
7490번: 0 만들기 각 테스트 케이스에 대해 ASCII 순서에 따라 결과가 0이 되는 모든 수식을 출력한다. 각 테스트 케이스의 결과는 한 줄을 띄워 구분한다. www.acmicpc.net import copy def recursive(array, n): if len(array) == n: operators_list.append(copy.deepcopy(array)) return array.append(' ') recursive(array, n) array.pop() array.append('+') recursive(array, n) array.pop() array.append('-') recursive(array, n) array.pop() test_case = int(input()) for _ i..