분류 전체보기
-
[텍스트] 20개의 뉴스 그룹으로 분류하기머신러닝 & 딥러닝 2021. 11. 28. 20:16
18846개의 뉴스 문서를 20개의 뉴스 카테고리로 분류 텍스트 정규화 -> 피처 벡터화 -> 머신러닝 학습/예측/평가 -> pipeline 적용 -> GridSearchCV 최적화 데이터 로딩 from sklearn.datasets import fetch_20newsgroups news_data = fetch_20newsgroups(subset='all',random_state=156) print(news_data.keys()) dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR']) import pandas as pd print('target 클래스의 값과 분포도 \n',pd.Series(news_data.t..
-
[텍스트] 텍스트 분석 (Text Tokenization & CountVectorizer)머신러닝 & 딥러닝 2021. 11. 23. 11:00
텍스트 분석 (Text Analysis) NLP (Natural Language Processing) 인간의 언어를 이해하고 해석하는데 더 중점을 둔다. NLP 기술의 발전으로 텍스트 분석도 더욱 정교하게 발전. 텍스트 분석 모델을 수립하고 정보를 추출해 BI나 예측 분석 등의 분석 작업을 주로 수행한다. 텍스트 분석 주요 영역 텍스트 분류 (Text classification) : 어떤 카테고리에 속하는지 자동으로 분류하거나 스팸 메일 검출 같은 프로그램. 지도학습을 적용. 감성 분석 (Sentiment Analysis) : 주관적인 요소를 분석하는 기법. 소셜 미디어 감정 분석, 영화나 제품에 대한 긍정 또는 리뷰 등. 지도학습 뿐만 아니라 비지도 학습을 이용해 적용. 텍스트 요약 (Summariza..
-
[회고] 지금의 간절함으로 이루고자 하는 것들.AI 부트캠프 2021. 11. 21. 19:04
부트캠프를 왜 시작 했나. 처음 부트캠프를 시작할 때만 해도 7개월의 과정은 너무 길다는 생각과 7개월 동안 인공지능을 배운들 얼마나 깊이가 있겠는가 하는 양가감정이 동시에 들었다. 차라리 그동안 공부하고 일 했던 웹 개발 분야에서 일을 빨리 구하는게 취준 시기를 끝내는 가장 현실적인 해답이 아닐까 싶었다. 그동안 만들어둔 포트폴리오도 꽤 되었고, 맨땅에 헤딩 하는 인공지능 분야 보다는 좀 더 답이 보일 것 같았다. 그럼에도 도전하고 싶었다. 웹 개발 또한 재미는 있었지만 왜 이리도 미련이 남는지,. 데이터 글자만 봐도 아쉬웠다. 대학원 시절 부터 데이터 분석이 좋았고, 가치없는 더미 속에서 유의미한 가치를 찾아내는 일이 매력적 이였다. 21세기의 석유는 데이터라는데 지금이라도 내가 이 분야에 뛰어들어 ..
-
[머신러닝] 파이썬 머신러닝 완벽 가이드Books 2021. 11. 16. 22:25
추천 글쓰게 된 계기 IT 관련 도서를 많이 구입해보니 그 중 몇 몇은 평생 소장하고 싶을 정도로 마음에 들었고, 또 몇 몇은 꽤나 실망스러웠다. 그래서 솔직한 후기를 사람들과 공유하고자 도서 추천 글을 쓰게 되었다. 사실 이런 전문 서적들은 최소 2만원에서 5만원 이상 까지 가격이 다소 부담스럽긴 하다. 그래서 도서관을 애용하기는 하지만 대학교 도서관도 아닌 동네 작은 도서관에 이런 책이 구비되었을리 만무하다. 이용자들이 한 달에 최대 3권까지 책 구비 신청을 할 수는 있지만 기다리는데 한 달이나 걸린다. 이마저도 올 해 예산을 다 썼다는 이유로 중단되어서 꽤 아쉬운 사정이다. 무튼, 이러 저러한 사정으로 전공 교재를 하나 살 때 열심히 리뷰를 찾아보는 편이고 덕분에 좋은 책들을 많이 만났다. 그 중에..
-
[군집화] DBSCAN머신러닝 & 딥러닝 2021. 11. 3. 22:02
DBSCAN (Density Based Spatial Clustering of Applications with Noise) 특정 공간 내에 데이터 밀도 차이를 기반 알고리즘으로 하고 있어서 복잡한 기하학적 분포도를 가진 데이터 세트에 대해서도 군집화를 잘 수행한다. 알고리즘이 데이터 밀도 차이를 자동으로 감지하며 군집을 생성하므로 사용자가 군집 개수를 지정할 수 없다. 데이터의 밀도가 자주 변하거나, 아예 모든 데이터의 밀도가 크게 변하지 않으면 군집화 성능이 떨어진다. 피처의 개수가 많으면 군집화 성능이 떨어진다. DBSCAN 구성 요소 DBSCAN을 구성하는 가장 중요한 두 파라미터는 입실론(epsilon)으로 표기하는 주변 영역과 이 입실론 주변 영역에 포함되는 최소 데이터의 개수 min point..
-
[군집화] Mean Shift머신러닝 & 딥러닝 2021. 11. 3. 19:04
Mean Shift KDE (Kernel Density Estimation)을 이용하여 데이터 포인트들이 데이터 분포가 높은 곳으로 이동하면서 군집화를 수행 별도의 군집화 개수를 지정하지 않으며 mean shift는 데이터 분포도에 기반하여 자동으로 군집화 개수를 정함 개별 데이터의 특정 반경 내에 주변 데이터를 포함한 데이터 분포도 계산 데이터 분포도가 높은 방향으로 중심점 이동 중심점을 따라 해당 데이터 이동 이동된 데이터의 특정 반경 내에 다시 데이터 분포 계산 후, 2번 3번 스텝을 반복 가장 분포도가 높은 곳으로 이동하면 더 이상 해당 데이터는 움직이지 않고 수렴 모든 데이터를 1~5까지 수행하면서 군집 중심점을 찾음. KDE (Kernal Density Estimation) KDE는 커널 함수..
-
-