코사인유사도
-
[텍스트] 문서 유사도머신러닝 & 딥러닝 2021. 12. 4. 22:19
문서 유사도 측정 지표 Cosine Similarity Jaccard Similarity Manhattan Distance Euclidean Distance 코사인 유사도 피처 벡터 행렬은 음수값이 없으므로 코사인 유사도가 -값이 나타나지 않는다. 코사인 유사도는 0~1 사이. 1로 갈수록 유사함. cosine_similarity() : 코사인 유사도를 쉽게 찾아준다. Pairwise(쌍) 형태로 각 문서와 문서끼리의 코사인 유사도를 행렬로 반환. 코사인 유사도 반환 함수 생성 import numpy as np def cos_similarity(v1, v2): dot_product = np.dot(v1, v2) l2_norm = (np.sqrt(sum(np.square(v1))) * np.sqrt(sum..