Word2Vec
-
[n422] Distributed RepresentationAI 부트캠프 2021. 12. 27. 10:25
Distributed Representation (단어의 분산 표현) 분포 가설(Distribution Hypothesis)에 의해 해당 단어 주변 단어에 의해 타겟 단어(Target word)가 결정된다. 타겟 단어는 사용자가 벡터화 하고자 하는 단어를 뜻한다. 분포 가설이란 '비슷한 위치에서 등장하는 단어들은 비슷한 의미를 가진다' 즉 단어의 분산 표현은 위의 분포 가설을 따르며, 타겟 단어가 주변 단어에 의해 결정 된다. 원-핫 인코딩 (One-hot Encoding) 원-핫 인코딩은 단어를 벡터화의 가장 쉬운 방법이다. [1 0 0 0], [0 1 0 0] 등과 같이 표현한다. sent = "I am a student" word_lst = sent.split() word_dict = {} for ..