도라에몽주머니

[G검정/6장] word2vec 본문

Certificate/G検定

[G검정/6장] word2vec

에몽쓰 2024. 7. 16. 14:10

word2vec

: 워드 임베딩(word embedding) 중 하나로, 분포 가설(distributional hypothesis) 을 가정 하에 표현한 분산 표현을 따름. 단어들을 분포 가설에 맞추어 벡터화 함으로서 의미적으로 가까운 단어들은 유사한 값을 가지도록 함.

 

학습 방법

  • CBOW(Continuous Bag of Words) : 주변에 있는 단어들로 중심 단어를 예측하는 방법.
  • Skip-Gram : 중심 단어를 보고 주변에 어떤 단어가 존재하는지 예측하는 방법.

 

CBOW (Continuous Bag of Words)

예측해야 하는 단어는 중심 단어(Center Word) 라고 하고, 예측에 사용되는 단어들을 주변 단어(Context Word) 라고 함. 중심 단어를 예측하기 위해 앞・뒤로 몇 개의 단어를 볼지 결정하게 되는데, 그 크기를 윈도우(Window) 라고 하며 학습을 위한 데이터셋을 만들기 위해 슬라이딩 윈도우(Sliding Window) 를 사용함.

https://wikidocs.net/22660

 

Skip-Gram

: CBOW와 정반대의 모델. 중심 단어에서 주변 단어들을 구하는 모델이며, Skip-Gram과 CBOW의 성능을 비교했을 때, 전반적으로 Skip-Gram이 성능이 더 좋다고 알려져 있음.

https://wikidocs.net/22660