도라에몽주머니

[G검정/6장] TF-IDF (Term Frequency-Inverse Document Frequency) 본문

Certificate/G検定

[G검정/6장] TF-IDF (Term Frequency-Inverse Document Frequency)

에몽쓰 2024. 7. 16. 13:14

TF-IDF (Term Frequency-Inverse Document Frequency)

: 단어의 중요도에 따라 가중치를 부여하는 방법. 여러 문서로 이루어진 문서군이 있을 때, 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치. TF와 IDF를 곱한 값으로 계산됨.

 

TF (Term Frequency)

: 특정 문서에서 단어의 단순 사용 빈도를 나타냄. 일반적으로 문서 내에 특정 단어가 자주 등장할 수록 TF가 높음.

DF (Document Frequency)

: 특정 단어가 나타나는 문서 수를 나타냄. 예를 들어, A 라는 단어가 문서 1과 문서 3에 등장했다면 DF는 2가 됨.

IDF (Inverse Document Frequency)

: DF(Document Frequency) 에 반비례하는 수. DF가 0일 때 분모가 0이 되는 것을 방지하기 위해 1을 더하고, 총 문서 수인 D를 곱해서 기하급수적으로 커지는 것을 방지하기 위해 log를 취함. (이를 통해, IDF값의 편차를 줄일 수 있음.)

IDF