Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
Tags
- FileWriter
- ObjectOutputStream
- FFT
- GridLayout
- rnn
- CSS
- 푸리에 변환
- 파이썬
- 상속
- css 기초
- inline
- java
- iframe 태그
- BorderLayout
- 퍼셉트론
- oracle
- HTML
- html 기초
- Position
- FlowLayout
- Database
- 메서드
- 반응형웹
- 반응형 웹 프로젝트
- 사전학습
- g검정
- 예제
- 미디어쿼리
- html 프로젝트
- Codility
Archives
- Today
- Total
도라에몽주머니
[G검정/6장] TF-IDF (Term Frequency-Inverse Document Frequency) 본문
TF-IDF (Term Frequency-Inverse Document Frequency)
: 단어의 중요도에 따라 가중치를 부여하는 방법. 여러 문서로 이루어진 문서군이 있을 때, 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치. TF와 IDF를 곱한 값으로 계산됨.

TF (Term Frequency)
: 특정 문서에서 단어의 단순 사용 빈도를 나타냄. 일반적으로 문서 내에 특정 단어가 자주 등장할 수록 TF가 높음.
DF (Document Frequency)
: 특정 단어가 나타나는 문서 수를 나타냄. 예를 들어, A 라는 단어가 문서 1과 문서 3에 등장했다면 DF는 2가 됨.
IDF (Inverse Document Frequency)
: DF(Document Frequency) 에 반비례하는 수. DF가 0일 때 분모가 0이 되는 것을 방지하기 위해 1을 더하고, 총 문서 수인 D를 곱해서 기하급수적으로 커지는 것을 방지하기 위해 log를 취함. (이를 통해, IDF값의 편차를 줄일 수 있음.)

'Certificate > G検定' 카테고리의 다른 글
| [G검정/6장] 자율주행 자동차 레벨 (1) | 2024.07.16 |
|---|---|
| [G검정/6장] word2vec (1) | 2024.07.16 |
| [G검정/6장] LDA 토픽 모델링 (0) | 2024.07.16 |
| [G검정/6장] BERT(Bidirectional Encoder Representations from Transformers) (0) | 2024.07.16 |
| [G검정/6장] 화상 인식의 종류 (AlexNet, GoogLeNet, VGG16, ResNet) (0) | 2024.07.10 |