• tf-idf
  • $tf(t) = \frac{문서 안에서 \ 용어 t가\ 나타나는\ 횟수}{문서에 \ 있는 \ 용어의 \ 총\ 개수}$
  • $idf(t) = \log10(\frac{문서의\ 총\ 수}{용어\ t가 들어간\ 문서의\ 수})$
  • 따라서 $tf \times idf = [\frac{어떤\ 문서에서\ 용어 \ t가 \ 나타나는\ 횟수}{그\ 문서의\ 총 \ 용어\ 수}\times \log10(\frac{문서의\ 총 \ 수}{용어\ t가 \ 들어간 \ 횟수})]$