TF-IDF

なんか Wikipedia の TF-IDF の項目がちょっとひどいな、これは。
普通、tf は「あるドキュメント中における」ある単語の出現頻度という意味で使うんじゃないかなぁ。
あとまぁ、一口に TF-IDF といっても、idf が 1 + log(N/df) だったり、tf の square root を取ったり idf の二乗を取ったりとか結構バリエーションがあったりするもんです。