MeCab を使って単語頻度計数
単語の頻度計数くらいならワンライナーでできるってのは以前も書いたような気もするけど。
< file mecab --node-format='%f[6]' --eos-format='' | grep . | sort | uniq -c | sort -nr
表層文字列そのものを使いたい場合は %f[6] のかわりに %m なんかを。あと、必要に応じて nkf、grep -v '[。、]' とか挟むと良い。
句読点のみの行を確実に削除したいなら
perl -CIO -ne 'print unless /^\p{IsPunct}*$/'
なんかがいいかもしれない(ただい入出力は UTF-8 が前提)。