はてなダイアリーキーワードふりがなリスト

おぅ、というわけで以前作ったのがすごい勢いで無意味に。まあいいけど。あとで検証用のデータとして使おう。
でも、こういうリストが簡単に手に入るのは自然言語処理の研究している人間にとっては結構嬉しいことだと思う。Wikipedia のダンプデータとか、金出して辞書・辞典のデータを買えばいいという話もあるけど、はてなキーワードの微妙な偏りっぷりも有用な場面があるかもしれない。
しかし、タブ区切りのテキストは CSV じゃなくて TSV だと思うのは自分だけだろうか。CSV って comma separated values じゃなかったけ?