シソーラス

日本語で、フリーで、商用に使えて、結構規模が大きくて、Web上でデータとして配布されているシソーラスってありませんかね?

フリーで使える日本語シソーラスって聞いたことないなぁ。作るのに結構なコストがかかるから税金でも投入しないとフリーで公開は無理な気がする。英語なら WordNet があるけど。
オントロジのほうなら使えるのがあるかな?良く知らない。
ていうか、ソーシャルブックマークをベースにやるならタグの共起頻度*1を元に親子関係を推定できるような。って思ったら前の日に追記されている。

タギングする時って、おおまかな分類とより詳細な分類をつける時って多いと思う。
で、この性質を有効活用すれば、SBMのタグからシソーラスを作ることができると思うんだけど、どうかな?
#というか、まずWebページのドキュメントからシソーラスって作れるのかな?それができないのであれば、結構意義のある事なんじゃまいか?

中身読んでないけど「語の共起頻度とヒューリスティックスを用いたWeb からの上位語の獲得」なんて論文があるなぁ。あと新聞記事コーパスであれば、「頻度差が著しい場合における一対多関係を推定する類似尺度」とか。キーワードを抽出して、隣接するキーワードの統計情報を使ったりとか、ほかにもいろいろあると思うので、その辺は論文を survey すべし。シソーラスは全然扱っていないので、自分も詳しくは知らない。

*1:はてなブックマークならはてなキーワードの共起頻度も使えるかも