NLP

TF-IDF

NLP

なんか Wikipedia の TF-IDF の項目がちょっとひどいな、これは。 普通、tf は「あるドキュメント中における」ある単語の出現頻度という意味で使うんじゃないかなぁ。 あとまぁ、一口に TF-IDF といっても、idf が 1 + log(N/df) だったり、tf の square roo…

検索結果

NLP

ref:Life is beautiful: 言語学の研究をググってするというのはありなんだろうか? 自然言語処理の分野では検索エンジンの検索結果をなにかしらの処理のインプットにするということは割りとやられてたりはする。 ただ、それの正当性という話になるとちょっと…

Google Corpus #2

NLP

ref:のほほん徒然 - 聞いてきました:Googleの大規模日本語データ公開に関する特別セッション まとめお疲れ様です。 あー、やっぱオリジナルを復元できないことが前提で、単語 n-gram なんかになるのね。とりあえず機械学習方面には使いにくそうだ。自分も使…

言語判定

ref:裏表(Phinloda のもう裏だか表だか分からないページ) | Java で「英語で書かれたページ」を判定する方法は? 「日本語でない」でいいなら、Character.UnicodeBlock を使って、ひらがな、カタカナ、漢字がないかどうか調べればいいと思うけど、そうでない…

キーワード検索

NLP

ref:万有引力がはたらくcQueの日記(メニスカス) - 意外と盲点?連鎖googleなぐぐりかた あー、結局それは現状のキーワード検索システムの限界というかなんというか。実は、自然文の検索要求文から人間が検索キーワードを決定して検索するより、bigram にぶっ…

Google Corpus

NLP

ref:Google: 大規模日本語データ公開に関する特別セッション ref:Googleが大規模日本語データを公開するという話 おお。これはいいな。Web のデータなんだろうか。 と、思ったけど、もしかして Google の持っている大規模日本語データって、著作権者は Google…

圧縮アルゴリズムを類似度に使う

ref:西尾泰和のブログ: ICTスクール日記 あー、2つのファイルを連結して圧縮して、圧縮率を Similarity Measure に使って Clustering するって話でいいのかな。以前、梅村先生が Conference でそんなのを聞いてきたって嬉しそうに紹介してたような記憶がある…

機械に難しいのは人間にも難しい?

ref:ホワット・ア・ワンダフル・ワールド 括弧の無い Lisp あと,正直,機械に解析が困難な文法が,あまり人間にやさしいとも思えないのですが.結局のところ,Ruby だって,思いもよらない意味に解析されちゃって,書いた本人がびっくり ! というケースだ…

cache と index と ambiguous word

NLP

あとはGoogleにキャッシュされるのを待つだけ. 一瞬「キャッシュされる」の意味が分からなかったんだけど、多分、「Google の検索用インデックスに追加される」の意味なんだろう。検索用に整理されたデータのことはインデックスといい、インデックスに追加…

共起頻度と階層構造

NLP

ただ、一般的な意味の包含(ほうがん?、ほうふくだと思ってたんだけど変換で出てこなかった・・・)関係にはなっていない。例えば、javaという階層の下にプログラミング言語というタグがあったりするのだが、これは普通に考えるとおかしい。このような点にお…

シソーラス

NLP

日本語で、フリーで、商用に使えて、結構規模が大きくて、Web上でデータとして配布されているシソーラスってありませんかね? フリーで使える日本語シソーラスって聞いたことないなぁ。作るのに結構なコストがかかるから税金でも投入しないとフリーで公開は…