2007-03-21から1日間の記事一覧

ミスヒット

検索において検索要求と関係のない結果を出力してしまうことをミスヒットと呼ぶらしいのだが、これってどこから来たのだろう。情報検索(Information Retrieval)の世界ではそういうのは「false positive」と呼ぶのが普通だと思うが、「miss hit」という表記は…

Google Corpus #2

NLP

ref:のほほん徒然 - 聞いてきました:Googleの大規模日本語データ公開に関する特別セッション まとめお疲れ様です。 あー、やっぱオリジナルを復元できないことが前提で、単語 n-gram なんかになるのね。とりあえず機械学習方面には使いにくそうだ。自分も使…

zsh の色設定

ref:ANOTHER PIECES - zsh のプロンプト変えてみようかな、とか。 大将、zsh には colors ってのがありやすぜ。とよく分からないノリではじめてみる。 autoload -U colors; colorsとすれば、使える。あとは、 PROMPT="${fg[white]}[${fg_bold[blue]}%n@%M${f…

エンコーディング達人判定

ふと、文字エンコーディングの問題に詳しい人間は'\'の ASCII コードを 0x5c だと即答できるんじゃなかろうかと思った。逆に言えば*1、即答できない人間は詳しくないだろうと思うわけだが、さてどうだろう。 あと、FULLWIDTH TILDE と WAVE DASH がなにか分…

アンダーバー

ref:void GraphicWizardsLair( void ); // 「_」のアンダースコアを「アンダーバー」と間違って呼ぶのは日本人だけみたい? ふーん、と思って「Underbar」で検索したら _summer - Wikipedia, the free encyclopedia が出てきて笑った。 そんでもって、Discus…

Byte Order

いまどきビッグエンディアンがデフォルトとは! どう、「いまどき」なのかよく分からないけど、Java の java.io.DataInput, java.io.DataInput は Big Endian と定められているし、ネットワークに流すときは Big Endian というのが標準ではないのかな。 そう…

RMS #2

Richard Stallman の講演を聴いてきたわけだが、とりたてて書くようなこともないかなぁ。 と思ったけどちょっとだけ書く。ちょっと自信がないが、こんなことを言っていたと思う。 GPL defends freedom. Non GPL open source license respects freedom, but d…

Unicode 正規化と文字種判定

この処理は、 もともと、Web page が英語なのかどうかを判定したいという目的があるのだが、 実際にこのメソッドで処理したら、 例えば、見た感じは全部英語っぽいのだが、 いわゆる全角空白が使われている、 というページが出てくる。 どう見ても英語なのだ…