2007-03-01から1ヶ月間の記事一覧

クラスメソッドの抽出 #2

okuji さん曰く 素直にinspect.classify_class_attrsを使ってはどうでしょうか。 あー、標準にそんなモジュールが。というわけでコレを使えばこうなりますね。 import inspect def get_class_methods(klass): return [attr[0] for attr in inspect.classify_…

転置インデックス

そういや、以前誰かが、輪講で inverted index を「逆インデックス」って訳していて、それはないわ、と思ったけど。 転置インデックスには大きく分けて2通りの手法がある。転置ファイルインデックス(inverted file index)は単語と、その単語を含む全ての文書…

モラルハザード

なんか国立国語研究所のページを見ていたらモラルハザードの用例が 少年たちによる殺人事件の多発,モラルハザード〔倫理崩壊〕が叫ばれる大人社会,自己中心性の肥大化など社会病理現象があらわになっている。 に。意味が 倫理観や道徳的節度がなくなり,社…

和訳 or カタカナ

array → 配列は鉄板として、suffixは拡張子とか接尾辞になるでしょうから、 まあ何も考えなければ「接尾辞配列」になっちゃうんですかねえ。 まぁ、和訳しなきゃならないとすれば、接尾辞配列は妥当なところだと思います。 というより、「中央演算処理装置」…

サーバルーム

そういえば、某セキュリティの偉い先生のサーバには普通に root のパスワードが張ってあったりする。まぁ、当然サーバルームには鍵がかかるし、そもそもフロアに入るのにカードキーがいるんだけど。 「コンソールへのアクセスを許した時点で駄目」って話を象…

sudo #3

fuktommy fuktommy ↓rootpwはこの場合の解ではないです。alias su='sudo -k && sudo -s -H' かなあ。 む。私の誤読かな?どういうことだろ。 そもそも root の shell が必要な場面てないと思うんだけど。普通に -s, -i なしの sudo では駄目なのかな。本当に…

文字列ソーティング #3

今度は単語単位のソートにしてベンチマーク。元データは同じく新聞記事約 30MBytes (単語数 5,727,663)。 ついでに MSD Radix Sort も加えてみた。 で、きむらさんのところを見て、そういや、プロファイルとってないなと思ったので、g++ -O2 -pg でコンパイ…

キーワード検索

NLP

ref:万有引力がはたらくcQueの日記(メニスカス) - 意外と盲点?連鎖googleなぐぐりかた あー、結局それは現状のキーワード検索システムの限界というかなんというか。実は、自然文の検索要求文から人間が検索キーワードを決定して検索するより、bigram にぶっ…

sudo #2

ref:suとsudo (Fuktommyの場合) 普通の作業は一般ユーザ、管理の作業はrootと使い分けます。 気持ちを切り替えるためにsuコマンドを使って、 rootのパスワードを入力するようにします。 管理作業でも定型的なもの、 例えばDebianなら apt-get update; apt-ge…

ポインタと参照の違い

C++

ref:神様なんて信じない僕らのために - ポインタと参照 メンバ変数のメモリレイアウトは規格で決められていないはずなので、例としては微妙だなぁ。 それはそれとして、思いつく限り、ポインタと参照の違いを並べてみる。 参照には NULL pointer に相当する…

アライドアーキテクツの清水さん

ref:J - はやく一人前の開発者になりたい。 ref:Cry’s Diary なんか、一部でネタ化されつつあるようだけど、空気を読まずにマジレスすると、ここにコメントを残していったときの id が yushimizu なので、「しみず」と読むんじゃないかな。 そして、例のコメ…

接尾辞配列

ref:接尾辞配列 - Wikipedia ref:Suffix array - Wikipedia, the free encyclopedia ぬお。日本語版 Wikipedia に Suffix Array の項目が。接尾辞配列なんていっている人いるのか、とか思ったけど検索したらそこそこ使われているし。 で、どうも英語版の翻訳…

Quicksort が遅い理由

クイックソートは、その性質上、再帰の最後の方になってくるとほとんど同じ要素同士を比較することになってしまうので、文字列配列の場合、最後の方の比較のコストがかなり大きくなってしまうので、それが影響しているのではないかと。 む。そうかも。 まぁ…

京都大学コーパスのパーズ

ref:Darkness:Cabocha_tree_analyze - livedoor Blog(ブログ) コードを見る限り cabocha -f1 としたときの出力の解析みたいだけど、あれは CaboCha 特有のフォーマットじゃなくて京都大学コーパス由来のフォーマットだと思います! で、ちょっと真面目に解…

sudo

ref:ウノウラボ Unoh Labs: 専用サーバを構築するときにまず行う4つの設定 む。 /etc/sudoers の編集には visudo を使いましょう。文法チェックもしてくれる /etc/shadow の編集には sudo vipw -s としましょう。まぁインストール直後だと問題ないだろうけ…

Java + Debian

個人的には,Java で書かれてるってのが非常に微妙なんだけど.別に Java が嫌いとかそういうんじゃなくて,単純に処理系のインストールが面倒というか.apt で入らないから (Java がオープンソースになったってことだけど,そのうち解決するのかね ?) あれ…

YouTube と NHK

例の ANA の飛行機が胴体着陸した NHK の中継を YouTube で見てたらちょうど NHK の中の人がやってきた。タイミングよすぎ。

文字列ソーティング #2

文字列ソーティングの速度比較にいくつかのアルゴリズムで Suffix Array を構築してみた。 対象データは 30 MBytes ほどの英文新聞記事データで、gcc 4.0 で -O2 でコンパイル。結果はこんな感じ。 algorithm time[sec] quicksort 97.33 multikey quicksort …

Google Corpus

NLP

ref:Google: 大規模日本語データ公開に関する特別セッション ref:Googleが大規模日本語データを公開するという話 おお。これはいいな。Web のデータなんだろうか。 と、思ったけど、もしかして Google の持っている大規模日本語データって、著作権者は Google…

new

これからでてくる言語では、hoge = new Hoge; とか、hoge = Hoge.new ではなく、 hoge = Hoge でも、許されるんじゃないかなぁ、とかそういう系の至極どうでも良い妄想です。 至極、現実的な問題として、クラスオブジェクト(クラスリテラル)との区別はどうす…

文字列ソーティング

ref:lethevert is a programmer - 文字列ソート ref:ときどきの雑記帖 リターンズ 2007年3月 文字列をソートするのに、クイックソート系のアルゴリズムをつかうのと、マージソート系のアルゴリズムを使うのでは、効率が大分変わる。 と思うのだけれど、マー…

MySQL の共有ライブラリ

MySQLdbがimport出来ない、インストールに失敗しているようですorz MySQL の共有ライブラリはデフォルトでは $prefix/lib/mysql なんて場所にインストールされるので、libmysqlclient.so を見つけられてないのではないかと推測。 もしそうなら、/etc/ld.so.c…

転送量

UTF-8 にすることによって転送量が増えることが問題なんだったら、そもそも XML-RPC も SOAP も流行らないんじゃないかと思った。

cron と夏時間

あー、そういえば夏時間終了時には一度時計が1時間戻るから同じ時間が2回繰り返されるんだよなぁ。ローカルタイムに従うようにしている場合、その時間帯に cron を仕掛けておくとまずいことになるかも知れないね。 ということで、夏時間が存在する地域で cron…

virtual

C++

互換性の問題もあるんだろうけど、とりあえず virtual だけだと fanctor(関数オブジェクト)のインライン展開ができなくなるなぁ。それはよろしくない。

charset と encoding #2

lotaki さん曰く RFC 2278 に charset のことが書いてあるよ、とのことで見てみた。2.3. Charset から。 The term "charset" (see historical note below) is used here to refer to a method of converting a sequence of octets into a sequence of charac…

青龍刀

例のやたらややこしい find の例はもともと半分ネタなので、「鶏をさばくのに牛刀」というツッコミが来るかと思ったけど、まさか青龍刀といわれるとは思わなかったよ。正に想像の斜め上だ。

夏時間

しまった。今日からまた夏時間だよ。今年からルールが変わっているらしい。

標準出力の複製

「パイプの途中経過を観察するのために、標準出力を標準エラー出力にコピーしたいんだけどいい方法知っている?」と聞かれたので、 % seq 10 | tee /dev/stderr | cat -n > outみたいな方法を紹介してみたわけだが、これってどれくらいの可搬性があるんだろ…

charset と encoding

どういう経緯でそうなったかは知らないが、現状 Web ページのエンコーディングをブラウザに通知するには HTTP レスポンスヘッダの Content-type に Content-type: text/html; charset=utf-8といった感じに、エンコーディングを指定することになっている。 で…