Wikipedia

Wikipedia コーパス

Wikipedia はそのダンプデータを公開しているので、自然言語処理の研究で利用するひとが結構いたりする。 なので、ためしに英語版 Wikipedia のダンプデータのXMLをパースしながら、適当に書式情報を削除して1項目1ファイルにして HyperEstraier の文書ドラ…

Java におけるハッシュテーブルの実装

主要プログラミング言語におけるハッシュテーブルの実装 JavaにおけるMap、HashMap、TreeMap、LinkedHashMap、Hashtable クラス(またはインタフェース) まて。Map は実装じゃないし、TreeMap はその名のとおり木だ。

転置インデックス

そういや、以前誰かが、輪講で inverted index を「逆インデックス」って訳していて、それはないわ、と思ったけど。 転置インデックスには大きく分けて2通りの手法がある。転置ファイルインデックス(inverted file index)は単語と、その単語を含む全ての文書…

接尾辞配列

ref:接尾辞配列 - Wikipedia ref:Suffix array - Wikipedia, the free encyclopedia ぬお。日本語版 Wikipedia に Suffix Array の項目が。接尾辞配列なんていっている人いるのか、とか思ったけど検索したらそこそこ使われているし。 で、どうも英語版の翻訳…

YAML

YAMLは次の言語に組み込まれている。 JavaScript Perl PHP Python Ruby (YAML 1.8から標準ライブラリに含まれる。) Java XML (ドラフト段階) YAML 1.8 にふいた。 てか、「組み込まれている」って表現が適切でないような。「ライブラリがある」って程度だよ…