はてなキーワード抽出の確認

上のエントリのスクリプトの動作確認。
とりあえず抽出ミスがないかどうかだけ確認。

#!/usr/bin/env perl

use strict;
use warnings;

if (@ARGV != 2) {
    printf STDERR "usage: %s keywordlist keywordlist.extracted\n", $ARGV[0];
    exit 1;
}

open my $rfh, $ARGV[0] or die;
my $regex = join '', <$rfh>;
close $rfh;


open my $fh, $ARGV[1] or die;
while (my $line = <$fh>) {
    chomp $line;
    if ($line !~ /^$regex$/o) {
        print STDERR "$line is not match\n";
        close $fh;
        exit 2;
    }
}

print "ok\n";
close $fh;
% perl keywordcheck.pl keywordlist keywordlist.extracted
ok

とりあえず変な抽出はしていないっぽい。
キーワード数を確認。

% wc -l keywordlist.extracted
164094 keywordlist.extracted

で、

現在173,559語のキーワードが登録されています。

とのことで、結構取りこぼしているな。むう、なんでだろ。多義語をエントリ毎に数えているとか?まぁ、プログラムの問題のような気もするが、良くわからん。