Google Corpus #2

まとめお疲れ様です。
あー、やっぱオリジナルを復元できないことが前提で、単語 n-gram なんかになるのね。とりあえず機械学習方面には使いにくそうだ。自分も使うかどうかといえば微妙なところだなぁ。

大規模Webデータといっても,かなり学術的なデータになるようで,言語処理やそこに関わる研究分野としては,今までになかった*1「書き言葉・話し言葉」での大規模なコーパスデータは歓迎できるものではないでしょうか.

なくはない。NTCIR-4 WEBとか、CSJとか。

なお,コーパスとか著作権係り受け解析などの専門的な内容は誰かが解説してくれるのではないかと期待しつつ書いてみるメソッドを発動します.

じゃ、とりあえず Wikipedia にリンクしておく。