「検索」でいいのか?

なんていうか面白い。なんでそんなに「検索」でいこうとするのか。

  • なにが情報で何がノイズかはユーザによって異なる
  • 検索文字列に対応する正解集合はユーザによって異なる

正解集合がユーザに依存するのかっていうと実はそんなことはなくて、「知りたい情報」を人間が「キーワード」で定義しようとするからそこで情報が落ちているだけの話なんだよね。
さて、IR(Information Retrieval; 情報検索)って、ユーザの問い合わせに対して、持っている文書を提示するという形をとるんだけど、そもそもそれで十分なのか、ということを考えてみてもいいと思う。たとえば、「日本の歴代首相と在任期間を知りたい」という要求に対して、探して見つけた文書を提示するだけでいいのか、とか。いやもちろん、そういうのをまとめた文書があればいいんだけど。
ちなみに、

発表者の森と、
検索エンジンは情報を減らすための技術だから面白い」と
盛り上がって話した記憶があります。

情報抽出(Information Extraction)だって要約(Summarization)だって情報量を減らす処理には違いないなぁ。