形態素解析など
クチコミと良く書いていると,チコバイブルなるものがcontent basedで推薦される."京都"と検索すると"東京都"のものが出てくる.文字としては含んでいるけど意味としては違う.特に日本語では置きがちなもので形態素解析で解決できるとのこと.
私も一時期"PoC"(Push to Talk over Cellular)を未来検索のようなprospective searchで引っ掛けてRSS Readerで見ていました.(誰かがPoCという文字の入った記事を書くとRSS readerで読める)
結果,集まった記事がポケモンだらけでした.
日本語の場合はもちろん形態素解析で逃れられたり,記事全体のcontentを意味解析して判断することはできるはずです.またこのようなfiltering手段以外にも対策があるかと思います.これに関してはおいおい書きたいです.