岡野原大輔さんの講演 - Tocotonistの日記(晴れのち快晴)

私の一番のmotivationはこのセッションでした。

本発表では、SBMの推薦アルゴリズムにおける精度、処理性能向上のための手法を最新の研究成果も含めて解説する。また、実例として、はてなブックマークにおける「関連エントリ」を弊社のシステムがどのように実現しているかを解説する。

以下は私のメモです。

PFIはもともとPurely Functional Infrastructureやったんや
- 岡野原さんではないが、（大田さんかな）Haskell好きだったらしい
CF(協調フィルタリング)に注目
hatenaとの開発話
- Thrift RPCを使う
  - C++(PFI側)とPerl(hatena側)間のデータのやりとり
- Bayesian Set（解説サイト）
  - Google setsみたいなことを実現
  - この辺を読めということかな？
    - Bayesian Sets: DO++
    - Ghahramani and Heller, NIPS 05
    - mots quotidiens.
  - ベルヌーイ分布とベータ分布の共役
  - 積分消去
- はてブの「関連エントリ」、ほぼタグだけを使って計算して表示
- 大規模レコメンデーション
  - 数が大きくないと、機械がレコメンドするメリットが薄い
  - 主記憶上に載せるのが最優先
  - 相関はO(n)は無理
  - 圧縮とLSH(Locally Sensitive Hash) O(log n)
    - LSHはいいのか？
  - LSH（解説サイト）
    - この説明は容赦なかったですね。法線とかは絵を載せた方が良かったと思います。
    - 私は雑誌記事を読んでいたのでこの部分は分かりました。
SBMはデータがきれい（スパム少）
- より明示的な入力ということか？
コメントが面白いという点は（SBMのコメントの内容を見ずに共起だけでも十分という研究をしていた）東工大さんのコメントを聞いてみたい
- 後で松尾さんが質問