データ公開の研究者と事業者の意識議論@ソーシャルブックマーク(SBM)研究会

20081206(Sat.)1641-1741


欲しい情報は

  • by 上野大樹さん
    • URL, Title, User_Name, Timeともうひとつ?
    • URL(10M件)
    • CFだけだとはてなの関連エントリには勝てないかと感じている
  • by 大向一輝さん
    • Content, Tag, Userの3部グラフ
    • timestampは欲しい
    • commentsは欲しい
    • 評価(○×など)
    • ただし, Up-to-dateである必要性はない
    • 無断クロールをしなくても良い状況になって欲しい
    • 既存データ
    • 課題
      • 契約,成果の取扱,発表の場,事業者へのメリット(新機能開発,広報,採用活動)


事業者として期待するのは(優先度を上げたいのは),別ソースとの組み合わせた解析.
データ管理の安全面さえ担保されれば,条件はゆるいと思う.
spam判定,検索,テキスト解析が大事.
企業のビジネスに乗っかるというよりも,事業者が気づいていないことをやって欲しい.


研究者が要求するデータ規模というよりもデータに対する中身の説明が知りたいことがある.


事業者としては,機械的にクローリングしているid用の専用サーバがある.言ってくれればデータをあげることができる場合も多い.

  • 感想
    • 個人的には,フォーマットはどうでもいい気がする.
      • 情報さえそろっていれば,あとは研究者である程度はできそう.
    • SBMはユーザ行動を表すデータのone of themであり,それが使いやすくなることは今後他のユーザ行動データとの比較も含めて重要である.
    • OpenIDのようなものをするのは事業者側ではなく,解析側がするべきかと思うがそのデータがボリュームを持つのはしばらくなさそう.
    • アクセスログはかなりプライバシ的に難しそう
    • SBMでは一部のデータが必ず公開されているので,Netflix Prizeの情報漏洩の話は起きうる.その対策として,GroupLensのような追跡不可能なデータにするか,間引きデータで追跡を難しくするしかないかもしれません.