データ公開の研究者と事業者の意識議論@ソーシャルブックマーク(SBM)研究会
20081206(Sat.)1641-1741
欲しい情報は
事業者として期待するのは(優先度を上げたいのは),別ソースとの組み合わせた解析.
データ管理の安全面さえ担保されれば,条件はゆるいと思う.
spam判定,検索,テキスト解析が大事.
企業のビジネスに乗っかるというよりも,事業者が気づいていないことをやって欲しい.
研究者が要求するデータ規模というよりもデータに対する中身の説明が知りたいことがある.
事業者としては,機械的にクローリングしているid用の専用サーバがある.言ってくれればデータをあげることができる場合も多い.
- QA
- 感想
- 個人的には,フォーマットはどうでもいい気がする.
- 情報さえそろっていれば,あとは研究者である程度はできそう.
- SBMはユーザ行動を表すデータのone of themであり,それが使いやすくなることは今後他のユーザ行動データとの比較も含めて重要である.
- OpenIDのようなものをするのは事業者側ではなく,解析側がするべきかと思うがそのデータがボリュームを持つのはしばらくなさそう.
- アクセスログはかなりプライバシ的に難しそう
- SBMでは一部のデータが必ず公開されているので,Netflix Prizeの情報漏洩の話は起きうる.その対策として,GroupLensのような追跡不可能なデータにするか,間引きデータで追跡を難しくするしかないかもしれません.
- 個人的には,フォーマットはどうでもいい気がする.