MovieLens
MovieLensという公開データがあります.
その中には例えば,userが943人,movieが1682映画,userが映画に対してつけた評価(レート)が10万件あるデータがあります.
そのデータに自分が944人目として70映画くらいの評価を追加すると次のような映画を推薦されました.
それぞれの方式は既存にあるものだったり,私が新たに改良したものです.
順位 方式1 方式2 1 Star Wars (1977) Star Wars (1977) 2 Fargo (1996) Return of the Jedi (1983) 3 Return of the Jedi (1983) Scream (1996) 4 Contact (1997) Contact (1997) 5 English Patient, The (1996) Liar Liar (1997) 6 Godfather, The (1972) Empire Strikes Back, The (1980) 7 Raiders of the Lost Ark (1981) Fargo (1996) 8 Empire Strikes Back, The (1980) Raiders of the Lost Ark (1981) 9 Liar Liar (1997) Princess Bride, The (1987) 10 Pulp Fiction (1994) Pulp Fiction (1994)
以上は,良くありがちな方法です.
以下は,協調フィルタリングの色々パタンを考えてやってみました.
順位 方式3 方式4 1 George of the Jungle (1997) Double vie de Veronique, La (1991) 2 Persuasion (1995) Brassed Off (1996) 3 Arsenic and Old Lace (1944) Jean de Florette (1986) 4 Sabrina (1954) Secret Garden, The (1993) 5 Secret Garden, The (1993) Microcosmos: Le peuple de l'herbe (1996) 6 Welcome To Sarajevo (1997) Spy Hard (1996) 7 Jean de Florette (1986) Set It Off (1996) 8 Empire Strikes Back, The (1980) Raiders of the Lost Ark (1981) 9 Microcosmos: Le peuple de l'herbe (1996) Girl 6 (1996) 10 Star Trek: First Contact (1996) Kiss Me, Guido (1997)
順位 方式5 方式6 1 Star Wars (1977) Star Wars (1977) 2 Fargo (1996) Return of the Jedi (1983) 3 Return of the Jedi (1983) Raiders of the Lost Ark (1981) 4 Raiders of the Lost Ark (1981) Empire Strikes Back, The (1980) 5 Contact (1997) Fargo (1996) 6 Godfather, The (1972) Princess Bride, The (1987) 7 Empire Strikes Back, The (1980) Independence Day (ID4) (1996) 8 English Patient, The (1996) Pulp Fiction (1994) 9 Pulp Fiction (1994) Godfather, The (1972) 10 Independence Day (ID4) (1996) Indiana Jones and the Last Crusade (1989)
順位 方式7 1 Star Wars (1977) 2 Return of the Jedi (1983) 3 Fargo (1996) 4 Independence Day (ID4) (1996) 5 Raiders of the Lost Ark (1981) 6 Godfather, The (1972) 7 Contact (1997) 8 Empire Strikes Back, The (1980) 9 Rock, The (1996) 10 Liar Liar (1997)
もちろん推薦技術的には適用対象は,映画に限定されず,広告,ニューズ,音楽,行動などいろいろとあります.
例えば方式7は,ある評価指標で完全に理想的とされる状態に対して,1アイデアで協調フィルタリングを汎用的に改善します.比較対象方式に1アイデアを追加するだけで,理想的な結果との間に存在するGapを20%程度縮めることができます.理想的な状態を予想するScoringは,それぞれのユーザが入力するデータにブレ(noise)がある以上不可能なので20%改善はそこそこ良い数字かなぁと思いますし,今後まだまだ縮められそうです.)結果は面白いし,今はやっていませんが個々の方式はパラメータ調整できるし,他に試したい方式もあるし,それぞれの方式をブレンドする方法もあるので,もっと良くできるとは思います.またMovieLensはデータが2000年くらいまでの映画へのデータなので,Netflix Prizeに出すともっと面白いかも知れません.
ただどう金にしましょうかねぇ。。。その改良を金に反映できるのは,Google,Y!,Amazonやコンテンツホルダでないと難しいのかも知れません.残念です.
このような結果を有効利用できて,お遊びと判断されない最も良い場所ってどこなんでしょうね?