MovieLens


MovieLensという公開データがあります.


その中には例えば,userが943人,movieが1682映画,userが映画に対してつけた評価(レート)が10万件あるデータがあります.
そのデータに自分が944人目として70映画くらいの評価を追加すると次のような映画を推薦されました.


それぞれの方式は既存にあるものだったり,私が新たに改良したものです.

順位 方式1 方式2
1 Star Wars (1977) Star Wars (1977)
2 Fargo (1996) Return of the Jedi (1983)
3 Return of the Jedi (1983) Scream (1996)
4 Contact (1997) Contact (1997)
5 English Patient, The (1996) Liar Liar (1997)
6 Godfather, The (1972) Empire Strikes Back, The (1980)
7 Raiders of the Lost Ark (1981) Fargo (1996)
8 Empire Strikes Back, The (1980) Raiders of the Lost Ark (1981)
9 Liar Liar (1997) Princess Bride, The (1987)
10 Pulp Fiction (1994) Pulp Fiction (1994)

以上は,良くありがちな方法です.
以下は,協調フィルタリングの色々パタンを考えてやってみました.

順位 方式3 方式4
1 George of the Jungle (1997) Double vie de Veronique, La (1991)
2 Persuasion (1995) Brassed Off (1996)
3 Arsenic and Old Lace (1944) Jean de Florette (1986)
4 Sabrina (1954) Secret Garden, The (1993)
5 Secret Garden, The (1993) Microcosmos: Le peuple de l'herbe (1996)
6 Welcome To Sarajevo (1997) Spy Hard (1996)
7 Jean de Florette (1986) Set It Off (1996)
8 Empire Strikes Back, The (1980) Raiders of the Lost Ark (1981)
9 Microcosmos: Le peuple de l'herbe (1996) Girl 6 (1996)
10 Star Trek: First Contact (1996) Kiss Me, Guido (1997)
順位 方式5 方式6
1 Star Wars (1977) Star Wars (1977)
2 Fargo (1996) Return of the Jedi (1983)
3 Return of the Jedi (1983) Raiders of the Lost Ark (1981)
4 Raiders of the Lost Ark (1981) Empire Strikes Back, The (1980)
5 Contact (1997) Fargo (1996)
6 Godfather, The (1972) Princess Bride, The (1987)
7 Empire Strikes Back, The (1980) Independence Day (ID4) (1996)
8 English Patient, The (1996) Pulp Fiction (1994)
9 Pulp Fiction (1994) Godfather, The (1972)
10 Independence Day (ID4) (1996) Indiana Jones and the Last Crusade (1989)
順位 方式7
1 Star Wars (1977)
2 Return of the Jedi (1983)
3 Fargo (1996)
4 Independence Day (ID4) (1996)
5 Raiders of the Lost Ark (1981)
6 Godfather, The (1972)
7 Contact (1997)
8 Empire Strikes Back, The (1980)
9 Rock, The (1996)
10 Liar Liar (1997)


もちろん推薦技術的には適用対象は,映画に限定されず,広告,ニューズ,音楽,行動などいろいろとあります.
例えば方式7は,ある評価指標で完全に理想的とされる状態に対して,1アイデア協調フィルタリングを汎用的に改善します.比較対象方式に1アイデアを追加するだけで,理想的な結果との間に存在するGapを20%程度縮めることができます.理想的な状態を予想するScoringは,それぞれのユーザが入力するデータにブレ(noise)がある以上不可能なので20%改善はそこそこ良い数字かなぁと思いますし,今後まだまだ縮められそうです.)結果は面白いし,今はやっていませんが個々の方式はパラメータ調整できるし,他に試したい方式もあるし,それぞれの方式をブレンドする方法もあるので,もっと良くできるとは思います.またMovieLensはデータが2000年くらいまでの映画へのデータなので,Netflix Prizeに出すともっと面白いかも知れません.


ただどう金にしましょうかねぇ。。。その改良を金に反映できるのは,Google,Y!,Amazonやコンテンツホルダでないと難しいのかも知れません.残念です.
このような結果を有効利用できて,お遊びと判断されない最も良い場所ってどこなんでしょうね?