江原 遥さんの講演
- 14:55〜15:25
- 講師: 江原 遥さん(blog)
- 所属:東京大学 情報理工学系研究科 博士課程
- 講演タイトル:SocialDict - 英文Webページのスマートな注釈・辞書引きシステム
- 資料upあり
- videoあり
- 講演概要
私はSocialDictという英文Webページのスマートな注釈・辞書引きシステムを作成しています。どのようにスマートかというと、利用者の英語力を利用者が注釈の必要な箇所をクリックしたログから推定し、Webページ中のわからなさそうな単語をあらかじめ辞書で引いておいてくれる点がスマートです。推定には、TOEFLやTOEICで使われているとされる項目反応理論と等価な手法である対数線形モデルを用いています。
現在は、まだα版なのですが、9月頭あたりから開発時間が取れるので、発表までには、ある程度完成させ、下記URLにて公開できればと思います。
http://socialdict.com/
以下は私のメモです。
- Personalizedしてユーザが知らない単語を判定し、日本語注釈して出している。
- pythonでつくっている
- GAE(Google App Engine)を使った
- 卒論、修論ならこれがいい
- 楽(accountなど)
- google 1-gram
- 16人の被験者は12000単語の知っている知っていないなどの正解データをいれたみたい。8時間くらいかかるとのこと。
- SVMと比較すると、遜色ない
- 今後
- Smart.fmなどと連携したい
- 単語ではなくpageの英語難易度を出す
- 判断ロジックにはIRT(項目反応理論)
- Rasch model
- N-gram
- TOEICやTOEFLの採点などにも使われている手法らしい
Q&A
- 単語ではなく、熟語のような単語間の関係によって意味をなすものに対してはどうする
- 課題ではある
- 1方法として熟語リストも採用する。それ以外の方法はまだ考えていない
- 日本語で同様のことをするとなるとどういった課題があるの?
- 単語分割(=形態素解析?)が必要なるくらい
- 初期段階はどうする
- 平均的なものが出てくる
- 知らないけど、知っている判定になっているものも訂正できるから大丈夫
- 使い勝手をどう考える
- 単に単語を出すのも良いがサービスとしては強くないので、smart.fmでその人に必要な単語を出すなどに発展させたい