Podcastle Night。

に行ってきました.良かったです.発表者は5人の方で上記サイトにある通りです.


話の内容は,

です.
Podcastingの音声を単に音声認識してテキスト表示しているかだけかと思いきや,Wikipediaライクに訂正可能とするなどの機能やUIが素晴らしい.私が印象に残った内容を書かせて頂くとともに,私のコメントを★印とともに書かせて頂きます.


後藤 真孝さん江渡 浩一郎さんのお話で印象的だったのは4点です.

  • 5人が揃うのが今日が初めてだということ,講演前に今年の「はじめまして」ではなく全くの「はじめまして」の挨拶を交わしていたとか
  • 開発スピードが速いこと
    • 20060118着想,200608開発開始,20070109現在Scalability確保にはまだ作りこみと設備増強費用が必要だけど機能/UIが素晴らしいできばえ
  • wikipediaライクの集合知利用の発想
  • Plaggerとの連携を考えていること
    • まだ「それPla」といえるキラーアイデアはないみたいだがPodcastleからどんなRSSを吐けばいいか?を考えている.
      • 音声認識+Plaggerの辺はいろいろ考えたことがありますが,面白いものができますよ〜

参照: 江渡さんのプレゼン資料: 集合知を活用したWebシステムとしてのPodcastle


音声認識緒方 淳さんのお話で印象に残ったのは6点です.

  • 検索ヒット付近のリスト
    • ★リストの連続再生は違うUIで何か面白い使い方があるはず
  • ★人手による訂正がそれ以外の箇所の認識に訂正に影響してるっぽい
  • ★UIが素晴らしい
    • 再生時にカーソルがカラオケの字幕のように動く
    • 候補が初めから表示されている
  • Y!ニュース,Gニュースからも日本語辞書を作っている
    • メリットが多い
      • いろんな分野をカバー
      • 最新の単語,話題をカバー
      • 多くのPodcastingと親和性の高い情報
      • 芸能系の単語を認識しやすい
    • 普通は新聞などから思いっきり人手をかけて入力し,正確性を競っている
  • 市販ソフト,研究レベルのギャップ
    • ★おそらく技術的なギャップというより実行環境のギャップ
    • 市販ソフトはリアルタイム性を重視だが,研究レベルだと時間を気にせず性能重視
  • ソーシャルアノテーションシステム
    • 敢えて全テキストを外部公開してさらけ出した
      • 認識が完全でないのをさらけだすことは少し怖い
      • Me, 梅田望夫さん講演の感想 その1 で梅田さんはVisual Searchの Riya がうまくユーザからデータを集めて技術改善にfeedbackしていて良い循環になっていると話していたが,PodCastleも同じ循環になっている.それができない会社はWeb2.0の時代には辛い.


新井 俊一さんのお話で印象に残ったのは5点です.

  • 圧倒的な開発スピード
  • Rails/MySQLで構築
  • 上津さんをPodcastleメンバに紹介
  • 音声認識にはRealtimeの10倍の時間がかかる
  • 音声認識がバージョンアップする時にも人での訂正内容は上書きしないようにした


上津 竜太郎さんのお話で印象に残ったのは5点です.

  • ★この人すごい
    • 開発スピード,開発センス,プレゼン
  • QuickTimeFlashの2方式を使用
  • ★jsh面白い
    • ★私は知りませんでした...
  • 色んなデモ/機能(実際に見てない人には伝わらない内容が多いです...)
    • 再生速度の修正
      • ショートカットキーは CNTL+矢印 などみたいですね
    • 画像変化をトリガーにした音声再生
    • 音声入力をトリガーにした画面変化

参照: 上津さんのプレゼンビデオなど: Wiki小話/Vol.7「Podcastle開発について」とすごすぎるブラジルさんのプレゼンについて:[mi]みたいもん!



参加者からの質問で印象に残ったのは5点です.

  • 情報漏えいせず認識を使いたい
  • テキスト部分の著作権
    • 放送局の番組台本があると認識のベースに使うことができる?
  • 中途半端な(正しくない)訂正を受け入れる枠組みは作ってある
  • OpenSource化は難しいが,ライセンス化は興味ある
  • 訂正自体を音声認識でできないか?WIIリモコンまでは考えているが,,,