SEVEN DEGREES: Webビデオのリモコンに向けて

ISPにメディア配信システムを販売している英国ケンブリッジのCacheLogic社によると、インターネットを流れるトラフィックのうち60%がビデオらしい。これが2年以内に98%を占めるようになる。そう言ったのは、CMU - カーネギーメロン大学のコンピューター科学者Hui Zhang。しかし、Googleに代表される、テキスト時代に生まれたサーチエンジンはこのビデオの海をまだうまく泳げないでいる。それらはビデオ自身を検索するのではなく、タグ、表題、副題やファイルタイプといったメタデータを頼りにしているに過ぎない。

Suranga Chandratillakeは「もっと効果的でスケーラブルなやり方が必要だ」と考え、Webビデオのリモコン実現を目指して2004年にBlinkxの共同創始者となった。Blinkxの検索技術は隠れマルコフモデルを利用してビデオ音声の音声認識を行い、ビデオ内容を解析するというもの。「Contextual Search」（内容検索）と彼は呼ぶ。

Blinkx searchの良さは、スピーチやニュース映像なんかであれば効果てきめんであることは容易に想像がつくだろう。彼らは他サイトへの技術ライセンスで$12.5 million（約15億円）を稼いでいるが、成功と言えるためには3つの障害を乗り越えなければならない。

Google VideoやYouTubeの検索がもっと良くなるかもしれない
TruVeo, Flurl, ClipBlastなどの競合に出し抜かれるかもしれない
彼らは音声を検索しているのであって、画像ではないこと

いずれも厳しい障害だ。IBMワトソン研究所のJohn R. Smithは「Marvel」という映像や画像も探せるサーチエンジンを実験しているとのこと。WikiPediaではオープンソース・クローズドソースでの各種プロジェクトがたくさん記述されている。さらに、CAD領域でも同じ問題を抱えているせいもあって、"Content-Based Image and Video Retrieval"や"CBIR"でググれば50万～70万の検索結果が出てくる。Googleは「find similar」リンクをかなり以前にGoogle Imageに対し付加しているし、昨年1月にはこんな技術発表も。

Content-Based Image and Video Retrieval - Google Video:
We will describe the use of hidden Markov models (HMMs) for content-based retrieval of images and video via text queries. In this model, objects or concepts present in an image or video clip constitute the state-space of a Markov chain, and the observed visual features, as well as any text or caption accompanying the image, are modeled as stochastic emissions from the (unobserved) states of this Markov chain.

「The Search」のJohn Battelleは、「サーチはインターネットへのナビゲーションであり、インターフェースなのさ」と言ったが、そのトップに立ち続けるのは本当に難しいのだろうな。

*参考*

Millions of Videos, and Now a Way to Search Inside Them