Read/Write WebのWeb 3.0: When Web Sites Become Web Servicesという記事がかなり面白い。Web 3.0という言葉は、ここではたまたま「主なWebサイトがWebサービスになる」ような時代を指す代名詞として使っているだけで、Web 3.0の定義を試みているわけではない。
Webサービス化の方向としては、大きく2通り、
- Amazon, Flickrやdel.icio.usのようにREST APIを用意してデータ提供
- Yahoo! PipesやDapperのようなマッシュアップツールを介して、独自のデータを公開
次にAPI。Amazonはカタログを公開する=自社の在庫を公開しており、このようなAPIがProgrammable Webでまとめられているような400を超えるAPI群 - API文化を形成する。一方でdel.icio.us APIはAmazonのそれとは異なる。del.icio.us APIはdel.icio.usデータベースを公開するためのものではない。マッシュアップ・アプリケーションが記事を追加したりタグを更新したりするだけだ。del.icio.usデータベースで特定のデータ集合を得ようとすると、「Webサイトそのものに聞く」という行為が必要となる。つまり、API-lessということだ。
具体的な例を挙げる。del.ciou.usを使ってAlexaサイトを分類するDelexaはdel.ciou.usのAPIを使用しているわけではない。Delexaが扱うようなデータを提供するようなdel.icio.us APIは存在しないのだ。では、APIなしに彼らはどうやってマッシュアップを?
その答えだが、彼らは、
http://del.icio.us/tag/[タグ]というURLをアクセスしてその結果を加工して付加価値を追加しているのだ。これ、つまり、「Webサイトそのものに聞く」行為を行うために必要なのが、Web Scraping(スクレイピング)という考え方。生HTMLから余分なデータを排除して加工する、言い換えると、非構造データを構造化する技術だ。Yahoo! Pipeを使ったことがある人なら、よりそのイメージがわかると思う。
これら、
- Amazon E-Commerce APIのようなOpen API
- Webスクレイピング技術やマッシュアップ
もちろん、トラフィック増に備えるためのスケーラビリティが大きな課題であることや、他サイトのデータを勝手に再利用することの法的側面の解決が単純でないことは指摘されている。しかし、データをClosedで持つことよりもOpenにすることが優位な時代であると考えるならば、「Web 3.0」という呼び方はともかく、ビジネスで生き残っていくには検討に値する考え方だと思う。
蛇足だが、この記事ではマッシュアップと共にレバレッジ(Leverage)という言葉が使用されている。その名の通り、てこの原理というか自社の手持ちのデータは少ないのだが、他のサイトのデータを借りて付加価値を付け、さらに大きなトラフィックを得ようという考え方は、リスクが高くなることも含めて、まさにレバレッジという感じで面白いなと感じた。
Semantic Webという方向性は否定も肯定もされていない。ただ、理想を狙って規格でガンジガラメにしたOSI, CORBAの例を見れば、世の中、落ちるべきところに落ちるというか、歴史的には現実解が勝ってきたということには学ばねばならないだろう。「the term Web Services has been successfully hijacked from the SOAP/WS-* folks」とコメントにもあったが、SOAPはWebサービスをネタにしたこんな記事ですら話題に上らない。出るのは「RESTful/RESTful APIs」。最近のSemantic Web絡みでよく話題に出る、microformats, RDF, SPARQLはどうだろうか。「Web Scraping(スクレイピング)なんて邪道だ」と笑い飛ばせるかどうか...。
記事に対しては、歯ごたえのあるコメントもどんどん増えている(Web 3.0てゆうな!という声と、違法性に関するコメントが多いような)。
*訂正*
「Webスクラッピング」ではなくて「Webスクレイピング」の誤りにつき、訂正しました(はてブコメントで指摘いただいた方、ありがとうございます)