Daily Search Activities

Daily Search Activities
Googleが2003年8月14日の世界のサーチ状況をアニメーションGIFにしている。米国・欧州・日本・豪州あたりが活発だとわかる。中国は百度(Baidu)のせいか、それとも強制プロキシー経由のアクセス制限がまだ効いているためか、それほどでもない。
この機能がリリースされるのかどうかはわからない。リンク辿っていったら、これを分析するにあたって考えた理論を述べたGoogleの技術者論文(PDF)が見つかった。Sawzallという新言語を使ったこと、XMLの代わりにprotocol bufferを使っているとか、Google File Systemのことなどちょっと面白そう。Google LabによるResearch Publicationsには他にもクラスタアーキテクチャの紹介とかGoogleを語る人には読んでおいたほうが良さそうな論文がいくつかありますね。

Interpreting the Data:Parallel Analysis with Sawzall(PDF):
Rob Pike, Sean Dorward, Robert Griesemer, Sean Quinlan
Google, Inc.
(Draft submitted to Scientific Programming Journal)
Abstract
Very large data sets often have a flat but regular structure and span multiple disks and machines. Examples include telephone call records, network logs, and web document repositories. These large data sets are not amenable to study using traditional database techniques, if only because they can be too large to fit in a single relational database. On the other hand, many of the analyses done on them can be expressed using simple, easily distributed computations:filtering, aggregation, extraction of statistics, and so on. We present a system for automating such analyses. A filtering phase, in which a query is expressed using a new programming language, emits data to an aggregation phase. Both phases are distributed over hundreds or even thousands of computers. The results are then collated and saved to a file. The design – including the separation into two phases, the form of the programming language, and the properties of the aggregators – exploits the parallelism inherent in having data and computation distributed across many machines.

1/20 追記
ここのSawzallだとかMapReduceについて「ブログ→Google Base」につながる話を書いている方が居て「へぇ」と思った。Ningの核は収集されるソースコード群かと思ったらデータベース内のデータだという理解なのか。言われてみればそちらの方が自然だな。参考になりました。


Via Google Blogoscoped
[]

貨物トラッキングサービス - PackageMapper

Package Mapper言っちゃあ悪いが、ここのところのStartUpsって、ソーシャルブックマークサービス系のどっかで見たようなのが多くて食傷気味だったのですが、久々にリアルビジネスに連携したものが出てきました。
  • 地図への貨物マッピングサービス
  • カレンダーサービス
  • Google Earth連携
という機能を用意したみたいですね。でもFreeというのは大丈夫なのか? 有償サービスでこういう貨物トラッキングWebサービスを提供しているところはあるんですが、トラッキング利用者は無料でも貨物発送側が費用を負担するような構図になっています。インフラコストとか結構かかりますからね。と思ったら、現に、

Service announcement: This site might be slow for a day or two. It's running off a shared server, and it's been getting a lot of traffic today from Digg, LifeHacker, and del.iciou.s popular. — January 10, 2006
というようなことになってます。著名なTaggingサービスでブクマクされるということは、もはや一種のDOS攻撃宣言に近いとも言えますな。リアルビジネス系サービスでは、今後、Taggingというかソーシャルブックマーク系サイトからのアクセスを遮断することになるのかな?

PackageMapper.com:
Track your package
Package Mapper shows you a map of your FedEx, UPS, USPS package routes. Enter a carrier and a tracking number to see your package's progress plotted on the map. Sign in to enter a list of packages and see their current locations on a table or map.


[][][][][]

[Updated] diggに特許問題か?

diggに特許問題が発生した(というか吹っかけられた)模様。とりあえず書いとく。下記はSteve Mallettの見解。
The New Foo » My Response.:
Yesterday an unfortunate incident occurred on Digg where a patently false accusation was made against me. Due to its inflammatory nature it was voted “thumbs-up” evidently without much investigation by many digg readers.
1/14 追記
勘違いでした、スマソ。Patently(明らかに)を「特許の」と訳したのと、Steve Mallettがdiggの人と思いこんだのが勘違い(泣)。極めて初歩的なケアレスミスでした。「とりあえず書いとく」なんて、ちゃんと読んでから書くべきでしたね。

それはそれとして、内容は結構面白い。オライリーのライターであるSteve Mallettが、LinuxFilterとかiTunesLove用にdiggからCSSとHTMLをパクったんじゃないか?という非難記事が発端。steveexposedというdiggユーザーが、自分がBloggerに書いた中傷記事を自作自演でsubmit(diggにポストする)しました。
Steve's Theft:
Steve Mallett from O'Reilly has stolen digg's code
It seems Steve Mallett, (writer for O’Reilly) has copy-and-pasted digg's CSS and HTML directly into his own digg clone sites. Then decided to SPAM O'Reilly sites on digg. Don’t worry, I have proof:
これがもうすごい反響、というか結果的に多くの人が釣られた模様。Steveの疑いは晴れたようですが、中傷記事があっという間に広がったことで、digg自体のダークサイドというか、「悪意の情報流布に弱い」のはWeb2.0共通の問題じゃないのと指摘されたりしてます。日本では2ちゃんねるで皆既に学習済みなのでこういうことにはならないと思うのだけど、こういう面ではアメリカは遅れているのかもしれないねえ。

真相はDigging The Madness of Crowdsに書かれています。
  • iTunesLove.comとLinuxFilteはオープンソースのPliggで作られている。
  • PliggはスペインのDiggクローンである、Menéameを元にしている。
  • MenéameはDiggのCSSをコピーして使っている。
CSSは確かに盗用されているのですが、オープンソースとしてのPliggを使ったSteveに罪はないと。Pliggの開発者が「DiggとMenéameのCSSを比べようなんて考えなかった。今から直すよ」とコメントを書き込んでいます。

メディアという意味では、第1報が真相であるとは限らないのでSlashDotとかBoingBoingは新しい情報が入ったりすると訂正はまめに行われています。裁判で負けたとか、明らかなウソだったとか、余程のことが無い限り、訂正記事を載せない(或いは載せても隅っこに小さく掲載)既存メディアと違って、CGM/UGMというのはダイレクトに批判される分、真面目だと考えることができます。Diggには悪意だったり間違った情報がsubmitされると訂正しようがないので、これはこれでDiggの方では改善策を考えているみたいですね。

余談ですが、Pliggは知らなかった。これはこれで面白そうだ。

[][][][][][][]

信じられん、ここまで来たか...

3Dモデリング画像。クリックしてリンク先を是非ご覧あれ。もう何を信じてよいのやら...。

Unbelievable
CGTalk - Female Face Study, Jonas Thornqvist (3D):
Female Face Study, Jonas Thornqvist (3D)
しかし、このCGSOCIETYというサイトはすごいね。その道の方には有名なんだろうけど、驚くようなCGが一杯ある。
[][][][]

clipmarksとか...

clipmarkslogoスクラップブック型のソーシャルブックマークサービス。Diggのような人気投票の仕組み(人気クリップ、タグ)や最新のクリップ状況のモニタ、ブログロール生成、firefox/IEブックマークレットなど、先行サービスのいいとこどり?

早速試してみました。画面のイメージじゃなくて、<div>セクション単位でのHTMLソースクリップになるというのが変わっているといえば変わっているかも。クリップイメージとしてはCSSは適用されないので、RSSで見たような感じになりますね。

clipmarks
the clipmarks blog

clipmarks

しかし、digg, del.iciou.us, technorati, BlinkList, clipmarks...もう、使い続けるのが大変。そろそろ整理しなきゃいけないかなあ...。clipmarks自体はBetaとは銘打っていないようだが、とにかくStartUpsの勢いは衰えていないように見えます。どんどん新しいサービスが出てきている。片っ端から使ってますが追いつかない(汗)。ただ、最近は似たり寄ったりのような感じがするし、レスポンスが悪かったり、自己満足っぽいのもあったりムラがある。当然、中にはBetaを諦める会社もあるようだ。で、そんな折、タイミングよくTechCrunchで「Don’t Blow Your Beta(ベータをあきらめんなよ)」って記事が。一言で言うと成功するベータの秘訣的アドバイスみたいなもの。
最近思うんだけど、考えようによっては自主的にベータ諦めるとかいう企業は良心的なのかもしれない。Betaの意味が「バグもあって完成度はまだだけど、ま、いいか」的だったりするのは簡便願いたいところ...と思ってたら、丁度、CNETで有名な渡辺聡さんのプライベートブログ「SW's memo」にβ公開とは何を意味するのかというポストが。独立されたので起業側の目線というのは仕方ないけど、ある意味、国内の現状が書かれているとも言えますね。
TechCrunch » Don’t Blow Your Beta
"I’ve seen hundreds of new products launch over the last six months, and I think I have some pretty good advice for companies that want to improve their beta release.

[][][][]

pando beta

Beta登録しておいたpandoの招待が来たので早速試してみる。これは巨大なファイルを送受信するためのWebメールのようなシステム。サイズに制限がないという触れ込み。仕組み的には、アップローダーに一旦ファイルやフォルダ毎をアップして、そこへのリンクをメールでやりとりするのに似ている。

pando

ここでBeta登録をすると使うことができる。同一ファイルが存在しても何も言ってくれないとか、操作面でもちょっと癖がある。GMailなんかは1添付あたり10MBという制限があるし、覚えておくと動画のやりとりをするときなど重宝するかもしれない。70MBを超えるファイルでテストしてみたが特に問題はなかった。

pando

[][][]

Adobe Lightroom Beta

アドビ(マクロメディア)が、1月8日にAdobe Labにおいて、プロ向けの写真整理・フィルタリング用ツール「Adobe Lightroom Beta」を公開したようだ。Lightroom Beta 1 Overview Videoという解説ビデオがあるのだけど、最初は「なんや、これ?写真整理ツールかいな」と思ったのだが、実はこれ、昨年10月20日にアップルが発表した、Apertureの競合なのだ。
両者は必要なマシンスペックが異なっていて、PertureがDual 2.0GHzG5+2GBRAM、Lightroom が1GHzG4+768MBRAM(最近、Mac使ってないのでどれくらい違うのかわからん(汗))となっている模様。

デジカメが発達して便利になった分、素人でさえJPEGベースの写真データの管理に苦労する時代になった。ましてや、写真のプロというのは素人とは違って膨大な量の写真を撮るし、おまけに彼らはJPEGという(圧縮ロスが生じる)非可逆圧縮のフォーマットベースで写真を選別したりしない。それに500dpiとか600dpiとかそういう世界ではなくて、1200dpiとか2400dpiとかそういうの世界だろうから、1枚が数十MB(もっと?)にもなるんだろうしね。そら、選ぶだけでも大変なんだろうというのはなんとなくわかる。

プロ向けのソフトの話なのにここで取り上げた理由は「データ量」にある。個人だろうが企業だろうが、これから扱わねばならないデータは飛躍的に増えることは間違いない。Web2.0の真髄もAjaxとかのコードではなくてデータ!、とどんどん傾注していってる > 自分。オライリーが言ってる通りなんだけどね。

話は逸れますが、以前、データベース屋さんと意見が対立したことがありました。僕はOSとかそれに近い系のソフトウェア屋だったので「データが一番だ」「いや、コードだ」と今から考えると無益な争いをしてた(笑)。 僕はその人がスキーマの美しさ(正規化レベルとか)とかセマンティックとかACID(Atomicity,Consistency,Isolation,Durability)の保証みたいなところ、つまり「データベース」を前提にしてるのが気に入らなかったのだ。

でも今は間違ってたのは僕だと詫びないとあかんかもなあ。結局はデータを効率よく意図通りに扱ってもらうためにユーザーインターフェースの改善をしたり応答性を高めたりしてるわけでしょ? その武器はAjaxだの、ruby/ror(ruby on rail)だったりpythonだったりするとして。Taggingも然り。Windows Vistaで搭載されるはずだったWinFS(誤解を恐れずに言えば、ファイルシステムを丸ごとSQL Serverにしちゃうってことです)も然り。SQLで自分のDisk上のデータを探そうってわけですから、目的は似たようなもん。
でもねえ、それでもきっと手段は足りない。デジカメの写真整理はPicasaでやってますが全然だめ。最初に几帳面にネーミングするタイプでもないし(笑)わけわからん状態になりつつある。そのうち、大切なメールにとんでもない写真を添付してしまいそうでコワイ。だいたいね、人間なんて「間違う」もんだし「忘却する」ものなんやから(笑)

で、人間とデータ量の戦いは人間は勝てないだろうから、自立型のデータ(つまり、自律コードを含んだオブジェクト)みたいな話は当然出るわけですが、一方でこれからはITの世界もますます性悪説(Ethical view that human nature is basically evil)をベースに考えなければならないってことがある。真面目な話、いずれ「性悪説開発方法論」とか「性悪説設計入門」とか「性悪説に基づくテスト方法論」とか、果ては「性悪説2.0」という書籍が出る予感がするわ、ホント(笑)。 とにかく、全てのデータにコードが含まれているなんて恐い恐い。WebページのJavascriptは許せるとして、JPEGファイル自身にコードが仕込まれたらこわくてクリックできないって(笑) すると、やはり、Web3.0あたりではついにOntologyとAgent(代理人)を導入しないとダメじゃないか、と一瞬思えるんですけど、性悪説ハンドリングにはもうヒトヒネリ要るはず! Googleはどう考えているのだろう...。一言、「Do not evil!」とデータ先頭に含めるか?

なんかまとまってないな、また続編書くかも、です。

[][][][][][]