Daily Search Activities

Daily Search Activities
Googleが2003年8月14日の世界のサーチ状況をアニメーションGIFにしている。米国・欧州・日本・豪州あたりが活発だとわかる。中国は百度(Baidu)のせいか、それとも強制プロキシー経由のアクセス制限がまだ効いているためか、それほどでもない。
この機能がリリースされるのかどうかはわからない。リンク辿っていったら、これを分析するにあたって考えた理論を述べたGoogleの技術者論文(PDF)が見つかった。Sawzallという新言語を使ったこと、XMLの代わりにprotocol bufferを使っているとか、Google File Systemのことなどちょっと面白そう。Google LabによるResearch Publicationsには他にもクラスタアーキテクチャの紹介とかGoogleを語る人には読んでおいたほうが良さそうな論文がいくつかありますね。

Interpreting the Data:Parallel Analysis with Sawzall(PDF):
Rob Pike, Sean Dorward, Robert Griesemer, Sean Quinlan
Google, Inc.
(Draft submitted to Scientific Programming Journal)
Abstract
Very large data sets often have a flat but regular structure and span multiple disks and machines. Examples include telephone call records, network logs, and web document repositories. These large data sets are not amenable to study using traditional database techniques, if only because they can be too large to fit in a single relational database. On the other hand, many of the analyses done on them can be expressed using simple, easily distributed computations:filtering, aggregation, extraction of statistics, and so on. We present a system for automating such analyses. A filtering phase, in which a query is expressed using a new programming language, emits data to an aggregation phase. Both phases are distributed over hundreds or even thousands of computers. The results are then collated and saved to a file. The design – including the separation into two phases, the form of the programming language, and the properties of the aggregators – exploits the parallelism inherent in having data and computation distributed across many machines.

1/20 追記
ここのSawzallだとかMapReduceについて「ブログ→Google Base」につながる話を書いている方が居て「へぇ」と思った。Ningの核は収集されるソースコード群かと思ったらデータベース内のデータだという理解なのか。言われてみればそちらの方が自然だな。参考になりました。


Via Google Blogoscoped
[]