大規模分散システムの現在 --- GFS, MapReduce, BigTableは、どう進化したか
2013/07/29 マルレク「大規模分散システムの現在 --- GFS, MapReduce, BigTableは、どう進化したか」概要
21世紀の初頭、かってない巨大な規模の分散システムがネットワーク上で稼働を始めました。 現在のITを領導しているのは、こうした大規模分散システムを所有し、その上でサービスを提供しているGoogle, Amazon, Apple, Facebookといった企業達です。
クラウドの「利用」については、すでに多くの人の関心が集り、また多くの導入事例も積み上がっています。今回のマルレクは、それとは少し異なる角度から、大規模分散システムの技術の変化に焦点をあわせて、クラウドの現在を考えようと思います。
なぜ、私たちは、単にクラウドの「利用」だけではなく、大規模分散システムの技術の変化に注目する必要があるのでしょうか?
第一に、現代の大規模分散システムが取り組んでいるのが、規模の拡大の要求に最大限応えながら、同時に、リアルタイムの応答性を追求するという、現代のIT技術のもっとも重要な課題の一つだからです。
Web上のネットワーク・メディアの発展によって、止まることなく増え続けるWebスケールのアクセスと情報の増大の中で、リアルタイム性を追求するというのは、決して容易な課題ではありません。
第二に、現代の大規模分散システムは、大規模な情報をリアルタイムにハンドルしながら、同時に、正確なトランザクションを担保することを求められています。新しいネットワーク・マーケットの台頭とその規模拡大の中で、こうした課題の重要性は高まっています。ただ、それは、技術的に非常に挑戦的なものです。
大規模なデータ処理には、MapReduceが役に立ちます。ただ、MapReduceはバッチ型の処理で、リアルタイム性は欠けています。
NoSQL DBが提起した、Eventually Consistency の概念は、重要なものです。ただ、こうした原理的な限界と現実のトランザクション処理の間には、埋められるべき領域が、沢山残っています。
今回は、Googleのシステムの進化を中心に、大規模分散システムの技術の変化とその現在を考えて見よう と思います。
講演資料
- 大規模分散システムの成立
- すべては、ここから始まったGFS, MapReduce, BigTable
- GFSからGFS2へ
- Caffeine 新しい検索システム
- Dremel インタラクティブなデータ分析
- Spanner 新しい分散データベース
- Knowledge Graph 新しい検索技術
- 資料編