1. Big Data: Beyond the Buzz
クラウドデータレイクとは何か、どのようなメリットがあるか。
1.1 What Is Big Data?
ビッグデータ処理とは、データのソース、サイズ、形式についての制限や想定を設けることなく、データを格納、管理、分析するためのツールとテクノロジー。
ビッグデータ処理の目標は、品質にばらつきのあるデータを分析して高価値のインサイトを生み出すこと。
6つのV
- Volume (データ量)
- Velocity (スピード)
- Variety (多様性)
- Veracity (正確性)
- Variability (変動性)
- Value (価値)
1.2 Elastic Data Infrastructure: The Challenge
データインフラは、あらゆる形式、サイズ、形状のデータを格納できるだけでなく、このような多様なデータをインポート、処理、活用して価値のあるインサイトを引き出せなければならない。
データの増加と多様性の拡大にスケーリングできるようにならなければならない。
1.3 Cloud Computing Fundamentals
IT部門は、ハードウェアの調達やサポート、OSやアプリケーションのインストールや更新をするためのリソースが必要だった。さらにこれらはスケーリングできなかった。
クラウドコンピューティングは企業のこれらのITリソースの管理を大きく変えた。
1.3.1 Cloud Computing Terminology
クラウドコンピューティングの用語
- パブリッククラウド
- プライベートクラウド
- IaaS
- PaaS
- SaaS
1.3.2 Value Proposition of the Cloud
クラウド化のROI
- 総保有コスト (TCO) の低減
- Elasticな (弾力的な) スケーリング
- ライムラグのないイノベーション
1.4 Cloud Data Lake Architecture
トラディッショナルなオンプレミスデータウェアハウスの3層構造
- エンタープライズデータウェアハウス
- データマート
- BI
1.4.1 Limitations of On-Premises Data Warehouse Solutions
オンプレミスデータウェアハウスの問題点
- 構造化されたデータは多様な形式のソースを柔軟に扱うのが難しい
- 複数のデータストアに同じデータを格納すると、データコストが上がってエラーが起きがち
- ピーク時のニーズに合わせた計画を立ててハードウェアを購入しなければならない。
1.4.2 What Is a Cloud Data Lake Architecture?
クラウドデータウェアハウスは上記の問題を解決する。
未加工のデータをインポートし、インサイトを生み出すために高価値のデータに変換してから活用する。
1.4.3 Benefits of a Cloud Data Lake Architecture
クラウドデータレイクアーキtクチャの利点
- データに対する制限がない
- サイロなしの単一ストレージ層
- 同じデータストアに多様なコンピューティングを実行できる柔軟性
- 使用分だけの料金
- コンピューティングとストレージの独立したスケーリング
1.5 Defining Your Cloud Data Lake Journey
クラウドデータレイク導入のポイント
- クラウドに対する成熟度に関わらず、データレイクは会社の未来のために設計する。
- 実装は今すぐ必要なものに基づいて選択する。
クラウドデータレイクアーキテクチャ検討の際の目標
- データレイクのクラウドへの配置
- クラウドアーキテクチャに適した形へのデータレイクのモダナイズ