View on GitHub

Today I Learned

Software Engineering Blog

3. Design Considerations for Your Data Lake

クラウドデータレイクアーキテクチャを実装するために知って置かなければならない基礎知識。

データレイクのデータの整理、ガバナンス、コスト管理。

3.1 Setting Up the Cloud Data Lake Infrastructure

クラウド上にデータ0からクラウドデータレイクを構築するか、既にあるオンプレ化他のクラウドプロバイダのシステムをクラウドデータレイクに移植するか。

クラウドデータレイク実装プランのフレームワーク

  1. 現状評価と目標設定
  2. アーキテクチャと成果物の設計/定義
  3. 成果物の実装
  4. リリース、運用化

3.2 Organizing Data in Your Data Lake

データレイク内のデータをゾーンでまとめることによって、データが増えて利用方法が広がったときに役立つ。

未加工データゾーンは、ソースからインポートされたraw dataが格納される。

クレンジングデータゾーンは、構造化、半構造化、非構造化されたデータが格納される。スキーマ定義、データクレンジング、最適化がされる。

キュレーション済みゾーンは、クレンジングデータにさらに変換をかけて生成される。ビジネスダッシュボード作成に使われる。

ワークスペースゾーンは、ユーザが管理するゾーン。予備調査などに使われる。決まったルールはない。

また、この管理方法は、データに対するアクセス制御やデータ保持期間の管理にも役立つ。

3.3 Introduction to Data Governance

データガバナンス (data governance) は、企業が扱うデータがセキュアでアクセス可能、かつ有用で法令に準拠していることを保証するためのテクノロジー、ツール、プロセスを総合的に指す用語。データの品質管理、データアクセスポリシーの設定、データの保護とプライバシーの遵守が含まれる。

データタイプ (名前、名字、住所など)、クラス (PII、金融情報データクラスなど)、ポリシー (すべてのPIIはユーザの同意を得て収集しなければならない、など) を使ってデータを分類する。

データカタログを構築してメタデータを社内の各部門に公表する。最近は、社内外にデータセットを共有してアクセス料をもらうデータシェアリングが注目されている。

ネットワーク層、コンピューティングエンジン層、データストレージ層でデータのアクセス管理をし、データガバナンスルールを使ったアクセスポリシーを設定する

データの品質を保証するために計測しなければならないデータオブザーバビリティの5本柱

3.4 Manage Data Lake Costs

データレイクのコストには、ネットワークコスト、ストレージコスト、コンピューティングコストがある。

ストレージのティア、データ保護機能やレプリケーション、トランザクションコストをニーズに基づいて最適化する必要がある。