View on GitHub

Today I Learned

Software Engineering Blog

クラウドデータレイクのアーキテクチャパターンについて。

3種類のクラウドデータレイクアーキテクチャ

架空の会社、クロダースコーポレーションがオンプレミスのデータレイクをクラウドに移行したい話の説明。

クラウドデータレイクアーキテクチャの主要な構成要素

ビッグデータ処理で扱うデータの分類

クラウドデータストレージサービス

ビッグデータアナリティクスエンジン

クラウドデータウェアハウス

モダンデータウェアハウスでは、データレイクとデータウェアハスはそれぞれ別の目的のために使われ、互いに補完し合いながら共存する。

データソースは以下の流れで各フェーズでデータレイクに保存される。

これらの高価値データは、データサイエンス、機械学習、クラウドデータウェアハウスで使われる。

データウェアハウスへのデータロードにはETLパターンが使われる。データレイクではELTパターンが使われる。

データエンジニアとデータ管理者は、データレイクとデータウェアハウスの2つのインフラを維持し続けなければならない。

データレイクハウスは、アナリティクスやデータサイエンスのためのデータレイクとBIのためのデータウェアハウスの機能が組み合わさった単一のプラットフォーム。

以下によってデータレイクに格納されるデータ形式の定義を実現した。

格納されるデータはスキーマに従わなければならない。また、クエリのために最適化されていなければならない。

メタデータは、コンピューティングエンジンがデータを更新する際に役立つ。

適切なデータ形式とコンピューティングエンジンの組み合わせを慎重に選ぶ必要がある。

データメッシュは、各ドメインから構成される分散アーキテクチャ。データインフラを中央集権的に管理するのではなく、分権的に各部門にデータのニーズを担当するスペシャリストを配置する。

データは収集すべき資産であるというよりは、社内で共有できるプロダクトであるという思想。

ビジネスに合わせて拡張できる、ドメインに選択権を与えるので柔軟性が増す、データ重視のカルチャーが浸透する。

各ドメインに優秀なソフトウェアエンジニアを配置する必要がある、分散化によって複雑性が増す。

適切なアーキテクチャを選択するためには？