View on GitHub

Today I Learned

Software Engineering Blog

11. The Future Of Data Engineering

データエンジニアリングの未来についての考察。

11.1 The Data Engineering Lifecycle Isn’t Going Away

データんジニアリングライフサイクルは消えない。

ツールやプラクティスがシンプルになっても、組織のデータ活用のためには新たな基盤、システム、ワークフローが必要になり、データエンジニアはこれらのシステムの設計やアーキテクチャ、構築、保守を中心になって進めることになるだろう。

11.2 The Decline of Complexity and the Rise of Easy-to-Use Data Tools

ツールはシンプルで使いやすくなり、クラウドでどの企業でもデータエンジニアリングができるようになった。

オープンソースデータツールもマネージドクラウドサービスとして提供されている。

データコネクタの人気も高まっている。FivetranやAirbyteなど。

11.3 The Cloud-Scale Data OS and Improved Interoperability

アプリケーションに対するOSのように、クラウドデータサービスに対する抽象化されたデータAPIが出現するだろう。

データ統合とデータアウェアネスが強化されたオーケストレーションプラットフォーム。パイプラインをコーディングし、それをオーケストレーションプラットフォームに渡すだけで、自動的にビルド、テスト、デプロイ、監視ができ量になる。

マネージドストリームプロセッサのサービスを管理してつなぎ合わせる次世代のライブデータのオーケストレーションツール。

11.4 “Enterprisey” Data Engineering

大企業がやっているような、データ管理、運用、ガバナンスがよりされるようになる。

11.5 Titles and Responsibilities Will Morph…

ソフトウェアエンジニアリング、データエンジニアリング、データサイエンス、MLエンジニアリングの協会はますます曖昧になっている。

MLエンジニアリングとデータエンジニアリングの中間、ソフトウェアエンジニアリングとデータエンジニアリングの中間の新たな職種が生まれるだろう。

11.6 Moving Beyond the Modern Data Stack, Toward the Live Data Stack

世界はデータウェアハウスをベースとした内部向けの分析やデータサイエンスから、次世代リアルタイムデータベースを用いてビジネス全体やアプリケーションをリアルタイムへ支える方向へと進んでいる。

11.6.1 The Live Data Stack

ライブデータスタックはモダンデータスタックの後継テクノロジとなる。

ライブデータスタックは、アプリケーションソースシステムからデータ処理、そしてMLまで、データのライフサイクル全体をカバーし、ストリーミングテクノロジを使用することで、リアルタイム分析とMLをアプリケーションに融合させる。

11.6.2 Streaming Pipelines and Real-Time Analytical Databases

ストリーミングパイプラインとリアルタイムアナリティクスデータベースは、モダンデータスタックからライブデータスタックへの移行を促すコアテクノロジーになる。

ライブデータスタックは、ストリーミング専用に構築されたOLAPデータベースによって駆動される。今だと、Druid, ClickHouse, Rockset, Fireboltなど。

11.6.3 The Fusion of Data with Applications

アプリケーションスタックはデータスタックとなり、その逆も起こるだろう。

アプリケーションは、ストリーミングパイプラインとMLによって、リアルタイムの自動化と意思決定を統合するだろう。

11.6.4 The Tight Feedback Between Applications and ML

データのフィードバックループが短くなれば、多くのアプリケーションにMLが統合されることになるだろう。

これを用いれば、アプリケーションがより賢くなり、さらににビジネス価値が高まる、というサイクルが生まれる。

11.6.5 Dark Matter Data and the Rise of…Spreadsheets?!

最も広く使われているデータプラットフォームは、スプレッドシートである。スプレッドシートは、複雑な分析をサポートする対話型のデータアプリケーションである。

スプレッドシートの対話型分析機能とクラウドOLAPシステムのバックエンド機能を組み合わせた、新しい種類のツールが表れるだろう。