【本書の概要】
本書は、高い信頼性とハイパフォーマンスを両立する、OSSのストレージレイヤソフトウェアであるDelta Lakeの入門書です。セットアップから実際の操作手順、実行例まで、データ分析に携わる方が迷わずDelta Lakeを使いこなせるよう丁寧に解説を行います。
【本書で学べること】
・最新のデータ管理およびデータエンジニアリング手法
・ACIDトランザクションが大規模なデータレイクにどのように信頼性をもたらすのか
・データレイクに対してストリーミングジョブとバッチジョブを同時に実行する方法
・テーブルの削除、更新、マージ方法
・タイムトラベルを使用したロールバックによるデータバージョンの調査方法
・メダリオンアーキテクチャに従ったストリーミングデータ品質パイプラインの構築方法
【本書の対象読者】
・データ分析に携わる方
・Delta Lakeの基本事項、用語、始め方などを知りたい方
・最新のレイクハウスアーキテクチャの機能とメリットについて学びたいデータ担当者
・Apache Sparkの経験を持つデータ担当者
【目次】
Chapter 1 データアーキテクチャの進化
Chapter 2 Delta Lake入門
Chapter 3 Deltaテーブルの基本操作
Chapter 4 テーブルの削除、更新、マージ
Chapter 5 パフォーマンス・チューニング
Chapter 6 タイムトラベルの利用
Chapter 7 スキーマの取り扱い
Chapter 8 ストリーミングデータに対するオペレーション
Chapter 9 Delta Sharing
Chapter 10 Delta Lake上でのレイクハウス構築
※本書は『Delta Lake: Up and Running: Modern Data Lakehouse Architectures with Delta Lake』の邦訳です。
Chapter 1 データアーキテクチャの進化
Chapter 2 Delta Lake入門
Chapter 3 Deltaテーブルの基本操作
Chapter 4 テーブルの削除、更新、マージ
Chapter 5 パフォーマンス・チューニング
Chapter 6 タイムトラベルの利用
Chapter 7 スキーマの取り扱い
Chapter 8 ストリーミングデータに対するオペレーション
Chapter 9 Delta Sharing
Chapter 10 Delta Lake上でのレイクハウス構築