スケーラブルデータサイエンス データエンジニアのための実践Google Cloud Platform【PDF版】

Valliappa Lakshmanan(著) , 葛木 美紀(翻訳) , 中井 悦司(監修) , 長谷部 光治(監修)

商品番号
162910
販売状態
発売中
納品形態
会員メニューよりダウンロード
発売日
2019年06月05日
ISBN
9784798162911
データサイズ
約9.3MB
制限事項
印刷可・テキストのコピー可
キーワード
データベース  クラウド  電子書籍【PDF版】  データ分析  GCP  機械学習

販売価格:¥4,180(税込)

ポイント:380pt (10%)
詳細はこちら

送料無料 在庫あり

紙の書籍を見る
ほしい物リストに追加
  • 本製品は電子書籍【PDF版】です。
  • ご購入いただいたPDFには、購入者のメールアドレス、および翔泳社独自の著作権情報が埋め込まれます。
    PDFに埋め込まれるメールアドレスは、ご注文時にログインいただいたアドレスとなります。
    Amazon Payでのお支払いの場合はAmazonアカウントのメールアドレスが埋め込まれます。
  • 本製品を無断で複製、転載、譲渡、共有および販売を行った場合、法律により罰せられる可能性がございます。
  • ご購入の前に必ずこちらをお読みください。

身近な例からデータサイエンスの深淵を体感し
スケールさせるノウハウを学ぶ

【本書の内容】
「膨大なデータを分析して傾向を探り意思決定に援用する」とはよく耳にするフレーズですが、「膨大なデータ」から「援用する」までの間に、どのようなことがなされているのでしょうか。その各段階における必要な知識や技能やツールやインフラにはなにがあるのでしょうか。
本書はそういった疑問を、身近な例(フライトスケジュールからミーティングの参加・不参加確定)から説き起こします。とはいえ、それは単に米国運輸省のデータをダウンロードし、フライトの傾向を時間軸に合わせて分析し、スケジュールとして提示する、という“シンプル”なストーリーではありません。
「データ分析を実行してビジネスで成果を出す」ことができる人を「データエンジニア」と呼ぶ、Googleならではの文化が色濃く出た1冊です。すなわち、クエリの構築やレポート、グラフ化が最終目標ではなく、それらをひっくるめたスケーラブルで反復可能なシステムを構築できる人材への足がかりとなる1冊であり、肩書としての「データサイエンティスト」から、真に求められているデータサイエンティストへと、自身をスケールしていくための手引書です。

本書は、
Valliappa Lakshmanan,
"Data Science on the Google Cloud Platform: Implementing End-to-End Real-Time Data Pipelines: From Ingest to Machine Learning", O'Reilly Media, January 12, 2018.
の邦訳版です。

【本書のポイント】
・Google Cloud Platformの具体的な活用方法
・データ分析からサービス構築まで、必要な知識
・データサイエンスをスケールするという考え方

【読者が得られること】
・データサイエンスに必要な知識を段階を追って習得できる
・データ収集からサービス構築までの一連の流れを理解できる
・各ステージにおける勘所や肝となる考え方を学べる
・Google Cloud Platformにある一群のツールを使えるようになる
・統計学や機械学習を理解していれば、モデルをコード化できるようになる

【対象読者】
・データエンジニア、データサイエンティスト
・データアナリスト、データベース管理者
・システムプログラマ

PDF版のご利用方法

  1. ご購入後、SEshopにログインし、会員メニューに進みます。
  2. ご購入電子書籍およびデータ > [ご購入電子書籍およびダウンロードデータ一覧]をクリックします。
  3. 購入済みの電子書籍のタイトルが表示されますので、リンクをクリックしてダウンロードしてください。
  4. PDF形式のファイルを、お好きな場所に保存してください。
  5. 端末の種類を問わず、ご利用いただけます。

本書では、クラウドを活用した、これまで以上にコラボレーティブな新しいデータサイエンスの姿を具体例を通して説明します。エンドツーエンドのパイプラインの実装では、サーバーレスな方法でデータを取り込むことから始め、探索的データ分析、ダッシュボードの実装、リレーショナルデータベースの活用、さらには、ストリーミングデータの取り扱いを学びます。そして、最後には機械学習モデルのトレーニングと運用へと至ります。データエンジニアは、サービスの設計から始まり、統計モデルと機械学習モデルの作成、そしてそれらを大規模なリアルタイム処理の本番システムとして実装するというすべての作業に携わることになります。そこで必要となる、データに関連するすべてのサービスについて説明を行います。

第1部データに基づくより良い意思決定

データ分析の目的と、統計モデルと機械学習モデルを使用したデータドリブンな意思決定の方法、そして、将来このような役割が期待される市場背景について学びます。

第2部クラウドへのデータの取り込み

米国運輸統計局(BTS)のWebサイトからフライトデータを取り込む作業を自動化します。取り込みのプロセスをサーバーレスにして、App EngineのCronサービスから呼び出せるようにします。

第3部魅力的なダッシュポードを作成する

エンドユーザーの知見をできるだけ早期に取り込み、モデルに反映する必要性を学びます。これを実現するために、データポータルを用いてCloud SQLをデータソースとするダッシュボードを作成します。

第4部ストリーミング・データ処理

リアルタイムのフライトイベントを再現するシミュレーターを作成します。また、シミュレーターがCloud Pub/Subに発行するメッセージを用いてCloud Dataflowによるストリーミング処理を行い、直近の到着遅延時間を集計して、その結果をBigQueryにストリーミングします。

第5部インタラクティブなデータ検索

Google BigQueryにデータセットをロードした後に、Cloud Datalabを使用してグラフを描くという手順で、インタラクティブなデータ探索を実施します。

第6部Cloud Dataprocによるベイズ分類器

Cloud Dataprocのクラスタを用いて、ベイズモデルを作成します。この際に、Apache Sparkを用いて、データを離散化するための近似分位法を適用し、Apache Pigを用いて、到着遅延が発生しないフライトの割合を計算します。

第7部Sparkによるロジスティック回帰分析

Apache Sparkを使用して、ロジスティック回帰の機械学習モデルを構築します。

第8部スライディングウィンドウによる集計処理

機械学習モデルの入力に使用する新たな特徴量として、出発遅延と到着遅延の平均値を計算する、Cloud Dataflowのパイプラインを構築します。ここには、スライディングウィンドウ、サイドインプット、複数のPCollectionをキーでグループ化する処理などが含まれます。

第9部TensorFlowを用いた分類モデル

TensorFlowを使用して、Deep&Wideモデルを用いた到着遅延予測の高性能な機械学習モデルを作成します。

第10部リアルタイム機械学習

デプロイされたモデルをマイクロサービスとして使用することで、リアルタイムに受信したフライトデータに予測結果を追加する処理を統合します。

付録A機械学習データセット内の機密データに関する考慮事項

機密情報を特定して保護するための戦略と、MLデータに関するセキュリティ上の懸念に対処するプロセスについて学びます。

第1章 データに基づくより良い意思決定
 1.1 多くの同様な意思決定
 1.2 データエンジニアの役割
 1.3 クラウドで実現するデータエンジニアリング
 1.4 この本の対象読者
 1.5 クラウドで進化したデータサイエンス
 1.6 この本で扱うケーススタディについて
 1.7 確率論的な意志決定
 1.8 データとツール
 1.9 コードに触れてみる
 1.10 まとめ

第2章 クラウドへのデータの取り込み
 2.1 オンタイム・パフォーマンスデータ
 2.2 データの保存場所
 2.3 データの取り込み
 2.4 毎月のダウンロードをスケジュールする
 2.5 まとめ
 2.6 コードに触れてみる

第3章 魅力的なダッシュボードを作成する
 3.1 ダッシュボードでモデルを説明する
 3.2 最初にダッシュボードを作成する理由
 3.3 正確さ、信頼性、良いデザイン
 3.4 Google Cloud SQLにデータを読み込む
 3.5 Google Cloud SQLインスタンスを作成する
 3.6 Google Cloud Platformの操作方法
 3.7 MySQLのアクセス制御
 3.8 テーブルの作成
 3.9 テーブルへのデータインポート
 3.10 第1のモデル
 3.11 ダッシュボードの作成
 3.12 データポータルを使ってみる
 3.13 まとめ

第4章 ストリーミング・データ処理
 4.1 イベントフィードの設計
 4.2 時刻補正
 4.3 Apache Beam/Cloud Dataflow
 4.4 Cloud Pub/Subにイベントストリームを発行する
 4.5 リアルタイムストリーミング処理
 4.6 まとめ

第5章 インタラクティブなデータ探索
 5.1 探索的データ分析
 5.2 フライトデータをBigQueryに読み込む
 5.3 Cloud Datalabによる探索的データ分析
 5.4 データの品質管理
 5.5 出発遅延時間に対応した到着遅延時間
 5.6 モデルの評価
 5.7 まとめ

第6章 Cloud Dataprocによるベイズ分類器
 6.1 MapReduceとHadoopエコシステム
 6.2 Spark SQLを使用した変数の離散化
 6.3 Pigを用いたベイズ分類
 6.4 まとめ

第7章 Sparkによるロジスティック回帰分析
 7.1 ロジスティック回帰
 7.2 特徴量エンジニアリング
 7.3 まとめ

第8章 スライディングウィンドウによる集計処理
 8.1 時間平均の必要性
 8.2 JavaでのDataflow
 8.3 時間平均の計算
 8.4 監視、トラブルシューティング、パフォーマンスチューニング
 8.5 まとめ

第9章 TensorFlowを用いた分類モデル
 9.1 より複雑なモデルへ
 9.2 データをTensorFlowに読み込む
 9.3 Experimentクラスの設定
 9.4 ディープニューラルネットワーク(DNN)モデル
 9.5 まとめ

第10章 リアルタイム機械学習
 10.1 予測サービスの呼び出し
 10.2 フライト情報への予測の追加
 10.3 ストリーミングパイプライン
 10.4 トランザクション、スループット、待ち時間
 10.5 まとめ
 10.6 本書のまとめ

付録A 機械学習データセット内の機密データに関する考慮事項
 A.1 機密情報の取り扱い
 A.2 機密データの識別
 A.3 機密データの保護
 A.4 ガバナンスポリシーの確立

各種問い合わせは以下のリンクからご連絡ください

感想・レビュー

ぶうやそ さん

2021-10-07

GooglCloudの技術リーダーをされている方の著書。具体的なデータ活用事例を題材とし、GooglCloudを活用してのデータ収集から、最終的なアウトプットまで一気通貫で書かれている。データエンジニアリングからデータサイエンス、機械学習まで学べるある意味オトクな本ではあるのだが、かなり手広い範囲なので、個々のパートに関しての深堀りは別途、他の書籍などで調べる必要あるだろう。データ活用の全体的な流れを把握するのには良い本ではないだろうか。翻訳が良かったせいか外国人著書の割に比較的読みやすかった印象。

みぎつた さん

2020-05-04

GCP周りはすっ飛ばしたけど、リアルタイムで運用する機械学習システムの構築手順は参考になった。

読書家先輩 さん

2020-02-27

大規模でスケーラブルなリアルタイム機械学習基盤の構築方法が実例とともに書かれている本。 基盤の実装だけでなくアルゴリズムの選定や手法についても書かれている。

関連商品

Pythonで動かして学ぶ!あたらしい機械学習の教科書 第3版

販売価格:2,970円(税込)

2022.07.19発売

紙と鉛筆で身に付ける データサイエンティストの仮説思考

販売価格:1,760円(税込)

2022.07.15発売

おすすめ特集

プログラミング本特集

翔泳社のプログラミング書籍の中から、入門・初級者向けの書籍をピックアップ!

アジャイル・スクラム関連本特集

アジャイル・スクラム入門書からプロフェッショナル向け開発書、チームマネジメント論まで

情報処理教科書シリーズ

情報処理技術者試験におすすめの参考書「EXAMPRESS 情報処理教科書シリーズ」で最短合格!

マネジメント・リーダーシップ特集

人材育成やチームビルディング、プロダクトマネジメントや業務改善など、組織を目標達成に導く書籍

デジタルマーケティング本特集

Webマーケティング、データ分析、ECなど、デジタルマーケティングに関するおすすめ書籍をご紹介

翔泳社のセミナー・講座

開発・ビジネス・マーケティング・EC運営・営業支援など、幅広いジャンルの講座を開催

特集をもっと見る