Apache Spark入門動かして学ぶ最新並列分散処理フレームワーク

株式会社NTTデータ（著） , 猿田浩輔（著） , 土橋昌（著） , 吉田耕陽（著） , 佐々木徹（著） , 都築正宜（著） , 下垣徹（監修）

商品番号: 142660
販売状態: 品切れ
納品形態: 宅配便にてお届け
発売日: 2015年10月28日
出荷開始日: 2015年10月29日
ISBN: 9784798142661
判型: B5変
ページ数: 320
キーワード: プログラミングシステム構築ビッグデータ

※1点の税込金額となります。複数の商品をご購入いただいた場合のお支払金額は、単品の税込金額の合計額とは異なる場合がございますので、予めご了承ください。

Apache Sparkは多数のコンピュータを並列で動かして高速処理を実現する技術です。大量データのバッチ処理や機械学習など、ビッグデータの分野での活用が期待されるOSS（Open Source Software）です。

Apache SparkはUCバークレイで提唱されたRDD（Resilient Distributed Dataset）というデータモデルを採用し、メモリを上手に活用した効率的な処理を実現します。これにより、並列分散処理において高いパフォーマンスが期待できます。また、分散処理フレームワークHadoopとの高い親和性を有しており、YARNやHDFSなどのHadoopシステムの枠組が利用できます。

本書はApache Sparkの概要からRDDによる処理の仕組み、導入やアプリケーション開発までを解説します。また、「SQLインターフェイス」「機械学習」「ストリーム処理」「グラフ」などApache Spark周辺のライブラリの活用についても説明します。

話題のApache Sparkの仕組みとその利用方法を理解することにより、データ処理の新しい潮流を知ることができます。

第1章：Apache Sparkとは
第2章：Sparkの処理モデル
第3章：Sparkの導入
第4章：Sparkアプリケーションの開発と実行
第5章：基本的なAPIを用いたプログラミング
第6章：構造化データセットを処理する - Spark SQL -
第7章：ストリームデータを処理する - Spark Streaming -
第8章：機械学習を行う - MLlib -
Appendix
A. GraphXによるグラフ処理
B. SparkRを使ってみる
C. 機械学習とストリーム処理の連携
D. Web UIの活用

各種問い合わせは以下のリンクからご連絡ください