【背景】
企業においてデータ分析の需要が多くなってきているなか、
企業のデータ分析の現場において、
Webから様々なデータを集める「クローラー(クローリング)」と
集めたデータの解析を行う「スクレイピング」のニーズが
非常に高まってきています。
【対象読者】
・データの収集、解析などの仕事を請け負うプログラマー
・クローラー開発を請け負うエンジニア
【本書の特徴】
本書は、データ収集・解析などの仕事を請け負うプログラマーや、
クローラー開発を請け負う分析会社のエンジニアに向けて、
クローラーの開発手法から実際のクローリングおよび
スクレイピング手法ついて解説した入門書です。
本書ではデータ分析の現場でニーズの高まってきているPythonを利用して、
クローラー開発から始まり、クローリング、スクレイピングの基本から応用手法、
そして運用までそれぞれの開発が直面する場面に沿って丁寧に解説します。
最終章では目的別のクローラー開発手法を解説しています。
【Pythonのバージョンについて】
Python 3.6.2対応
【目次】
Part1 基本編
Chapter 1 クローラーとスクレイピングを体験する
Chapter 2 クローラーを設計する
Chapter 3 クローラーおよびスクレイピングの開発環境の準備とPythonの基本
Chapter 4 スクレイピングの基本
Part2 応用編
Chapter 5 クローラーの設計・開発(応用編)
Chapter 6 スクレイピングの開発(応用編)
Chapter 7 クローラーで集めたデータを利用する
Chapter 8 クローラーの保守・運用
Chapter 9 目的別クローラー&スクレイピング開発手法
Appendix クローラー&スクレイピングに役立つライブラリ
Part1 基本編
Chapter 1 クローラーとスクレイピングを体験する
Chapter 2 クローラーを設計する
Chapter 3 クローラーおよびスクレイピングの開発環境の準備とPythonの基本
Chapter 4 スクレイピングの基本
Part2 応用編
Chapter 5 クローラーの設計・開発(応用編)
Chapter 6 スクレイピングの開発(応用編)
Chapter 7 クローラーで集めたデータを利用する
Chapter 8 クローラーの保守・運用
Chapter 9 目的別クローラー&スクレイピング開発手法
Appendix クローラー&スクレイピングに役立つライブラリ
坂田 哲朗 さん
2017-10-30
章立てのバランスが良いと感じました。深掘りは少ないですが、全体が俯瞰できてありがたいです。ツールの選択や開発手法について、今までやってきたことの方向性に大きな間違いは無いことがわかって少し安心しました。Web API を作るのであればなにもフルスタックのDjangoでなくともFlaskでいいのか。予算が無いのでエンジニアとしてはフルスタックを目指さなければならないのだけれど。
Teruhisa Fukumoto さん
2018-05-06
Gunosyのエンジニアによる実践に基づいたクローラ&スクレイピングの技術良書。最初はwgetなどの基本的なツールの使い方から、はてなやTumblrのAPIを使って投稿を引っ張ってSlackやメールに通知する、みたいな読者が興味を持ちそうな話をしてくれ、実際のシステムの運用における注意まで記載があるなど、tipsが大量にあって素晴らしい。